17 Oca 2023
2 dk okuma süresi
İşletmeler için en önemli değer haline gelen verinin üretimi her geçen gün daha da artıyor. Farklı araştırmalar farklı sonuçlar verse de günde ortalama 2,5 milyar GB veri üretildiği tahmin ediliyor. Ortaya çıkan bu verilerin büyük bir bölümü kullanışlı değilken, önemli bir kısmı ise enformasyona dönüşme noktasında kritik değer taşıyor.
Veri madenciliği kavramı, büyük veri kümelerini derinlemesine inceleyip, belirli bir amaca yönelik değerlendirmeye uygun veriyi bulma işlemi olarak ifade edilir. Veri madenciliği, işletmelerin verimliliğini artıran önemli bir teknolojidir. Kurumlar veri madenciliğini kullanarak, iş süreçlerine değer katacak kıymetli verilere ulaşmaya çalışırlar. İşletmelere kârlılık ve verimlilik noktasında büyük katkı sağlayan veri madenciliğini tam olarak anlayabilmek için ilişkili kavramları öğrenmek büyük önem taşır.
Veri madenciliğine dair en önemli kavramlardan biri olan veri temizleme, özellikle büyük veri kümelerinde ortaya çıkan bozuk ya da yanlış verileri algılama ve düzeltme işlemi olarak tanımlanır. Kurumlar için çok değerli bir işlem olan veri temizleme, ortaya çıkan işlevsiz verileri düzelterek kullanışlı hale getirir.
Veri madenciliği modelleri kurulmadan önce tercih edilen veri ön işleme, eksik veriyi tamamlamaktan tekrarlanan kayıtları düzeltmeye kadar veri üzerinde yapılacak pek çok iyileştirme işlemini ifade eder. Veri ön işleme, yalnızca sıralanmış veri setlerinde kullanılabilir ve tutarsız verileri en aza indirir.
Veri kümelerindeki değişkenler arasında bulunan ilişkileri inceleyen regresyon, istatistik tabanlı bir yöntemdir. Regresyon modelleri, çıktı değişkenini belirleyen girdi değişkenlerine göre bir doğru çizerek, tahminler yapmayı sağlar.
Kümeleme ise bir veri kümesindeki bilgileri, belirli kriterler ışığında kümelere ayırmayı mümkün kılar. Veriler arasındaki karşılaştırmalı özellikleri keşfetmeyi sağlayan kümeleme, verileri anlamlı gruplara ayırmaya yardımcı olur.
Veri madenciliğinde tahmin modelleri genel olarak, doğrusal ve doğrusal olmayan tahmin modelleri, lojistik tahmin modelleri, karar ağaçları tahmin modelleri ve makine öğrenmesi tahmin modelleri olmak üzere 5 grup altında toplanır.
Veri madenciliğinde öneri sistemleri ise kullanıcıların veriler arasındaki ilişkiler ve tahminler üzerine yönetim yapmasını mümkün kılar. Öneri sistemleri, veri madenciliğini kullanarak oluşturulan algoritmalar yardımıyla öneriler üretir.
Veri madenciliği içinde kullanılan bir öğrenme yaklaşımı olan Deep Learning (Derin Öğrenme), çok katmanlı ağları kullanarak karmaşık veri modelleri oluşturmayı sağlayan bir çeşit makine öğrenmesidir. Özellikle görüntü tanıma, ses tanıma ve üretme gibi karmaşık problemleri çözmek için kullanılan derin öğrenme, veriye erişimin kolaylaştırılmasını sağlayarak, kullanıcı deneyimini geliştirmeye yardımcı olur.
Machine Learning (Makine Öğrenimi) ise veri madenciliğinin daha iyi ölçümler ve sonuçlar elde etmesini sağlar. Bunu yaparken çeşitli teknikleri ve algoritmaları bir araya getirir. Belirsiz verileri öngörmeyi, tahmin etmeyi ve anlamaya çalışmayı hedefleyen makine öğrenimi, veri madenciliğinde bulunan verileri ve çıkarımları kullanarak daha isabetli sonuçlar alınmasını sağlar.
Veri madenciliğinde veri gizliliği kritik değer taşır. 25 Mayıs 2018’de Avrupa Birliği üye devletlerinde geçerli olmak üzere yürürlüğe koyulan Genel Veri Koruma Yönetmeliği (GDPR), kişisel verilerin korunması ve gizliliği için tasarlanmış bir düzenlemedir. Veri madenciliği için özellikle kişisel verilerin güvenli bir şekilde toplanması, saklanması, kullanılması ve paylaşılmasını sağlayan GDPR, kurumların gerekli önlemleri almasını zorunlu kılar.
Türkiye Büyük Millet Meclisi tarafından 7 Nisan 2016’da yürürlüğe konan Kişisel Verileri Koruma Kanunu (KVKK), özel hayatın gizliliğini ve kişilerin temel hak ve özgürlüklerini korumak için düzenlendi. KVKK ile ülkemizde kişisel verilerin işlenebilmesi için, ilgili kişinin açık rızası gerekir. Aksi halde kişisel verileri ihlal eden kişi ya da kurumlar çok ciddi idari para ve hapis cezaları ile karşı karşıya kalır.
İlgili Postlar
Veri okuryazarlığı nedir?
7 Eki 2024
Büyük Veri