Gözetimli Öğrenme: Makinelere işe yaramayı öğretmek

Gözetimli Öğrenme: Makinelere işe yaramayı öğretmek

23 Eyl 2021

6 dk okuma süresi

Bu yazımızda son dönemde sık karşılaştığımız konulardan biri olan ve biz fark etmesek de yaşantımızın bir parçası haline gelmiş makine öğrenmesinden bahsedeceğiz. Gözetimli (Supervised) öğrenmeyi ise tüm öğrenme sürecini denetleyen bir öğretmen olarak düşünebilirsiniz. Bu, makinelerin öğrenmesinin en yaygın yollarından biridir ve yapay zeka alanında çok önemli bir araçtır.

Gözetimli öğrenme nedir?

Yapay zeka dünyasına yeni adım attıysanız, gözetimli öğrenme daha önce karşılaştığınız bir terim olmayabilir. Kısaca, yapay zeka sistemlerinin öğrenmesini ve ilerlemesini sağlayan bir makine öğrenimi stratejisi olarak tanımlanabilir.

Makine öğrenimi ve yapay zekanın bir alt kategorisi olan gözetimli öğrenme algoritmaları, örnek olarak öğretmek için tasarlanmıştır. Bu tür örnekler, eğitim verileri olarak adlandırılır. Burada her örnek, bir girdi nesnesi çifti ve istenen çıktı ise değeridir.

Gözetimli öğrenmede, makineyi “etiketlenmiş” verileri kullanarak eğitirsiniz. Bu, bazı verilerin zaten doğru yanıtla eşleştirildiği anlamına gelir.

Gözetimli öğrenme algoritması, etiketli eğitim verilerinden öğrenir, öngörülemeyen veriler için sonuçları tahmin etmenize yardımcı olur. Doğru öğrenme modelini başarıyla oluşturmak, son derece yetenekli veri bilimcilerinden oluşan bir ekip, zaman ve teknik uzmanlık gerektirir. Dahası, veri bilimci verilen girdiler değiştiğinde de sonucun doğru kalmasını sağlamak için modelleri yeniden oluşturmalıdır.

Model uydurma denilen kavram ise modelin benzer verilere ne kadar iyi genelleme yaptığının ölçüsünü ifade eder. İyi yerleştirilmiş bir model doğru sonuçlar verebilir. Şöyle ki fazla donatılmış bir model, verilerle çok yakından eşleşir; yetersiz donatılan bir model ise verilerle yeterince yakından eşleşemez.

Gözetimli öğrenme nasıl çalışır?

Eğitim, gözetimli öğrenmede çok önemli bir rol oynar. Eğitim aşamasında, yapay zeka sistemi çok sayıda etiketlenmiş veriyle beslenir. Daha önce bahsettiğimiz gibi, eğitim verileri, sisteme her bir farklı girdi değerinden, istenen çıktının nasıl olması gerektiği konusunda talimat verir.

Eğitilen modele daha sonra test verileri verilir. Bu, veri araştırmacılarının eğitimin etkinliğini ve modelin doğruluğunu belirlemesine olanak tanıyor. Şunu da unutmamak gerek, bir modelin doğruluğu, eğitim veri kümesinin boyutuna, kalitesine ve kullanılan algoritmaya bağlıdır.

Yüksek doğruluk her zaman iyi bir şey değildir. Örneğin, yüksek doğruluk, modelin fazla uyum sorunu yaşadığı anlamına da gelebilir. Böyle bir durumda model, test senaryolarında oldukça iyi performans gösterebilir, ancak gerçek dünya koşullarında doğru çıktı sağlamada başarısız olabilir. Bu olasılığı ortadan kaldırmak için test verilerinin eğitim verilerinden tamamen farklı olduğundan emin olmak gerekiyor. Ayrıca, modelin önceki deneyimlerinden cevaplar alıp almadığını da kontrol etmelisiniz.

Eğitim örnekleri de çeşitli olmalı. Aksi takdirde, daha önce hiç görülmemiş vakalar sunulduğunda, model çalışmayabilir.

Veri bilimi ve veri madenciliği (ham verileri faydalı bilgilere dönüştürme süreci) bağlamında, gözetimli öğrenme iki türe ayrılabilir. Bunlar sınıflandırma ve regresyondur.

Sınıflandırma algoritması, sunduğu verilerin kategorisini veya sınıfını belirlemeye çalışır. Spam e-posta ve ilaç sınıflandırması, sınıflandırma sorunlarının yaygın örneklerinden bazıları olabilir.

Öte yandan regresyon algoritmaları, sağlanan verilerin giriş özelliklerine dayanarak çıkış değerini tahmin etmeye çalışır. Dijital reklamların tıklanma oranlarını tahmin etmek yaygın regresyon problemlerine örnek verilebilir.

Gözetimli ve gözetimsiz öğrenme arasındaki farklar

Gözetimli ve gözetimsiz öğrenme arasındaki farkı anlamanın en iyi yollarından biri, satranç oynamayı nasıl öğreneceğinize bakmaktır. Evet satranç oynamak!

Bu doğrultuda ilk seçenek bir satranç ustasından oyunu öğrenmektir. Bir öğretici size temel kuralları, her bir taşın ne işe yaradığını ve daha fazlasını açıklayarak satranç oyununun nasıl oynanacağını öğretebilir. Oyunun kurallarını ve her parçanın kapsamını öğrendikten sonra, eğitmene karşı oynayarak devam edebilir ve pratik yapabilirsiniz.

Sonrasında eğitmen hareketlerinizi denetleyecek ve hata yaptığınızda sizi düzeltecek. Yeterli bilgi ve pratiği topladıktan sonra, rakiplerinize karşı rekabetçi bir şekilde oynamaya başlayabilirsiniz.

Gözetimli öğrenmede ise, veri bilimcisi, bir öğretmen gibi davranır. Temel kuralları ve genel stratejiyi besleyerek makineyi eğitir.

Bir öğretmen tutmak istemiyorsanız, yine de satranç oyununu öğrenebilirsiniz. Bunun yolu ise diğer insanların oyunu nasıl oynadıklarını izlemektir. Muhtemelen onlara soru soramayacaksınız. Ancak oyunu nasıl oynayacağınızı izleyebilir ve öğrenebilirsiniz.

Her bir satranç taşının adını bilmeseniz de oyunu gözlemleyerek her bir taşın nasıl hareket ettiğini öğrenebilirsiniz. Ne kadar çok oyun izlerseniz o kadar iyi anlarsınız ve kazanmak için uygulayabileceğiniz farklı stratejiler hakkında o kadar bilgi sahibi olursunuz.

Gözetimsiz öğrenmede ise veri bilimcisi makineyi gözlemleyerek öğrenmesini sağlar. Makine belirli adları veya etiketleri bilmese de kalıpları kendi başına bulabilir. Gözetimsiz öğrenme, algoritmaya sadece bir eğitim veri kümesinin verildiği tekniktir.

Gördüğünüz gibi, her iki öğrenme yönteminin de dikkate değer güçlü ve zayıf yönleri var.

Gözetimli öğrenmede, makineye kuralları ve stratejiyi öğretebilecek bilgili bir öğretmene ihtiyacınız var. Tıpkı satranç öğrenmek için bir öğretmene ihtiyacınız olduğu gibi. Aksi takdirde, oyunu yanlış öğrenebilirsiniz.

Gözetimsiz öğrenmede, makinenin gözlemlemesi ve öğrenmesi için çok büyük miktarda veriye ihtiyacınız var. Etiketlenmemiş veriler ucuz, toplanması ve saklanması kolay olmasına rağmen, yinelenen veya çöp verilerden yoksun olmalıdır. Kusurlu veya eksik veriler, makine öğrenimi yanlılığına neden olabilir. Yani makine ayrımcı sonuçlar üretemez.

Yine satranç örneğinde olduğu gibi, oyunu diğer oyuncuları gözlemleyerek öğreniyorsanız, bu, anlamadan önce onlarca oyunu izlemeniz gerektiği anlamına geliyor. Oyunu yanlış oynayan oyuncuları izliyorsanız, siz de aynısını yapabilirsiniz.

Bahsedilmesi gereken tekniklerden bir diğeri ise yarı gözetimli öğrenmedir. Tahmin edebileceğiniz gibi, yarı gözetimli öğrenme, gözetimli ve gözetimsiz öğrenmenin bir karışımıdır. Bu öğrenme sürecinde, bir veri bilimcisi makineyi biraz eğiterek üst düzey bir genel bakış elde eder. Makine daha sonra kalıpları gözlemleyerek kuralları ve stratejiyi öğrenir. Burada eğitim verilerinin küçük bir yüzdesi etiketlenecek ve geri kalanı etiketlenmeyecektir. Satranç öğrenme örneğinden gidersek, yarı gözetimli öğrenme, size sadece temel bilgileri açıklayan ve rekabetçi bir şekilde oynayarak öğrenmenize izin veren bir öğretmene benzetilebilir.

Gözetimli öğrenme algoritmaları nelerdir?

Gözetimli öğrenme sürecinde çok sayıda hesaplama tekniği ve algoritma kullanılmaktadır. Gözetimli bir makine öğrenimi algoritması seçilirken genellikle aşağıdaki faktörler göz önünde bulundurulur:

Sistemin öğrenmeye çalıştığı modelin karmaşıklığı

Algoritma içinde var olan önyargı ve varyans

Eğitim verilerinin boyutu

Verilerin doğruluğu, heterojenliği, fazlalığı ve doğrusallığı

Eğitim için uygun zaman

En sık kullanılan gözetimli öğrenme algoritmaları

En sık kullanılan gözetimli öğrenme algoritmaları Karar Ağacı, Nöral Ağlar, Doğrusal Regresyon, Destek Vektör Makineleri, Rastlantısal Orman ve Lojistik Regresyondur.

Doğrusal regresyon

Doğrusal regresyon, hem istatistiksel bir algoritma hem de bir makine öğrenme algoritmasıdır. Gözlenen verilere doğrusal bir denklem ekleyerek iki değişken arasındaki ilişkiyi modellemeye çalışan bir algoritmadır. İki değişkenden biri açıklayıcı, diğeri bağımlı değişken olarak kabul edilir.

Doğrusal regresyon, bir bağımlı değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkiyi belirlemek için de kullanılabilir. Makine öğrenimi alanında da tahminler yapmak için doğrusal regresyon kullanılır.

Lojistik regresyon

Lojistik regresyon, önceden sağlanan verilere dayanarak bir olayın olasılığını tahmin etmek için kullanılan matematiksel bir modeldir. Kredi puanlama ve çevrimiçi işlem sahtekarlığı tespiti, bu algoritmanın gerçek dünyadaki uygulamalarından bazılarına örnek olabilir.

Lojistik regresyon gibi, lineer regresyon da istatistik alanından ödünç alır. Ancak, sürekli bağımlı değişkenlerle çalışan doğrusal regresyondan farklı olarak, lojistik regresyon "doğru" veya "yanlış" gibi ikili verilerle çalışır.

Nöral ağlar

Yapay sinir ağları (Artificial neural networks - ANNs), öncelikle derin öğrenme algoritmaları tarafından kullanılır. Bunlar, büyük hacimli veriler arasındaki ilişkileri tanımak için insan beyninin işlevlerini taklit eden bir dizi algoritmadır. Tahmin edebileceğiniz gibi, ANNs, yapay zeka sistemleri için de kritik öneme sahiptir.

Sinir ağları, çoklu düğüm katmanlarından oluşur. Her düğüm girdiler, ağırlıklar, sapma ve çıktılardan oluşur. Yapay sinir ağları, ağın performansına göre giriş ağırlıklarını ayarlayarak eğitilir. Örneğin, sinir ağı bir görüntüyü doğru bir şekilde sınıflandırırsa, doğru cevaba katkıda bulunan ağırlıklar artarken diğer ağırlıklar azaltılır.

Destek vektör makinesi (Support vector machine - SVM)

Destek vektör makinesi, Vladimir Vapnik tarafından geliştirilmiş bir denetimli makine öğrenme algoritmasıdır. SVM’ler ağırlıklı olarak sınıflandırma problemleri için kullanılsa da regresyon için de kullanılabilir.

SVM'ler, belirli bir veri kümesini iki sınıfa en iyi şekilde bölen hiper düzlem bulma fikri üzerine kuruludur. SVM'nin uygulandığı alanlara yüz algılama, metin sınıflandırması, görüntü sınıflandırması gibi birçok örnek verilebilir.

Karar ağacı

Karar ağacı yöntemi, verileri sınıflandırmada kullanılan etkili yöntemlerden biridir. Kümeleme yönteminden farkı, denetimli makine öğrenmesi tarafından kullanılmasıdır. Yani elimizdeki verilerin etiketlenmiş olduğu durumlardaki ayrımlarını görmek için kullanıyoruz. Adından da anlaşılacağı üzere, veriler bir akış şeması halinde alt başlıklar veya ilişkili başlıklar olarak sınıflandırılır. Verileri yorumlamak ve veriler arası ilişki kurmak açısından avantajlı bir yöntemdir. Makine öğrenmesinde uygulandığı örneklerin arasında; karakter tanıma, kullanıcı davranışları belirleme, ses tanıma, hastalık teşhisi, kredi dolandırıcılığı tespiti gibi uygulamalar bulunur.

Rastlantısal orman (Random Forest)

Rastlantısal orman, bir topluluk olarak çalışan ve çok sayıda karar ağacından oluşan bir öğrenme yöntemidir. Rastgele değerlere göre oluşturulmuş dalları olan ağaçlar bütünü de diyebiliriz. Buna da haliyle orman deniyor. Hem sınıflandırma hem de regresyon için kullanılabilir.

Rastlantısal orman algoritması borsa, bankacılık ve tıp alanında yaygın olarak kullanılmaktadır. Örneğin, borcunu zamanında ödeme olasılığı daha yüksek olan müşterileri belirlemek için bu yönteme başvurulabilir.

Gözetimli öğrenmenin zorlukları

Gözetimli öğrenme, derin veri iç görüleri ve gelişmiş otomasyon gibi işletmelere avantajlar sunabilse de sürdürülebilir gözetimli öğrenme modelleri oluştururken bazı zorluklarla karşılaşabilirsiniz. Aşağıdakiler bu zorluklardan bazıları:

Gözetimli öğrenme modellerini doğru bir şekilde yapılandırmak için belirli düzeyde uzmanlık gerekebilir.

Gözetimli öğrenme modellerinin eğitimi çok zaman alabilir.

Veri kümeleri, yüksek insan hatası olasılığına sahip olabilir ve bu da algoritmaların yanlış öğrenmesine neden olur.

Gözetimsiz öğrenme modellerinden farklı olarak, gözetimli öğrenme verileri kendi başına kümeleyemez veya sınıflandıramaz.

Sonuç olarak, gözetimli öğrenme algoritmaları, etiketlenmiş verilerden yararlanarak büyük verileri kolaylıkla sınıflandırabilen ve hatta gelecekteki sonuçlar hakkında tahminlerde bulunabilen modeller oluşturabilir. Bu aynı zamanda makineleri insan dünyasına tanıtan mükemmel bir öğrenme tekniğidir.

İlgili Postlar

data_literacy

Veri okuryazarlığı nedir?

7 Eki 2024

Büyük Veri
Başarı Hikayeleri
Teknik Destek ‍
444 5INV
444 5 468 ‍
info@innova.com.tr