8 Tem 2021
3 dk okuma süresi
Pekiştirmeli makine öğrenimi, yapay zekanın öğrenme sürecini oyunlaştırarak deneme yanılma yoluyla görevleri öğrenmelerini sağlayan, insan gözetimine ihtiyaç duymayan bir tekniktir.
Takviyeli makine öğrenimi olarak da adlandırılan bu yaklaşım, yapay zeka sistemlerine bir görevi öğretmek için klasik ceza ve ödül yönteminden faydalanır. Eğer makine bir görevi doğru yaparsa ödül alırken, hata yaptığında cezalandırılır.
Pekiştirmeli makine öğrenimi sistemlerin hızlıca öğrenip uyum sağlamalarını teşvik etmek için sayısal ödülleri kullanır. Bu metot, yapay zekalara bir ortamda gerçekleştirdikleri hamlelerin doğru olup olmadığını geri bildirir. Dolayısıyla makineler herhangi bir ön programlama ya da insan müdahalesi olmaksızın tecrübelerinden öğrenirler.
Pekiştirmeli makine öğrenimi, İnnova Blog’da inceleyeceğimiz ilk makine öğrenimi tekniğiyken, yakın gelecekte mercek tutacağımız diğer türler gözetimli (denetimli) ve gözetimsiz (denetimsiz) öğrenmedir.
Pekiştirmeli makine öğrenimi nedir?
Pekiştirmeli öğrenme, bir yapay zekanın aldığı ödülü artırma arayışı üzerine kuruludur. Öğrenme süreci insanlar tarafından denetlenmez ve yapay zeka ajanı birbiri ardına sıralı kararlar verir. Denetimli öğrenmenin aksine, verilerin etiketlenmesi veya uygun olmayan eylemlerin düzeltilmesi gerekmez. Bunun yerine amaç, keşif ile görev arasında bir denge bulmaktır.
Pekiştirmeli öğrenim tekniği yapay zekanın bir ortamda ondan istenenleri keşfetmesi için ödüller kullanır ve makinenin mümkün olan en yüksek puanı toplama güdüsüne dayanır. Gerçek zamanlı gerçekleştirilen bu öğretim, kendisinden ne istediğine dair hiçbir fikri olmayan yapay zekanın sürekli geri bildirimlerle (ödül veya ceza) görevini öğrenmesini ve onu mükemmelleştirmesini amaçlar.
Pekiştirmeli makine öğrenimi nasıl çalışır?
Pekiştirmeli öğrenim, bir makinenin tıpkı insanlar gibi hatalarından ders çıkarmasını sağlar. Bu yaklaşımda, makine bir sorunu deneme yanılma yoluyla çözmeyi öğrenir. Geçmiş verilerin yapay zekalara beslendiği diğer makine öğrenimi yaklaşımlarının aksine, bu teknik tamamen makinenin eylemlerinden öğrenmesi üzerine kurgulanır.
Öğrenim gören yapay zeka sistemine ajan veya öğrenen denir. Makine, tıpkı insanlar gibi etrafındaki ortamı araştırır ve gözlemler. Eğer doğru eylemi gerçekleştirirse olumlu bir geri bildirim veya olumlu bir sayısal ödül alır. Makine ödüllerinin sayısını artırmak için sürekli denemeye devam eder.
Keşif, ajanın konfor bölgesinden çıkarak risk aldığı zamandır çünkü her hamlesi ödülünü tehlikeye atabilir. Keşif genellikle zorludur ve keşfedilmemiş bir bölgeye girmek gibidir. Bunu daha önce hiç gitmediğiniz, hakkında hiçbir bilginizin olmadığı bir yere seyahat etmek gibi düşünebilirsiniz. Ödülleri cezbedici olabileceği gibi, büyük riskleri de bulunur.
Pekiştirmeli öğrenmenin öne çıkan özellikleri
Makinelerin hızlıca öğrenip göreve adapte olmasını amaçlar.
Yapay zeka yalnızca kendi eylemlerinden öğrenir.
Herhangi bir insan gözetiminde gerçekleşmez, yapay zeka yalnızca ödüllerle güdülenir.
Yapay zeka için eylemler alacağı pozitif veya negatif geri bildirimle anlamlı hale gelir.
Yapay zeka bir sorunun çözümünü aldığı ödül sayısını artırmak için mükemmelleştirir.
Pekiştirmeli öğrenmenin amacı, herhangi bir durum için en iyi eylemi saptamaktır. Bu aynı zamanda eylemlerin doğruluğunun sıralanması ve onlara değerler atanması gerektiği anlamına gelir. En iyi eylem yapay zeka ajanının mevcut durumuna bağlı olduğundan, bu teknikte odak daha çok durum-eylem çiftlerinin değerleri üzerindedir.
Pekiştirmeli öğrenme tüm senaryolar için ideal değildir. Örneğin, bir sorunu çözmek için yeterli veriye sahip olunduğu durumlarda gözetimli öğrenme daha iyi sonuçlar verir. Ayrıca pekiştirmeli öğrenme zaman alan bir süreçtir ve yüksek hesaplama gücü gerektirir.
Pekiştirmeli makine öğrenimi türleri
Olumlu ve olumsuz olmak üzere iki tür pekiştirmeli makine öğrenimi türü vardır:
Olumlu pekiştirme
Olumlu pekiştirmeli öğrenme, aynı davranışın tekrarlanma olasılığını artırmak için beklenen bir davranış kalıbı sergilendiğinde bunu teşvik etmek için olumlu geri bildirimler verir. Bu yaklaşım, tıpkı bir çocuğun sınıfını iyi notlarla geçtiğinde ona verilen ödüllerle başarısının tekrarının teşvik edilmesi gibidir.
Olumsuz pekiştirme
Olumsuz pekiştirme, olumsuz durumu ortadan kaldırarak belirli bir olumlu davranışın ortaya çıkma şansını artırmayı amaçlar. Örneğin, bir çocuk sınavlarında başarısız olduğunda bilgisayar oynaması sınırlanarak olumsuz pekiştirilir. Bu hamle çocuğu başarısız olduğu için doğrudan cezalandırmak yerine, başarısız olmasına neden olabilecek olumsuz bir koşulu (bu durumda fazla oyun oynamak) ortadan kaldırır.
İlgili Postlar
Veri okuryazarlığı nedir?
7 Eki 2024
Büyük Veri