ChatGPT-4o nedir?

1 Tem 2024

2 dk okuma süresi

Yaklaşık 1,5 yıl önce ChatGPT’nin yayınlanmasıyla birlikte teknoloji dünyasında gözler üretken yapay zekâ sistemlerine çevrildi. Dünyanın önde gelen pek çok teknoloji şirketi OpenAI’ın ChatGPT devriminin ardından kendi üretken yapay zekâ çözümlerini geliştirmeye başladı. Özellikle son bir yıl, üretken yapay zekâ alanında büyük bir rekabete sahne oldu. Microsoft’un CoPilot’u, Google’ın Gemini’ı ve Anthropic’in Claude’u başta olmak üzere pek çok üretken yapay zekâ çözümünün tanıtıldığı bu dönemde son olarak ChatGPT’nin geliştiricisi OpenAI, çok modlu yapay zekâ modeli GPT-4o’yu tanıttı.

GPT-4o nedir?

OpenAI’ın son amiral gemisi olan GPT-4o, selefinin aksine çok modlu yapay zekâ modeli olarak yayınlandı. Bu da onu, sadece metin üzerinden etkileşim kurulabilen değil, yazı, ses ve görsel içerikleri de işleyebilen ve bunu yüksek hızlarda yapan bir yapay zekâ çözümü yapıyor. Üstelik GPT-4o, GPT-4’e nazaran daha düşük maliyetlerle yüksek performans sunuyor. Ücretsiz olarak yayınlanan GPT-4o ile birlikte ChatGPT kullanıcıları ilk kez ücretsiz bir GPT-4 modelini kullanma (geçmişte GPT-3 ve 3.5 kullanılabiliyordu) imkanına kavuşuyor.

GPT-4o, GPT-4’ten ne kadar farklı?

GPT-4o’daki "o", "omni" kelimesinden geliyor. Bu sözcük, modelin metin girdileri almanın yanı sıra ses ve görüntü girdilerini de yerel olarak anlayabildiği ve herhangi bir metin, görüntü ve ses kombinasyonuyla yanıt verebildiğini ifade ediyor. Tüm bunların birlikte çalışan birden fazla ayrı model yerine tek bir model tarafından yapılması büyük önem taşıyor.

ChatGPT'nin önceki ses modu sürümüne sorular sormak ve sesli yanıtlar almak mümkündü fakat bunu yapmak için üç ayrı yapay zekâ modeli kullanıldığı için yanıtlar uzun (3-6 saniye) sürüyordu. GPT-4o doğal olarak çok modlu olduğu için ses girişini, doğal dil işlemeyi ve ses çıkışını bizzat yönetebiliyor. Bu sayede GPT-4o ortalama 0,32 saniyede yanıt verebiliyor.

OpenAI’ın yeni yapay zekâ çözümü GPT-4o bir şey söylerken kullanıcılar araya girip konuşmayı bölebiliyor. Aşama aşama kullanıma sunulan bu özellik, GPT-4o ile iletişimi iki gerçek insan arasındaki etkileşime yaklaştırıyor. OpenAI ayrıca GPT-4o'nun konuşma ve ses tonu gibi duygusal durumu anlama konusunda da son derece yetenekli olduğunun altını çiziyor.

GPT-4o, görsellerle ilgili sorulara yanıt vermenin yanı sıra el yazısı gibi görsellerdeki şeyleri işleme konusunda da gözle görülür derecede hız kazanıyor. Bu hızlı bağlam değiştirme ChatGPT'nin çok daha kullanışlı bir gerçek dünya aracı haline gelmesini sağlıyor.

GPT-4o’nun maliyeti ve çalışma prensibi

GPT-4o, bir önceki GTP-4 sürümünün aksine ücretsiz olarak yayınlanıyor. Ancak bazı yeni özellikler ilk olarak Plus sürümüne sahip kullanıcılar tarafından kullanılıyor. Bu versiyonun aylık olarak ücretlendirmesi ise OpenAI tarafından 20 dolar olarak belirlendi.

GPT-4o, geliştiricilere yönelik bir API aracılığıyla da kullanılabiliyor. Bu model 1 milyon giriş jetonu başına 5 dolar ve 1 milyon çıkış jetonu başına 15 dolar olarak ücretlendiriliyor. Bu tutar bir önceki GPT-4 sürümünün yarısı seviyesinde kalıyor.

GPT-4o, diğer GPT modellerine benzer şekilde çalışıyor olsa da sinir ağı, metinle aynı anda görüntü ve ses üzerinde de eğitiliyor. Dolayısıyla bunları hem giriş hem de çıkış olarak işleyecek şekilde geliştiriliyor. Önceki yapay zekâ modellerinin eğitiminde kullanılan metinlere ek olarak GPT-4o'ya aynı anda ayrıştırılması için milyarlarca görüntü ve on binlerce saatlik ses de veriliyor. Bu da sinir ağının yalnızca “kedi” kelimesiyle ilgili bağlantılar kurmasını değil, aynı zamanda neye benzediğini ve nasıl ses çıkardığını anlamasını sağlıyor.

Benzer şekilde GPT-4o da neredeyse tüm modern yapay zekâ modellerinin kullandığı transformatör mimarisini kullanıyor. Son derece karmaşık olan bu mimari GPT-4o'nun uzun ve karmaşık istemlerin en önemli kısımlarını anlamasına ve aynı konuşmada önceki istemlerden gelen bilgileri hatırlamasına yardımcı oluyor.

İlgili Postlar