7 May 2024
2 dk okuma süresi
ChatGPT’nin hayatımıza girdiği 2022 yılından bu yana yapımcı firma olan OpenAI hem yapay zeka tabanlı geniş dil modelini geliştiriyor hem de bu teknolojiyi yeni ve yaratıcı çözümler için değerlendiriyor. DALL-E ile komut girerek statik görüntüler oluşturmayı mümkün kılan OpenAI, yakın zaman önce duyurduğu Sora AI ile metinden son derece gerçekçi videolar oluşturabiliyor.
Sora AI henüz herkesin kullanımına açılmış değil. Şirket şubat ayında projeyi, "kırmızı takım" olarak da bilinen yapay zekâ ürünlerini test etmek olan seçilmiş birkaç kişinin kullanımına sundu. Ancak OpenAI’ın kurucusu Sam Altman’ın Sora’nın yeteneklerini paylaştığı tanıtımdan sonra proje sosyal medyada adeta gündeme oturdu.
ChatGPT, DALL-E ve Google Gemini gibi üretken yapay zekâ modelleri kullanıcının verdiği komutlar neticesinde ortaya bir çıktı çıkarıyor. ChatGPT ve Gemini yazışma diliyle yanıtlar sunarken DALL-E ise verilen komutlardan yola çıkarak statik bir görsel oluşturuyor. Sora AI ise bu süreci video yapımı için gerçek hale getiriyor.
Sora AI'a örneğin "güneş gökyüzünde parlarken okyanusta yelken açan mavi tekne" komutu verildiğinde yapay zekâ tam da buna yönelik bir video hazırlıyor. Kullanıcılar komut vermek konusunda ne kadar spesifik ya da ne kadar belirsiz olursa olsun yapay zekâ elde ettiği bilgiler doğrultusunda bir video çıktısı oluşturuyor. Ancak ne kadar fazla ayrıntı verilirse videoların detay seviyesi o kadar iyi oluyor.
Sora AI internette arama yaptığımızda çıkan sonuç sayfasında kullanılan mantığın aynısını kullanıyor. Yapay zekâ ne kadar çok örnek görürse aynı şeyi diğer görüntülere de o kadar iyi aktarabiliyor. En nihayetinde yapay zekâ bir şeyi yeterince gördüğünde kendi versiyonunu oluşturabiliyor.
OpenAI, yapay zekâ modelinin nasıl çalıştığını “Sora AI, videoların gerçekçi düzeyde nasıl göründüğünü bilmek için halka açık ve lisanslı veriler üzerine eğitilmiştir” şeklinde açıklıyor. Sora AI örnek olarak gerçek videolara bakıyor ve buradan elde ettiği bilgileri kendi versiyonlarını oluşturmak için kullanıyor.
Sora AI'dan “bir köpeğin videosunu çekmesi” istendiğinde bu ucu açık komuta yönelik daha önce gördüğü tüm köpek videolarına dayalı bir sonuç üretiyor. Videonun hangi ögelerinin kare kare nereye gitmesi gerektiğini anlamaya yardımcı olmak için görsel yamalar ve yapı taşları kullanıyor. Ne kadar çok görür ve öğrenirse o kadar iyi ve doğru sonuçlar veriyor.
Sora AI bugüne kadar metin komutlarından bir dakikaya kadar uzunlukta HD videolar üretebiliyor. “Gerçek dünya”, “çizgi film” ve “CGI” tarzı videolar oluşturma kapasitesine şimdiden sahip olsa da bu videolar henüz ses içermiyor.
Sora AI ayrıca durağan görüntülerden videolar da üretebiliyor. Mevcut videolardaki eksik kareleri doldurabiliyor ve birden fazla videoyu bir araya getirebiliyor. Aynı zamanda sonsuz döngü üretme yeteneği de bulunuyor. Yani başı ve sonu birbiriyle kusursuz biçimde eşleşen bir video oluşturarak döngü yaratabiliyor.
OpenAI şu sıralarda Sora AI üzerinde kapsamlı bir çalışma yapıyor. Yapımcılar Sora AI’a ses ve düzenleme araçları ekleme planlarının olduğu belirtiyor. Ayrıca kullanıcılara AI videolarındaki hataları manuel olarak düzeltme yeteneği de sunmayı amaçlıyor. Zira Sora AI’ın videolarında karşılaşılan bazı problemler bulunuyor. En sık rastlananlar arasında insanların kaybolması, gerçek dünyada mümkün olmayan şekilde hareket etmesi yer alıyor. OpenAI bu sorunları düzeltmek için çalışmalara başladığını belirtiyor.
Bu problemler çözüldüğünde ve Sora AI biraz daha geliştiğinde onu hayali dünyalar, filmler oluşturmak ve hatta dünyadaki gerçek yerleri fiziksel olarak ziyaret etmemize gerek kalmadan keşfetmenin mümkün hale geleceği öngörülüyor.
İlgili Postlar
Bulut maliyet yönetimi nedir?
31 Eki 2024
Dijital DönüşümYapay zeka şeffaflığı nedir?
28 Eki 2024
Dijital DönüşümStratejik inovasyon nedir?
25 Eki 2024
Dijital Dönüşüm