Bilgisayarlı görü: Makineler dünyayı nasıl görür?
10.12.2021
Sosyal Medya

Bilgisayarlı görü: Makineler dünyayı nasıl görür?

Bilgisayarlı görü, yapay zekanın makinelere insanın görme yeteneğini kazandıran disiplinidir. Bakmak ve görmek farklı eylemlerdir. Görmek, bakılanın algılanmasını ve anlaşılmasını da içerir. Amaç yalnızca nesnelerden yansıyan ışığı almak değildir. Bu gözün işidir. Beynin görsel işlemlerden sorumlu oksipital lobu, görülen nesneleri işler ve anlamlandırır. Makineler, kameraları gözleri olarak kullanır. Oksipital lobun görevini ise görüntülerdeki binlerce pikseli işleyen bilgisayarlı görü modelleri gerçekleştirir. Kısacası, bilgisayarlı görü disiplini makinelerin gördüklerini anlamalarını sağlar.

Bilgisayarlı görü nedir?

50 milyar dolarlık bir pazar hacmine ulaşan bilgisayarlı görü (computer vision – CV), makinelerin dijital görüntüleri görmesini ve içeriklerini anlamasını sağlayan teknikleri geliştiren bir yapay zeka disiplinidir. Bilgisayarlı görü, makineleri çevrelerindeki dünyayı görmeleri ve anlamaları için eğitir.

Bu yapay zeka disiplini sürücüsüz otomobiller, yüz tanıma ve artırılmış gerçeklik dahil olmak üzere birçok teknoloji alanındaki yenilikler için kritik öneme sahiptir. Bilgisayarlı görü, üretilen dijital görsel verilerin miktarının hızla artması nedeniyle günümüzün en önemli AI disiplinlerinden birisine dönüşmüştür. Görsel verilerin artması, aynı zamanda bilgisayarlı görü algoritmalarının eğitilmesini de kolaylaştırıyor.

Milyonlarca yıllık gelişimin bir ürünü olan görsel algı, insanların en güvenilir yeteneklerindendir. Görsel algı, 5 yaşındaki bir çocuğun masadaki tüm nesneleri tek tek tanımladıktan sonra, bunun bir yemek masası olduğunu anlamasını sağlayan kabiliyettir. Makineler için bunu yapmak muazzam zor bir iştir ve bilgisayarlı görü onlara bu yeteneği kazandırmaya çalışır.

Bilgisayarlı görü, yapay genel zeka hedefine ulaşmak için de kritik bir rol üstleniyor. Makinelere insanların tüm yeteneklerini ve daha fazlasını kazandırmayı hedefleyen yapay genel zeka, zekamızın bir diğer önemli özelliği olan etrafımızdaki nesneleri anlama, hızla tanımlama ve doğru tepkiler verme yeteneklerini içermeden mümkün olamaz.

Bilgisayarlı görü nasıl çalışır?

Bilgisayarlı görü, küçükten büyüğe mantığıyla çalışan bir görsel işleme tekniği kullanır. Önce pikseller ve renkler gibi basit, sonrasındaysa çizgiler ve nesneler gibi daha karmaşık özellikleri tespit ve analiz eder.

Görüntülerin duygu ve bağlamını anlamak insanlar için basit ancak konu makineler olduğunda çok zor bir iştir. Koşan insanların olduğu bir fotoğrafa baktığınızı düşünün. Fotoğraf statik bir görüntü sunmasına rağmen, insanların koştuğunu anlarsınız. Makineler için ise görüntüler yalnızca birer piksel topluluğudur. İnsanlardan farklı olarak, bir görüntünün bağlamını anlayamazlar ve yalnızca pikselleri algılayabilirler. Bilgisayarlı görü bu denklemdeki anlamsal boşluğu kapatmaya çalışır.

Işık ışınları gözümüzün retinasına çarptığında, foto reseptör adı verilen hücreler ışığı elektrik sinyallerine dönüştürür. Bu elektrik sinyalleri daha sonra beyine optik sinir yoluyla gönderilir. Beyin ise bu sinyalleri görüntülere dönüştürür. Bu süreç, görüntüler yeterince açık hale gelinceye dek beyne ulaşan elektrik sinyallerini işlemeye devam eder. Beynin bu sinyalleri tam olarak nasıl işleyip, görüntüye dönüştürdüğü henüz tam olarak anlaşılmış değil. Kaldı ki, beynin başka birçok işlevini nasıl yerine getirdiği insanlar için hâlâ büyük bir soru işareti olmaya devam ediyor.

Bilgisayarlı görü, bir kara kutu olan insan beynini taklit etmeye çalışan sinir ağları ve diğer makine öğrenimi algoritmalarıyla çalışır. Araştırmacılar algoritmaları insan beynine benzetmek konusunda büyük bir başarı sergiliyor zira bazen bizzat yarattıkları algoritmaların beklenmedik davranışları tarafından şaşırtılabiliyorlar.

Bildiğimiz şey, bilgisayarlı görünün tamamen örüntü tanıma ile ilgili olduğudur. Gözetimsiz öğrenme gibi makine öğrenimi tekniklerini kullanan algoritmalar, görsel verilerdeki kalıpları tanımak için eğitilir. Eğitim süreci için çok sayıda görüntünün algoritmayla beslenmesi gerekir.

Algoritmanın fotoğraflardaki köpekleri tanımlamasını istediğinizi varsayalım. Denetimsiz öğrenme tekniğini izliyorsanız, hiçbir fotoğrafı etiketlemeniz gerekmez. Bunun yerine, makine binlerce veya milyonlarca görüntüyü analiz ettikten sonra köpeklerin belirli özelliklerini öğrenir. Makineler, bir hayvanın veya nesnenin belirleyici özelliklerini algılayabilir. Tanıdığı şeyin adını hâlâ bilmese de etiketlenmemiş bir görüntünün onu içerip içermediğini belirlemek için yeterli bilgi ve deneyime sahip olur. Sonra ona, öğrendiği şeyin bir hayvan ve köpek olduğunu söyleyebilirsiniz. Gözetimli öğrenme ise algoritmaları eğitme sürecini hızlandırır. Bu teknikte görüntüler etiketlenir ve makineler tanıdığı şeylerin ne olduklarını da öğrenir.

Bilgisayarlı görü ne işe yarar?

Bir görüntü tanımlama yazılımı uygulaması aşağıdaki tekniklerden birini kullanabilecekken, sürücüsüz otomobil gibi gelişmiş bir uygulama aşağıdaki birçok teknikten aynı anda faydalanır:

  • Nesne tanımlama: Bu teknik, bir görüntüdeki belirli bir nesneyi algılamak için kullanılır. Gelişmiş sürümleri, tek bir görüntüdeki birden çok nesneyi tanımlayabilir.
  • Görüntü sınıflandırması: Görüntülerin kategoriler halinde gruplandırılması tekniğidir. Görüntülere etiket atama işlemi olarak da adlandırılır.
  • Görüntü segmentasyonu: Bir görüntüyü parçalara ayırarak ayrı ayrı incelemek için kullanılan tekniktir.
  • Kalıp algılama: Görsel verilerdeki kalıpları ve devamlılıkları tanımlar.
  • Köşe algılama: Görüntünün bileşenlerini daha iyi tanımlamak için bir nesnenin köşelerini algılama işlemidir.
  • Özellik eşleştirme: Sınıflandırma amacıyla görüntülerdeki benzerlikleri eşleştiren bir tür desen algılama tekniğidir.

Bilgisayarlı görü uygulamaları nerelerde kullanılır?

Bilgisayarlı görü günümüzde birçok sektörde kendine kullanım alanı buluyor. Facebook, bu teknolojiyi kullanarak fotoğraftaki insanları otomatik olarak etiketleyebiliyor, Google fotoğrafları grupluyor, Adobe ise yakınlaştırılmış görüntülerin kalitesini iyileştiriyor. Bunlar dijital örneklerken, bilgisayarlı görünün fiziksel dünyada da birçok uygulama örneği bulunuyor. Karşılaşmış olabileceğiniz bazı gerçek dünya bilgisayarlı görü uygulamalarına yakından bakalım:

Yüz tanıma

Bilgisayarlı görünün en iyi kullanım örneklerinden bazıları yüz tanıma alanında görülüyor. Apple'ın 2017'de piyasaya sürdüğü iPhone X modeliyle popüler hale gelen yüz tanıma, günümüzde çoğu akıllı telefonda bulunan standart bir özelliğe dönüştü.

Yüz tanıma teknolojisi akıllı telefonlarda kimlik doğrulamanın yanı sıra, Facebook örneğinde olduğu gibi kişi tanımlamak amacıyla da kullanılıyor. Öte yandan, dünyanın dört bir yanından kolluk kuvvetlerinin, video yayınlarında kanunları çiğneyenleri tespit etmek için yüz tanıma teknolojisini kullandığı biliniyor.

Otonom araçlar

Otonom araçlar, gerçek zamanlı görüntü analizi için bilgisayarlı görüyü kullanıyor. Bu teknoloji, sürücüsüz otomobillerin çevrelerini anlamlandırmalarına yardımcı oluyor. Otonom sürüş teknolojileri hâlâ emekleme aşamasında ve güvenle trafiğe çıkmaları için daha fazla AR-GE çalışmasına ihtiyaç duyuluyor.

Sürücüsüz otomobiller bilgisayarlı görü olmadan çalışamaz. Bu teknoloji, otonom araçların görsel verileri gerçek zamanlı işlemesine yardımcı olur. Bilgisayarlı görü otonom araçlarda nesne tanımlama ve sınıflandırmanın yanı sıra, araçlar için 3B haritalar oluşturur.

Bilgisayarlı görünün bu alandaki diğer önemli kullanım durumları araç ve şerit çizgisi tespiti ile boş alan algılamadır. Adından da anlaşılacağı gibi, bu teknik araç çevresindeki engelsiz alanları saptamak için kullanılır. Serbest alan tespiti, sürücüsüz otomobil yavaş hareket eden bir araca yaklaştığında ve şerit değiştirmesi gerektiğinde kullanışlıdır.

Tıbbi görüntüleme

Bilgisayarlı görü, sağlık sektöründe daha hızlı ve doğru teşhisler koymak, hastalıkların ilerlemesini izlemek için kullanılır. Doktorlar, kalıp algılama modellerini kullanarak kanser gibi gözle görülemeyen hastalıkların erken semptomlarını tespit eder.

Bilgisayarlı görüyle gerçekleştirilen tıbbi görüntüleme analizi, tıp uzmanlarının görüntüleri analiz etmesi için gereken süreyi kısaltır. Endoskopi, X-ışını radyografisi, ultrason ve manyetik rezonans görüntüleme (MRI) bilgisayarlı görü kullanan tıbbi görüntüleme disiplinlerinden bazılarıdır.

Tıp uzmanları, evrişimsel sinir ağlarını tıbbi görüntüleme ile eşleştirerek iç organları gözlemleyebilir, anormallikleri tespit edebilir, belirli hastalıkların nedenini ve etkisini anlayabilir. Ayrıca doktorların hastalıkların gelişimini ve tedavilerin ilerlemesini izlemesine yardımcı olur.

İçerik denetimi

Sosyal medya ağlarının her gün milyonlarca yeni gönderiyi gözden geçirmesi gerekir. Gönderilen her görüntü veya videoyu inceleyen bir içerik denetleme ekibine sahip olmak artık pratik değil ve bu nedenle süreci otomatikleştirmek için bilgisayarlı görü sistemleri kullanılıyor. Bilgisayarlı görü, sosyal medya platformlarının yüklenen içerikleri analiz etmesine ve sakıncalı görüntüler içerenleri işaretlemesine yardımcı oluyor. Şirketler, rahatsız edici yazılar içeren paylaşımları belirlemek ve engellemek için metin analizi için derin öğrenme algoritmaları da kullanıyor.

Gözetim

Video yayınları sağlam bir kanıt biçimidir. Kanunları çiğneyenleri keşfetmeye ve güvenlik uzmanlarının küçük endişeler felakete dönüşmeden önce harekete geçmesine yardımcı olurlar. İnsanların birden fazla kaynaktan gelen gözetleme görüntülerini takip etmeleri neredeyse imkansızdır ancak bu bilgisayarlı görü için kolay bir görevdir. Bilgisayarlı görü destekli gözetim sistemleri, canlı görüntüleri tarayabilir ve şüpheli davranışları tespit edebilir.

Yüz tanıma, aranan suçluları belirlemek ve böylece suçları önlemek için kullanılabilir. Kalabalık alanlarda tehlikeli nesneler taşıyan kişileri tespit etmek için yukarıda bahsettiğimiz nesne tanımlama tekniği kullanılabilir. Bu teknik aynı zamanda, akıllı şehirlerde müsait olan park yeri sayısını belirlemek için de kullanılır.