BİLİM VE TEKNOLOJİ
Yayınlanma : 28 Ocak 2026 09:25

Google Gemini 3'ten devrim niteliğinde yenilik: Artık görselleri kodla analiz ediyor!

Google Gemini 3'ten devrim niteliğinde yenilik: Artık görselleri kodla analiz ediyor!
Google, Gemini 3 Flash için "Ajan Görüşü" özelliğini duyurdu. Bu yenilik, yapay zekanın görselleri tahminlere değil, doğrudan kanıtlara dayandırarak analiz etmesini sağlıyor. Model, "Düşün, Hareket Et, Gözlemle" döngüsü ve kod çalıştırma il

Google, yapay zeka alanındaki ilerlemelerine hız kesmeden devam ederek Gemini 3 Flash modeli için "Ajan Görüşü" (Agentic Vision) adını verdiği yenilikçi bir yeteneği duyurdu. Bu gelişme, yapay zekanın görsellerle ilgili görevleri çok daha doğru ve güvenilir bir şekilde yerine getirmesini hedefliyor. Sistemin en dikkat çekici yanı, kullanıcılara sunduğu yanıtları tahminlere değil, doğrudan görsel kanıtlara dayandırması ve böylece hata payını minimuma indirmesi.

YAPAY ZEKA DÜNYAYI KODLA ANALİZ EDECEK

Standart yapay zeka modelleri genellikle dünyayı tek bir sabit bakış açısıyla işlemeye çalışır. Eğer model, bir mikroçip üzerindeki seri numarası veya uzaktaki bir tabela gibi ince bir detayı gözden kaçırırsa, sonucu tahmin etmek zorunda kalır. Ancak Google'ın yeni yaklaşımı, görme eylemini pasif bir süreçten çıkarıp "aktif bir soruşturma" olarak ele alıyor. Model, sadece bakmakla yetinmeyip, görsel akıl yürütme yeteneğini kod çalıştırma araçlarıyla birleştirerek görüntüyü detaylıca analiz ediyor. Gemini 3 Flash, görsel içeren komutları en iyi şekilde yanıtlamak için görüntüleri yakınlaştırma, inceleme ve işleme gibi adım adım planlar oluşturuyor. Bu süreçte özellikle "Düşün, Hareket Et, Gözlemle" döngüsünden yararlanılıyor. Model önce kullanıcının isteğini analiz edip bir plan yapıyor, ardından Python kodu kullanarak görüntüyü kırpma, döndürme veya analiz etme gibi eylemleri gerçekleştiriyor. Son olarak, dönüştürülen görüntüyü bağlamına oturtarak nihai yanıtı oluşturmadan önce tekrar inceliyor.

GÖRSEL KARALAMA DEFTERİ VE KESİN HESAPLAMALAR

Model, kendisine verilen bir görüntüyü sadece sözlü olarak tanımlamakla kalmıyor, aynı zamanda akıl yürütme sürecini temellendirmek için doğrudan tuval üzerine çizim yapabiliyor. Örneğin, bir eldeki parmakları sayarken hata yapmamak için her parmağın üzerine sınırlayıcı kutular ve sayısal etiketler ekleyebiliyor. Bu "görsel karalama defteri" yöntemi, cevabın piksel düzeyinde mükemmel olmasını ve sayım hatalarının önüne geçilmesini sağlıyor. Ayrıca model, ince detayları tespit ettiğinde otomatik olarak yakınlaştırma yapabiliyor ve yoğun veri içeren tabloları analiz edebiliyor. Standart dil modelleri karmaşık görsel matematiksel işlemlerde sıklıkla hata yapabilirken, Gemini 3 Flash hesaplamaları deterministik bir Python ortamına aktararak bu sorunu büyük ölçüde aşıyor. Bu sayede olasılıksal tahminlerin yerini doğrulanabilir ve kesin işlemler alıyor. Agentic Vision, çoğu görsel testte %5 ila %10 arasında tutarlı bir kalite artışı sağlıyor. Bu özellik şu anda geliştiriciler için Google AI Studio ve Vertex AI üzerinden erişilebilir durumda ve Gemini uygulamasına da sunulmaya başlandı. Gelecekte ise web araması ve tersine görsel arama gibi araçlarla modelin dünyayı anlama yeteneğinin daha da genişletilmesi planlanıyor.