BİLİM VE TEKNOLOJİ
Yayınlanma : 23 Ocak 2026 00:46

Yapay zeka iş dünyasında sınıfta kaldı: Yeni testler şok edici sonuçlar ortaya koydu

Yapay zeka iş dünyasında sınıfta kaldı: Yeni testler şok edici sonuçlar ortaya koydu
Mercor'un yeni Apex-Agents kıyaslaması, yapay zeka modellerinin gerçek beyaz yakalı iş görevlerindeki zayıflığını ortaya koydu. Modeller, özellikle birden fazla alandaki bilgiyi birleştirme konusunda yetersiz kalarak profesyonellerin beklen

Yapay zeka (YZ) destekli araçların beyaz yakalı işleri devralacağına dair öngörüler iki yıla yaklaşırken, bilgi işçilerinin çalışma şeklinde beklenen büyük değişim henüz tam olarak gerçekleşmedi. Temel modellerdeki devasa ilerlemelere rağmen, YZ'nin profesyonel görevlerdeki etkisi yavaş ilerliyor. Bu durum, YZ alanındaki en büyük gizemlerden biri olarak görülüyordu, ancak Mercor adlı eğitim verisi devinin yeni araştırması sayesinde bu gizem aydınlanmaya başlıyor.

YENİ APEX-AGENTS BENCHMARK'I BEKLENENİ VERMEDİ

Mercor'un yeni araştırması, önde gelen YZ modellerinin gerçek beyaz yakalı iş görevlerindeki performansını değerlendiriyor. Danışmanlık, yatırım bankacılığı ve hukuk gibi alanlardan alınan görevler üzerinde yapılan testler sonucunda Apex-Agents adı verilen yeni bir kıyaslama (benchmark) oluşturuldu. Ancak sonuçlar, tüm YZ laboratuvarlarının sınıfta kaldığını gösteriyor. Gerçek profesyonellerden gelen sorgularla karşı karşıya kalan en iyi modeller bile soruların yalnızca dörtte birinden fazlasını doğru yanıtlama konusunda zorlandı. Çoğu zaman modeller yanlış veya hiç cevap vermedi.

ÇOKLU ALAN BİLGİSİ YZ'NİN ZAYIF NOKTASI

Araştırmacı Brendan Foody'nin belirttiğine göre, modellerin en büyük zorluğu birden fazla alandaki bilgiyi takip etmek oldu. Bu durum, insanların yaptığı bilgi işlerinin büyük bir bölümü için kritik öneme sahip. Foody, "Bu kıyaslamadaki en büyük değişikliklerden biri, tüm ortamı, gerçek profesyonel hizmetlere benzeterek modellememiz oldu" dedi. Gerçek hayatta işlerimizi tek bir kişinin her bağlamı tek bir yerde verdiği şekilde yürütmediğimizi, Slack, Google Drive ve diğer araçlar arasında çalıştığımızı vurguladı. Birçok YZ destekli araç için bu tür çoklu alan akıl yürütme hala tutarsız bir performans sergiliyor.