Geçen ay, Mercor'un yapay zeka ajanlarının hukuk ve kurumsal analiz gibi profesyonel görevlerdeki yeteneklerini ölçen yeni kıyaslamasını yazmıştım. O zamanlar, tüm büyük laboratuvarların yüzde 25'in altında puan almasıyla sonuçlar oldukça kötüydü, bu yüzden avukatların en azından şimdilik yapay zeka tarafından yerinden edilmekten güvende olduğu sonucuna varmıştık.
BİRKAÇ HAFTADA DEVRİM GİBİ DEĞİŞİM
Ancak yapay zeka yetenekleri birkaç haftada çok değişebiliyor. Bu hafta piyasaya sürülen Opus 4.6, sıralamaları alt üst etti. Anthropic'in yeni modeli, tek denemeli testlerde yüzde 30'a ramak kala puan alırken, soruna birkaç ek şans verildiğinde ortalama yüzde 45'e ulaştı. Özellikle, bu tür çok adımlı problem çözme konusunda yardımcı olmuş olabilecek 'ajan sürüleri' de dahil olmak üzere bir dizi yeni ajan özelliği sürümde yer aldı.
CEO'DAN ŞOK EDEN AÇIKLAMA
Her halükarda, bu puan önceki en iyi durumdan büyük bir sıçrama ve temel modellerdeki ilerlemenin yavaşlamadığının bir işareti. Özellikle etkilenen Mercor CEO'su Brendan Foody, 'Birkaç ayda yüzde 18,4'ten yüzde 29,8'e atlamak çılgınca' dedi. Yüzde 30 hala yüzde 100'den çok uzak, yani avukatların önümüzdeki hafta makineler tarafından değiştirilmesi konusunda endişelenmesine gerek yok.
AVUKATLARIN GÜVENİ SARSILDI
Ancak geçen aya kıyasla kendilerinden çok daha az emin olmalılar! Bu gelişme, yapay zekanın hukuk gibi karmaşık mesleki alanlarda ne kadar hızlı ilerleyebileceğini göstererek sektörde şok etkisi yarattı.



