OpenAI, Perşembe günü profesyonel çalışmalar için 'en yetenekli ve verimli sınır modelimiz' olarak tanımlanan yeni bir temel model olan GPT-5.4'ü piyasaya sürdü. Standart versiyonun yanı sıra, GPT-5.4 ayrıca bir akıl yürütme modeli (GPT-5.4 Thinking) veya yüksek performans için optimize edilmiş (GPT-5.4 Pro) olarak da mevcut. Modelin API versiyonu, OpenAI'dan şimdiye kadar sunulan en büyük bağlam penceresi olan 1 milyon tokena kadar büyük bağlam pencereleriyle kullanılabilecek.
TOKEN VERİMLİLİĞİNDE İYİLEŞTİRMELER
OpenAI ayrıca geliştirilmiş token verimliliğini vurgulayarak, GPT-5.4'ün önceki modeline kıyasla aynı problemleri önemli ölçüde daha az token ile çözebildiğini belirtti. Yeni model, bilgisayar kullanım kıyaslamaları OSWorld-Verified ve WebArena Verified'da rekor puanlar da dahil olmak üzere önemli ölçüde geliştirilmiş kıyaslama sonuçlarıyla geliyor. Yeni model ayrıca OpenAI'ın bilgi işi görevleri için GDPval testinde yüzde 83'lük bir rekor puan aldı.
PROFESYONEL BECERİLERDE LİDERLİK
Mercor CEO'su Brendan Foody'nin bir açıklamasına göre, GPT-5.4 ayrıca hukuk ve finans alanlarında profesyonel becerileri test etmek için tasarlanan Mercor'un APEX-Agents kıyaslamasında liderliği aldı. Foody açıklamasında, '[GPT-5.4] sunum slaytları, finansal modeller ve hukuki analizler gibi uzun vadeli teslimatlarda mükemmelleşiyor' dedi ve 'rekabetçi sınır modellerinden daha hızlı ve daha düşük maliyetle çalışırken en üst performansı sunuyor' ifadelerini kullandı. GPT-5.4, şirketin halüsinasyonları ve gerçek hataları sınırlama çabalarını sürdürüyor. OpenAI, yeni modelin GPT 5.2 ile karşılaştırıldığında bireysel iddialarda hata yapma olasılığının yüzde 33 daha az olduğunu ve genel yanıtların hata içerme olasılığının yüzde 18 daha az olduğunu belirtti.
ARAÇ ÇAĞIRMA SİSTEMİ YENİLENDİ
Lansmanın bir parçası olarak, OpenAI, GPT-5.4'ün API versiyonunun araç çağırma yönetimini yeniden düzenleyerek Tool Search adlı yeni bir sistem tanıttı. Daha önce, sistem istemleri model çağrılırken tüm mevcut araçlar için tanımları ortaya koyuyordu - bu süreç, mevcut araç sayısı arttıkça çok sayıda token tüketebiliyordu. Yeni sistem, modellerin gerektiğinde araç tanımlarını aramasına izin vererek, birçok mevcut aracın olduğu sistemlerde daha hızlı ve daha ucuz isteklere yol açıyor. OpenAI ayrıca, modellerin çok adımlı görevler boyunca düşünce sürecini göstermek için verdiği sürekli yorum olan zincirleme düşünceyi test etmek için yeni bir güvenlik değerlendirmesi ekledi. Yapay zeka güvenliği araştırmacıları uzun süredir, akıl yürütme modellerinin zincirleme düşüncelerini yanlış temsil edebileceğinden endişe duyuyordu ve testler bunun doğru koşullar altında gerçekleşebileceğini gösteriyor. OpenAI'ın yeni değerlendirmesi, aldatmanın GPT-5.4'ün Thinking versiyonunda gerçekleşme olasılığının daha düşük olduğunu gösteriyor, 'modelin akıl yürütmesini gizleme yeteneğinden yoksun olduğunu ve CoT izlemenin etkili bir güvenlik aracı olmaya devam ettiğini' öne sürüyor.



