Yapay zeka alanındaki farklı şirketlerin farklı öncelikleri bulunuyor. OpenAI'nin geleneksel olarak bireysel kullanıcılara odaklanırken, rakibi Anthropic kurumsal müşterilere yöneliyor. Elon Musk'ın kurduğu xAI ise son dönemde özellikle video oyunu rehberleri konusunda iddialı olduğunu gösteriyor. Business Insider'ın Grace Kay imzalı raporuna göre, SpaceX tarafından yakın zamanda satın alınan xAI startup'ı, Musk'ın çalışanlarına zorluk çıkardığına dair detaylı bilgiler içeriyor. Ancak bu raporda öne çıkan bir anekdot dikkat çekiyor: Anlatılanlara göre geçen yıl bir model sürümü, Musk'ın 'Baldur's Gate' video oyununa dair detaylı sorulara verilen yanıtların yetersizliğinden duyduğu memnuniyetsizlik nedeniyle birkaç gün gecikmiş.
OYUN YANITLARINDA YÜKSEK MÜHENDİSLİK EFORU
Bu durum üzerine üst düzey mühendisler, sürüm öncesinde yanıtları iyileştirmek için başka projelerinden çekilerek bu konuya yönlendirilmiş. Elbette, bilgi ve makine zekasının temel sorunlarını çözeceğini düşünerek işe gelip, 54 yaşındaki bir adamın video oyununu geçmesine yardımcı olmak için saptırılan saygın ve deneyimli bir mühendisin hayal kırıklığını tahmin edebilirsiniz. Ancak bu anekdot daha da önemli bir soruyu gündeme getiriyor: Musk, istediği oyun becerilerine ulaşabildi mi?
BALDURBENCH TESTİ: GROK'UN PERFORMANSI
Bu soruyu yanıtlamak için, RPG meraklısı Ram Iyer, 'Baldur's Gate' hakkında beş genel soru hazırlayarak bunları xAI'nin Grok modeli ile diğer üç büyük yapay zeka modeliyle karşılaştırdı. Bu teste 'BaldurBench' adını verdiğimiz yarı-kıyaslama denemesi adını verdik. Gazetecilik şeffaflığı gereği, tüm sohbet kayıtlarını kamuya açık hale getirdik. Grok, ChatGPT, Claude ve Gemini modellerinin yanıtlarını incelediğimizde, Grok'un oldukça iyi bilgiler sunduğu görülüyor. Yanıtları 'save-scumming' (kaydetme ve yeniden yükleme) yerine 'kaydetme' ve 'DPS' (hasar) yerine 'hasar' gibi oyuncu jargonlarıyla dolu olsa da, anlaşılabilen yanıtlar hem faydalı hem de bilgiliydi. Grok'un tablo ve teori oluşturmayı sevdiği de beklendiği gibiydi. 'Baldur's Gate' için pek çok rehber mevcut ve modeller genel olarak aynı kaynaklardan yararlanıyordu, bu nedenle en büyük farklar üslupta ortaya çıktı. ChatGPT madde işaretli listeleri ve kısa cümleleri tercih ederken, Gemini önemli kelimeleri kalınlaştırmayı seviyor. En büyük sürpriz ise Claude oldu; özellikle oyun deneyimini bozacak bilgi vermekten kaçındı. İyi parti kompozisyonları hakkında bir soru sorduğumda, "Çok stres yapmayın ve size eğlenceli gelen şeyi oynayın" diyerek rehberliği sonlandırdı. xAI'nin bu alana özel olarak odaklandığı ve denklik sağlamaya çalıştığı biliniyor. Bu nedenle, bildirilen yoğun çalışmanın ardından Grok'un tavsiyelerinin diğer modellerle aynı seviyede çıkmasına çok fazla anlam yüklememek gerekir. Yine de, xAI'nin denediğinde işleri yoluna koyabildiğini bilmek güzel.


