BİLİM VE TEKNOLOJİ
Yayınlanma : 20 Ocak 2026 10:13

İnsansı robot, video izleyerek gerçekçi dudak hareketlerini öğreniyor

İnsansı robot, video izleyerek gerçekçi dudak hareketlerini öğreniyor
Columbia Üniversitesi'ndeki bir laboratuvarda geliştirilen insansı robot, insan videolarını izleyerek gerçekçi dudak hareketleri öğreniyor. Bu teknoloji, robotların insanlarla daha doğal ve duygusal bağlar kurmasını sağlayabilir.

Columbia Üniversitesi Mühendislik Fakültesi'ndeki Creative Machines Lab'de geliştirilen bir insansı robot, insan videolarını izleyerek ve taklit ederek şimdiye kadar robotik dünyasında pek az örneği görülen düzeyde gerçekçi dudak hareketleri sergilemeyi başardı. Bu araştırma, bir otonom sistemin konuşma ve şarkı söylemeye yönelik doğal dudak hareketlerini yalnızca görsel öğrenme yoluyla kazandığı ilk çalışma olarak kayda geçti.

YÜZ HAREKETLERİNDE DEVRİM

İnsansı robot tasarımında yıllardır aşılamayan en büyük sorunlardan biri yüz hareketleri olmuştur. Yürüyüş, kavrama ve genel mekanik becerilerde ciddi ilerlemeler kaydedilmiş olsa da, özellikle konuşma sırasında ağız ve dudakların doğal hissettiren biçimde hareket etmesi hala büyük bir zorluk teşkil ediyor. En gelişmiş robotlar bile çoğu zaman kukla benzeri, yapay ağız hareketleri sergiliyor. İnsan beyni bu tür küçük tutarsızlıklara son derece hassas ve bu durum, robotların ürkütücü algılanmasına yol açıyor.

GÖRSEL ÖĞRENME İLE EĞİTİM

Araştırma ekibi bu soruna alışılmışın dışında bir yaklaşımla çözüm buluyor. Robotun yüzü, yumuşak sentetik bir deri altına yerleştirilmiş 26 minyatür motordan oluşuyor. Ancak bu motorlar, önceden her ses için elle yazılmış kurallarla değil; deneme, gözlem ve taklit yoluyla eğitilmiş. İlk aşamada robot bir aynanın karşısına yerleştiriliyor ve binlerce rastgele yüz ifadesi üreterek kendi hareketlerini izliyor. Bu süreçte hangi motor hareketinin yüzde nasıl bir şekil oluşturduğunu öğreniyor, yani robot, önce kendi yüzünün nasıl çalıştığını anlıyor da diyebiliriz.

İNSANLARLA DUYGUSAL BAĞ KURMA POTANSİYELİ

Bu aşamadan sonra ise insanları gözleme aşamasına geçilmiş. Sistem, YouTube'daki saatlerce konuşma ve şarkı söyleme videosu ile eğitildi. Geliştirilen vision-to-action (VLA) modeli sayesinde robot, sesi doğrudan motor komutlarına çevirmeyi öğrendi. Böylece duyduğu seslerle senkronize dudak hareketleri üretebildi. Testlerde robotun birden fazla dilde dudak senkronu yapabildiği, hatta Hello World adlı yapay zeka üretimi ilk albümünden parçalar söylerken oldukça ikna edici göründüğü belirtiliyor. Elbette sistem hala kusursuz değil. B harfi gibi sert dudak kapanışı gerektiren sesler veya W gibi büzülme isteyen harfler robot için hala zorlayıcı. Creative Machines Lab Direktörü ve makine mühendisliği profesörü Hod Lipson ise İnsanlarla ne kadar çok etkileşime girerse, o kadar iyi olacak diyor. Araştırmanın asıl önemi eğlence tarafında değil, iletişimin derinliğinde yatıyor. Daha doğal yüz hareketlerine sahip robotlar, insanlarla duygusal açıdan çok daha güçlü bağlar kurabilir. Çalışmanın başyazarı Yuhang Hu, bu tür yüz animasyonlarının ChatGPT veya Gemini gibi sohbet tabanlı yapay zekalarla birleştiğinde, etkileşimlerin duygusal gerçekliğini ciddi biçimde artırabileceğini vurguluyor. Zamanla mikro yüz ifadelerinin bağlama daha duyarlı hale gelmesi de mümkün.