Google “VLOGGER” Yapay Zekasını Tanıttı

Google üretken yapay zeka çalışmalarına ve araştırmalara hız kesmeden devam ediyor. Yazılım devi kısa bir süre önce fotoğraflara can katan “VLOGGER” yapay zeka modelini tanıttı.

Google araştırmacıları, tek bir fotoğrafı kullanarak konuşan, el kol hareketleri yapan ve hareket eden gerçekçi videolar üretebilen yeni bir yapay zeka sistemi geliştirdi. “VLOGGER” adı verilen bu teknoloji, şaşırtıcı derecede gerçekçi görüntüler sentezlemek için gelişmiş makine öğrenimi modellerine dayanıyor. Bu yeni teknoloji bir dizi potansiyel uygulamanın önünü açarken aynı zamanda “deepfake” videolarıyla ilgili endişelere neden oluyor.

Google VLOGGER, Fotoğraflara Can Veriyor

Google’ın VLOGGER yapay zeka modeli, bir kişinin fotoğrafını ve bir ses kaydını girdi olarak kullanarak son derece gerçekçi sonuçlar üretebiliyor. Model, kişinin sesiyle eşleşecek şekilde kelimeleri konuşturabiliyor ve buna uygun el ve yüz hareketlerini yapabilen videolar oluşturabiliyor. Elbette videolar mükemmel olmaktan uzak olsa da, hareketsiz görüntüleri canlandırma becerisinde önemli bir ilerleme kaydedildiği görülüyor.

Google Research’ten Enric Corona liderliğindeki araştırmacılar, VLOGGER için difüzyon modelleri adı verilen bir tür makine öğrenimi modelinden yararlandılar. Difüzyon modelleri, son zamanlarda metin istemlerinden gerçekçi görüntüler üreten yapay zeka sistemlerinde kullanılmaktaydı. Ekip, bu modelleri video alanına adapte ederek ve geniş bir veri kümesi üzerinde eğiterek fotoğraflara son derece ikna edici bir şekilde hayat verebilen bir yapay zeka sistemi oluşturmayı başardı.

Araştırmada yazarlar, VLOGGER’ın önceki yöntemlerin aksine her bir kişi için ayrı eğitim gerektirmediğini, yüz algılama ve kırpmaya dayanmadığını ve tüm görüntüyü tek seferde ürettiğini belirtiyorlar. “MENTOR” adı verilen ve 800.000’den fazla farklı kimlik ve 2.200 saatlik video üzerinde eğitilen VLOGGER, dublaj ve video düzenleme alanında potansiyel olarak kullanılabilir. Bu teknoloji aynı zamanda sanal gerçeklik ve oyunlar için fotogerçekçi avatarlar oluşturmak için de kullanılabilir. Ayrıca, daha ilgi çekici ve etkileyici yapay zeka destekli sanal asistanların ve sohbet robotlarının oluşturulmasına da olanak sağlayabilir.

Ancak, bu teknolojinin iyi kullanım senaryolarının yanı sıra kötüye kullanım potansiyeline de sahip olduğu belirtiliyor. Örneğin, bir videodaki kişinin yerine başka birinin benzerinin yerleştirildiği deepfake’lerin oluşturulması gibi. Yapay zeka tarafından üretilen bu videolar daha gerçekçi ve daha kolay oluşturulur hale geldikçe, yanlış bilgilendirme ve dijital sahtecilikle ilgili zorluk daha büyük bir sorun olmaya başlıyor. Bu nedenle, şu an için VLOGGER sadece bir araştırma modeli olarak mevcut durumda.