Meta, “ImageBind” adlı açık kaynak kodlu yapay zekâ modelini tanıttı. Bu model, altı farklı veri türünü birleştirerek insan algısına benzer bir şekilde bağlantı kurabilme yeteneğine sahip.
Geçtiğimiz ay basit çizimleri (doodle) animasyona dönüştürebilen açık kaynaklı yapay zekâ aracını tanıtan Meta, şimdi de insan algısını taklit etmeyi öğrenen “ImageBind” adlı açık kaynaklı yapay zekâ modelini duyurdu. Meta’nın yeni modeli, görsel oluşturan yapay zekâ araçlarından farklı olarak, kullanıcıların metin, görüntü, video, ses dosyası, 3B ölçümler, sıcaklık verileri ve hareket (IMU) verileri arasında bağlantı kurma imkânı sağlıyor. Sadece bir görüntü oluşturmakla kalmıyor, aynı zamanda sahneyle ilgili sesleri, sıcaklıkları ve hatta kesin konumları içeriğe ekleyebiliyor.
ImageBind, altı farklı veri türünü birleştirerek çok katmanlı içerik oluşturma yeteneğine sahip. Bu karmaşık süreci, kullanıcıya ihtiyaç duymadan kendi başına gerçekleştirebilen ImageBind, olasılıklar üzerinde çalışma gereksinimi olmadan çalışabiliyor. Veri kümelerine ihtiyaç duymadan, tüm veri akışını tek bir yerde birleştirerek holistik bir yaklaşım sergileyen ImageBind’ın en dikkat çekici özelliği ise insan algısını taklit edebilmesi. Model, insanların çevrelerini algılama şekline benzer bir şekilde farklı veri grupları arasındaki bağlantıları tahmin ediyor.
Şirketin açıklamasına bakıldığında ImageBind bir görselde bulunan nesneleri algılayarak hakkında bilgi sağlayabilen bir yapay zekâ modeli olarak tanımlanıyor. Örneğin model, bir nesnenin sıcaklık durumunu, çıkardığı sesi, şeklini ve hareketini belirleyebilme yeteneğine sahip olabiliyor. Ayrıca ses tabanlı olarak görüntüdeki nesneleri ayırabilir ve statik görüntüleri sesli komutlarla birleştirerek animasyonlar oluşturabilir. Henüz prototip aşamasında olan ImageBind, Meta’nın çok modlu yapay zekâ sistemlerini oluşturma çabalarının bir uzantısı olarak kabul ediliyor.