Elon Musk’ın yapay zeka girişimi xAI, yeni çok modlu (multimodal) modelini tanıttı: Grok-1.5V.
Grok-1.5 Vision, Grok-1’in yeteneklerini ileri taşıyor. Grok-1.5 Vision, metinlerin yanı sıra belgeler, fotoğraflar, ekran görüntüleri, grafikler ve diyagramları da algılayabiliyor.
Yeni model akıllı uzamsal-zamansal algılama yeteneklerine sahip. Karmaşık metinlerle mantık yürütme, bilimsel resimleri yorumlama ve görsel içerikle insan benzeri bir şekilde etkileşim kurma yeteneği ile öne çıkan Grok-1.5 Vision, multidisipliner muhakeme alanında uzmanlaşarak diğer modellerle rekabet ediyor.
Grok-1.5 Vision şirketin gerçek dünyadaki uzamsal anlayışı ölçümlenmesi için geliştirdiği RealWorldQA ölçütünde rakipleri geride bırakıyor. Karşılaştırma tablosundaki rakipler arasında Grok-1.5 Vision, GPT-4V, Claude, 3Sonnet, Claude 3 Opus ve Gemini Pro 1.5 bulunuyor.
Grok-1.5 Vision için çeşitli kullanım örnekleri de paylaşılıyor. Örneğin, çizimleri çocuklara özel hikayelere dönüştürebilmesi, bir grup obje arasında en büyük objeyi tanıyabilmesi, bir aracın sürücüsüne manevra konusunda destek olabilmesi gibi özellikler öne çıkıyor. Ayrıca, internet meme’lerinin bağlamını açıklayabilme yeteneği de vurgulanıyor.
Grok-1.5V’nin ise xAI’in Premium+ hizmetinden yararlananlar başta olmak üzere erken aşama test kullanıcılarına yakında açılması planlanıyor.