Küresel teknoloji şirketi Yandex, büyük dil modellerinin (Large Language Model-LLM) eğitimi için yeni ve açık kaynaklı bir yöntem olan YaFSDP’yi tanıttı.
YaFSDP, GPU iletişimini geliştirmek ve LLM eğitiminde bellek kullanımını azaltmak için halka açık hale getirildi. YaFSDP kullanımıyla LLM’lerin eğitim süresinin azaltılması ve GPU kaynaklarında yüzde 20’ye varan tasarruf sağlaması öngörülüyor.
YaFSDP metoduna Github üzerinden ücretsiz olarak erişilebiliyor. YaFSDP’nin geliştirici ekibinden Mikhail Khruschev, Yandex’in şu anda YaFSDP’nin çok yönlülüğünü genişletmek için çeşitli model mimarileri ve parametre boyutları üzerinde aktif olarak deney yaptığını belirtti.
YaFSDP’nin FSDP’nin geliştirilmiş bir versiyonu olduğunu, ön eğitim, hizalama ve ince ayar gibi LLM eğitiminin iletişim ağırlıklı aşamalarında FSDP yöntemine kıyasla daha iyi performans gösterdiği bildirildi. Yandex’in paylaştığı bilgilere göre YaFSDP, öğrenme hızını ve performansını optimize ederek dünya çapındaki yapay zekâ geliştiricilerinin modellerini eğitirken daha az bilgi işlem gücü ve GPU kaynağı kullanmalarına yardımcı olacak.