Я тут немного гонял Gemma 3.
В @ollama с ней сейчас некоторые проблемы с памятью поэтому 27B версию нормально трогать не получается.
Ну, когда есть версия 27B как-то не очень хочется гонять 12B версию и поэтому я её почти не трогал и ждал когда починят менеджмент памяти.
Но тут я случайно вспомнил что Gemma 3 - мультимодалка. И решил попробовать посмотреть что там как с пониманием картинок.
До этого я уже баловался со всякими LLaVA, которая мне откровенно не понравилась, а также с LLaMA 3.2, которая была заметно лучше, но всё равно была не очень надежной.
А вот Gemma 3 меня прямо удивила.
Она мне тут и кошку в темноте нашла, и моток филамента объяснила даже уточнив, что тот лежит на коврике для мыши хотя этого коврика там лишь кусок в углу фото.
А тут она мне ещё и состав моей стойки расписала вплоть до того, что угадала аудио-интерфейс, что в него включён микрофон (его нет на фото) и что это домашняя студия.
Сильнее она удивила бы меня разве что если бы посчитала по торчащему в розетке ваттметру потребление и сделала вывод, что на сервере с фото она и работает, лол.
Короче, я впечатлён. Google молодцы.