mstdn.social is one of the many independent Mastodon servers you can use to participate in the fediverse.
A general-purpose Mastodon server with a 500 character limit. All languages are welcome.

Administered by:

Server stats:

6.6K
active users

#multimodality

0 posts0 participants0 posts today

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом. На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости.

habr.com/ru/companies/yandex/a

ХабрКак мы учили Алису видеть мир с помощью мультимодальной нейросети ЯндексаНедавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей...

[Перевод] Spring AI научился видеть! Показываю, как заставить GPT находить бананы на картинках

Новый перевод от команды Spring АйО расскажет вам о работе с мультимодальностью при работе со Spring AI и о различных вариантах работы с графическими изображениями с использованием искусственного интеллекта.

habr.com/ru/companies/spring_a

ХабрSpring AI научился видеть! Показываю, как заставить GPT находить бананы на картинкахНовый перевод от команды Spring АйО расскажет вам о работе с мультимодальностью при работе со Spring AI и о различных вариантах работы с графическими изображениями с использованием искусственного...

Kandinsky 4.0 — новая модель генерации видео

Сегодняшний релиз хочется начать с небольшой истории семейства моделей Kandinsky. В прошлом году на конференции AI Journey 2023 наша команда представила две модели: Kandinsky 3.0 для генерации изображений и первую российскую модель генерации видео по тексту Kandinsky Video . В этом году в апреле и мае вышли в свет улучшенные версии этих моделей: Kandinsky 3.1 с повышенным качеством изображений и Kandinsky Video 1.1 с улучшенными визуальным качеством и временной связностью кадров на видео. С тех пор прогресс в области генеративных моделей привел к созданию множества интересных решений для задач генерации, связывающих текст, видео и аудио модальности. Сегодня наша команда исследователей и учёных из Лаборатории Sber AI Research при поддержке учёных Лаборатории FusionBrain Института AIRI представляет Kandinsky 4.0 — нейросеть нового поколения для создания реалистичных видеороликов по текстовому описанию или стартовому кадру, а также аудио сопровождения для сгенерированного видеоролика. Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности. В этой статье мы подробно рассмотрим структуру, функционал и процесс обучения нашей новой модели.

habr.com/ru/companies/sberbank

ХабрKandinsky 4.0 — новая модель генерации видеоСегодняшний релиз хочется начать с небольшой истории семейства моделей Kandinsky. В прошлом году на конференции AI Journey 2023 наша команда представила две модели: Kandinsky 3.0 для генерации...

“Walking is still honest,” yet in the global South, it’s more than that: It’s essential; the only mode available to the vast majority. Despite this, streets cater to cars.

buff.ly/3AR8ftX
Xitter @CVRecord
#sustainabletransport #transportation #ActiveMobility #ActiveTransport #mobility #multimodal #Multimodality #TransportationJustice #Walking #TrufiAssociation

Comox Valley Record · Walking is still honestBy Marc Kitteringham

I am heading to #Vienna for taking part at the Hackathon on #Multimodality in Digital Humanities. I am extremely glad, that years ago I took part at a three-days workshop on analysing DEMs for archaeology and one of the participants was 60y. That inspired me, to never stop visiting hackathons, workshops and the like, as they are unique opportunities to learn and to tackle my ideas. #motivatedgranny👵🏼😊