mstdn.social is one of the many independent Mastodon servers you can use to participate in the fediverse.
A general-purpose Mastodon server with a 500 character limit. All languages are welcome.

Administered by:

Server stats:

14K
active users

#wav2vec2

0 posts0 participants0 posts today
Habr<p>Пара слов о робастном распознавании речи или как «Писец» на Тотальный диктант ходил</p><p>В 2024 году состоялся юбилейный, десятый Тотальный диктант. Тогда на него пришёл «Писец». Вы не подумайте, не произошло ничего плохого. «Писец» — это открытая система автоматической расшифровки речи, от журналистского интервью до заседания диссертационного совета. Будто древнерусский пи́сец, который записывает за боярином всё, что тот говорит, и затем сохраняет в виде структурированного текста с таймингами. Я — Иван Бондаренко, старший преподаватель и научный сотрудник Новосибирского государственного университета, сооснователь стартапа «Сибирские нейросети». Вместе с коллегами я реализовал систему, которая помогает в расшифровке живых бесед на русском языке. Мы назвали её «Писец» и протестировали на Тотальном диктанте. В этой статье расскажу, что у нас получилось: как выбирали модели, наборы данных, инструменты, как использовали Wav2Vec2 и Whisper в пайплайне распознавания, файнтюнили Whisper. Ещё коснусь вопросов робастного обучения, парадигмы минимизации инвариантного риска и понятия среды (environment) в распознавании речи.</p><p><a href="https://habr.com/ru/companies/oleg-bunin/articles/867722/" rel="nofollow noopener noreferrer" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/oleg-bun</span><span class="invisible">in/articles/867722/</span></a></p><p><a href="https://zhub.link/tags/%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D1%80%D0%B5%D1%87%D0%B8" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>распознавание_речи</span></a> <a href="https://zhub.link/tags/%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D0%BD%D1%8B%D0%B5_%D1%81%D0%B5%D1%82%D0%B8" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>нейронные_сети</span></a> <a href="https://zhub.link/tags/%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B9_%D0%BA%D0%BE%D0%B4" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>открытый_код</span></a> <a href="https://zhub.link/tags/%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D0%B5%D1%81%D0%BF%D0%B5%D1%87%D0%B5%D0%BD%D0%B8%D0%B5" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>открытое_программное_обеспечение</span></a> <a href="https://zhub.link/tags/%D1%82%D1%80%D0%B0%D0%BD%D1%81%D0%BA%D1%80%D0%B8%D0%B1%D0%B0%D1%86%D0%B8%D1%8F" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>транскрибация</span></a> <a href="https://zhub.link/tags/%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0_%D1%81%D0%BE_%D0%B7%D0%B2%D1%83%D0%BA%D0%BE%D0%BC" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>работа_со_звуком</span></a> <a href="https://zhub.link/tags/wav2vec2" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>wav2vec2</span></a> <a href="https://zhub.link/tags/whisper" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>whisper</span></a> <a href="https://zhub.link/tags/%D0%B8%D0%BD%D0%B2%D0%B0%D1%80%D0%B8%D0%B0%D0%BD%D1%82%D0%BD%D1%8B%D0%B5_%D1%80%D0%B8%D1%81%D0%BA%D0%B8" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>инвариантные_риски</span></a> <a href="https://zhub.link/tags/environment" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>environment</span></a></p>
Habr<p>GigaAM: класс открытых моделей для обработки звучащей речи</p><p>Салют, Хабр! Ранее мы в SberDevices анонсировали предобученную на русском языке модель GigaAM ( Giga A coustic M odel) и её дообученные состояния под распознавание речи (GigaAM-CTC) и определение эмоций (GigaAM-Emo). Сегодня же делимся с сообществом весами моделей и примерами использования . Приглашаем под кат погрузиться в self-supervised learning для звучащей речи и оценить возможности предобученных моделей!</p><p><a href="https://habr.com/ru/companies/sberdevices/articles/805569/" rel="nofollow noopener noreferrer" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/sberdevi</span><span class="invisible">ces/articles/805569/</span></a></p><p><a href="https://zhub.link/tags/%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D1%80%D0%B5%D1%87%D0%B8" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>распознавание_речи</span></a> <a href="https://zhub.link/tags/wav2vec2" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>wav2vec2</span></a> <a href="https://zhub.link/tags/asr" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>asr</span></a></p>