mstdn.social is one of the many independent Mastodon servers you can use to participate in the fediverse.
A general-purpose Mastodon server with a 500 character limit. All languages are welcome.

Administered by:

Server stats:

15K
active users

#распознавание_речи

0 posts0 participants0 posts today

Как я делал голосового ассистента на NLP и не сошел с ума

Голосовые ассистенты давно перестали быть просто игрушкой — теперь это полноценные цифровые помощники, которые умеют общаться, искать информацию и даже шутить (иногда лучше некоторых людей). В этой статье разберём, как собрать своего кастомного ассистента с нуля на Python, используя современные NLP-инструменты. Без Siri, без Alexa, всё своё, родное.

habr.com/ru/articles/897862/

ХабрКак я делал голосового ассистента на NLP и не сошел с умаГолосовые ассистенты давно перестали быть просто игрушкой — теперь это полноценные цифровые помощники, которые умеют общаться, искать информацию и даже шутить (иногда лучше некоторых людей). В этой...

Решение задач распознавания на Flutter

Задачи распознавания изображений и звука имеют широкий спектр применений в различных приложениях. Используя Flutter, как мощный фреймворк для разработки кроссплатформенных мобильных приложений, вполне возможно реализовать функционал распознавания данных в несколько шагов. В этой статье мы рассмотрим некоторые из задач распознавания, такие как распознавание лиц, текста и звука, и приведем фрагменты кода и рекомендуемые библиотеки для их реализации на Flutter.

habr.com/ru/articles/890700/

ХабрРешение задач распознавания на FlutterЗадачи распознавания изображений и звука имеют широкий спектр применений в различных приложениях. Используя Flutter, как мощный фреймворк для разработки кроссплатформенных мобильных приложений, вполне...

Будущее v-commerce: как использовать распознавание речи и голосовой поиск в 2025 году

В этой статье мы рассмотрим успешные кейсы и неудачные примеры, сдерживающие развитие технологии, расскажем про тренды голосового шоппинга и особенности интеграции такого решения. Вы узнаете: - Что такое голосовая коммерция? - Какую пользу она приносит бизнесу? - Как голосовая коммерция меняет современный ритейл? - Какие компании уже успешно внедрили голосовой поиск и распознавание речи в свои процессы, а какие решили отказаться от технологии? - Как изменилась обработка голоса человека с развитием искусственного интеллекта?

habr.com/ru/articles/890818/

ХабрБудущее v-commerce: как использовать распознавание речи и голосовой поиск в 2025 годуШопинг с использованием голоса уже не кажется чем-то удивительным. По данным опроса Департамента социальных исследований и консалтинга ВЦИОМ Андрей Даудрих, среди 63% россиян, которые...

Методы распознавания матерных (и не только) языков

Всем привет! Меня зовут Миша, я работаю Backend-разработчиком в Doubletapp . В одном из проектов появилась фича по добавлению тегов по интересам. Любой пользователь может создать интерес, и он будет виден всем остальным. Неожиданно (!!!) появились интересы с не очень хорошими словами, которые обычно называют матерными. Встала задача по распознаванию языка с матерными словами, чтобы исключить возможность добавления гадости в наш огород!

habr.com/ru/companies/doubleta

ХабрМетоды распознавания матерных (и не только) языковВсем привет! Меня зовут Миша, я работаю Backend-разработчиком в Doubletapp . В одном из проектов появилась фича по добавлению тегов по интересам. Любой пользователь может создать интерес, и он будет...

YouScriptor — ИИ стартап за выходные

Сервис перевода Youtube в текст YouScriptor Честно сказать, меня весьма сокрушает то, что контент в интернете перешел из текста в видео. Читаю я довольно быстро и мне куда проще и бытрее окинуть страницу взглядом, чем пролистивыать видео на несколько десятков минут, пыстаясь поскорее найти суть. Подозреваю, что сам видео-формат и продвигается как пожиратель времени. В Яндексе уже достаточно давно появилась функция пересказ YouTubе - но это именно пересказ и отсебятина, мне это не подходит. Нужен точный текст. Сейчас очень модно ругать возможности ИИ и рассказывать то что ИИ "заменит программистов" - миф и выдают ЛЛМ "говнокод". Может там временами и говнокод, но иногда для задачи хороший код и не нужен. Нужно просто что бы работало и устраивало пользователей. Свой проект я создал буквально за выходные и без LLM он точно был бы невозможен. Так как потребовал минимум месяц времени, а у меня столько нет. GPT o1 подсказал все необходимые фреймворки, написал необходимый код и алгоритмы. Предложил структуру БД, написал весь маппинг. Написал бэкграунд сервисы, в оторых организует очередь задач на распознавание. Так же создал фронт-энд на Angular. По сути в код я практически не лез - с меня только дизайн и архитиктура. Вишенка на торте - нейминг и лого тоже были созданы LLM. Когда я рассказал другу об идее - он сказал - круто бы в наше время была такая программа - что бы писала за нас конспекты. Я спросил у GPT как можно назвать сервис, который работает с конспектами и транскрибирует ролики с ютуба - референсы - писарь, переписчик, конспекты, ютуб - и он выдал в том числе YouScriptor (scriptor на латыни - писарь). С логотипом тоже долго не возился - просто со второй или третье попытки взял картинку в задании к которой было "minimalistic vectorized web service logo of scriptor"

habr.com/ru/articles/877858/

ХабрYouScriptor — ИИ стартап за выходныеСервис перевода Youtube в текст YouScriptor Честно сказать, меня весьма сокрушает то, что контент в интернете перешел из текста в видео. Читаю я довольно быстро и мне куда проще и бытрее окинуть...

Диктофон и медицина

Мы занимаемся разработкой и производством диктофонов для безопасности Edic-mini и аудиобейджей “Свидетель” для улучшения качества работы с клиентами (запись общения с клиентами, далее перевод записи в текст и речевая аналитика). Сейчас, с развитием технологии ИИ, сфера применения диктофонов расширяется и я уже писал об этом на Хабре habr.com/ru/articles/851622/ и в этой статье я хотел бы остановиться на применении диктофона в медицине. Как обычно, все мои идеи базируются на реальных моих потребностях.

habr.com/ru/articles/876326/

ХабрАудиоАрхив жизни, ИИ и речевая аналитикаСегодня пятница и снова с вами выпуск бредовых идей для подумать на выходных :-).  Пример диктофона В этом посте я хотел бы поднять вопрос недостатка программных средств для анализа и обработки...

Как модуль распознавания речи в Solar Dozor 8.0 упрощает ̶ж̶и̶з̶н̶ь̶ работу офицеров безопасности

Всем привет! Меня зовут Екатерина Ратнер, я старший аналитик в проекте Solar Dozor — первой в России корпоративной DLP-системе, которая используется организациями страны и СНГ уже более 20 лет. Одной из главных задач DLP-систем является защита информации в разных форматах, включая звук. Запись звука – обычная функция DLP-систем, в реальности же проанализировать все аудиозаписи сотрудников и найти в них угрозы – трудоемкая задача, которая занимает массу времени и ресурсов офицеров безопасности. К счастью, в новой версии Solar Dozor 8.0 появилась функция автоматического перевода речи в текст. Система с помощью нейросети распознает речь более чем на 50 языках, переводит ее в текст, после чего автоматически проверяет политиками безопасности, при необходимости регистрирует инциденты. В этой статье я расскажу, как работает наш новый модуль распознавания звука, как выбрать подходящую модель распознавания и приведу пример реального кейса в части пресечения попыток злонамеренных действий сотрудников с его помощью.

habr.com/ru/companies/solarsec

ХабрКак модуль распознавания речи в Solar Dozor 8.0 упрощает ̶ж̶и̶з̶н̶ь̶ работу офицеров безопасностиВсем привет! Меня зовут Екатерина Ратнер, я старший аналитик в проекте Solar Dozor — первой в России корпоративной DLP-системе, которая используется организациями страны и СНГ уже более 20 лет. Одной...

Пара слов о робастном распознавании речи или как «Писец» на Тотальный диктант ходил

В 2024 году состоялся юбилейный, десятый Тотальный диктант. Тогда на него пришёл «Писец». Вы не подумайте, не произошло ничего плохого. «Писец» — это открытая система автоматической расшифровки речи, от журналистского интервью до заседания диссертационного совета. Будто древнерусский пи́сец, который записывает за боярином всё, что тот говорит, и затем сохраняет в виде структурированного текста с таймингами. Я — Иван Бондаренко, старший преподаватель и научный сотрудник Новосибирского государственного университета, сооснователь стартапа «Сибирские нейросети». Вместе с коллегами я реализовал систему, которая помогает в расшифровке живых бесед на русском языке. Мы назвали её «Писец» и протестировали на Тотальном диктанте. В этой статье расскажу, что у нас получилось: как выбирали модели, наборы данных, инструменты, как использовали Wav2Vec2 и Whisper в пайплайне распознавания, файнтюнили Whisper. Ещё коснусь вопросов робастного обучения, парадигмы минимизации инвариантного риска и понятия среды (environment) в распознавании речи.

habr.com/ru/companies/oleg-bun

ХабрПара слов о робастном распознавании речи или как «Писец» на Тотальный диктант ходилВ 2024 году состоялся юбилейный, десятый Тотальный диктант. Тогда на него пришёл «Писец». Вы не подумайте, не произошло ничего плохого. «Писец» — это открытая система автоматической расшифровки речи,...

В кино сплошная ложь: почему позаимствованный глаз босса не откроет хранилище

Мы все видели, как в голливудских блокбастерах герои легко обходят системы безопасности, используя поддельные отпечатки пальцев или маски. Но насколько это соответствует действительности? Сравним киношные клише с реальными технологиями биометрической аутентификации. Узнаем, какие угрозы действительно существуют и как защититься от них. От классических атак перехвата данных до современных методов глубокого обучения — введение в биометрию. Узнать правду

habr.com/ru/articles/870594/

ХабрВ кино сплошная ложь: почему позаимствованный глаз босса не откроет хранилищеВы когда-нибудь видели, как в фильмах злодеи с хирургической точностью вынимают глаз босса корпорации, чтобы обойти биометрическую защиту? Или крадут палец охранника, чтобы взломать сверхсекретную...

Создание двуязычных субтитров к видео, распознавание и перевод речи

Введение При изучении иностранных языков, иногда хочется иметь двуязычные субтитры к понравившемуся видео, озвученных носителями языка. Но, что делать, если готовых субтитров нет, а самому распознать и перевести живую речь героев не хватает знаний? Особенно это касается тех, кто только-только начинает осваивать новый язык. Но, как говориться, безвыходных ситуаций не бывает, как минимум, всегда существует три выхода, даже если вас съели. В данном случае мы воспользуемся современными технологиями для решения нашей задачи. Вот наш алгоритм действий: 1 . Скачиваем понравившийся видео ролик из Интернета, например, Ютуба. 2 . Обрезаем его, если он слишком большой. 3 . Вытаскиваем из него звуковую дорожку. 4 . Если речь героев происходит на фоне большого шума либо музыки, то мы можем с помощью онлайн-сервисов отделить музыку от вокала либо речи. 5 . Звуковой файл с речью (обычно, до 8-10 минут, иначе режем на куски) скармливаем нескольким сервисам по преобразованию mp3-файлов в текст. Используем несколько вариантов, потому, что любой сервис может содержать ошибки. Затем используем метод «перекрёстной лжи», как выразился один товарищ, 6 . Группируем варианты распознанной речи по отдельным фразам, из которых убираем полные дубликаты (при желании). 7 . Загружаем наш mp3-файл в звуковой редактор, например, Audacity и делаем там поиск звука между заданными интервалами, что позволяет нам создать предварительные метки для звуковых интервалов. 8 . Слушаем отдельно каждый такой интервал и пытаемся сопоставить ему на слух вариант распознанной фразы. Для большей надежности, иностранные фразы в разных онлайн переводчиках и из всех возможных фраз выбираем наиболее подходящую. При этом сам язык знать не обязательно, достаточно внимательного прослушивания. При необходимости, редактируем звуковые интервалы и, в качестве их меток, указываем иностранные фразы.

habr.com/ru/articles/862716/

ХабрСоздание двуязычных субтитров к видео, распознавание и перевод речиВведение При изучении иностранных языков, иногда хочется иметь двуязычные субтитры к понравившемуся видео, озвученных носителями языка. Но, что делать, если готовых субтитров нет, а самому распознать...

Сравнение систем распознавания русского языка 2024

После значительной паузы, опять пришло время обновить наше исследование ( прошлое , позапрошлое ) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и были удивлены результатами. В этот раз ситуация такая: Какая?

habr.com/ru/articles/849932/

ХабрСравнение систем распознавания русского языка 2024После значительной паузы, опять пришло время обновить наше исследование ( прошлое , позапрошлое ) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и...

Итоги ICDAR-2024: Как и зачем нужно делать распознавание объяснимым

В солнечных Афинах завершилась конференция ICDAR-2024. Причиной ли тому средиземноморское солнце или живой энтузиазм выступающих, но здесь было действительно жарко. Что неудивительно - ведь это главное международное мероприятие, посвященное вопросам распознавания. Одна из ключевых тем встречи – современные вызовы и перспективы OCR. Ведущие ученые со всего мира сошлись во мнении, что технологии распознавания жизненно необходимо сделать более понятными и интерпретируемыми . А для этого создать простую OCR явно недостаточно. Нам в Smart Engines есть что добавить по этому поводу. Рассказываем, зачем нужно “объяснять” OCR и как это правильно сделать. Объясняем тут

habr.com/ru/companies/smarteng

ХабрИтоги ICDAR-2024: Как и зачем нужно делать распознавание объяснимымВстречи в рамках ICDAR имеют первостепенную значимость для научного сообщества по всему миру. Источник: сайт ICDAR . Почему ICDAR?  Море, солнце, пляж технологии. В греческой столице недавно...

Как настроить транскрибацию звонков и голосовых сообщений через API

Не зря в прошлом году Telegram открыл доступ к расшифровке голосовых сообщений. Пользователям куда проще прочитать текст, чем переслушивать записи, особенно когда речь идёт о десятках и сотнях звонков в месяц. Именно поэтому стоит затронуть механизм транскрибации звонков и сообщений через API и облегчить будни тех, кто уже ищет способ автоматизации в своей компании или контакт-центре.

habr.com/ru/companies/exolve/a

ХабрКак настроить транскрибацию звонков и голосовых сообщений через APIНе зря в прошлом году Telegram открыл доступ к расшифровке голосовых сообщений. Пользователям куда проще прочитать текст, чем переслушивать записи, особенно когда речь идёт о десятках и сотнях звонков...

Как Яндекс учит Алису понимать пользователей с особенностями речи

В далёком 2018 году мы представили наше первое умное устройство с Алисой — Яндекс Станцию. С тех пор пользователи успешно взаимодействуют с виртуальным ассистентом с помощью голосовых команд. Но, к сожалению, бывают и сложности. Алиса не всегда правильно понимает запрос: ей могут мешать шумы, сливающиеся голоса или невнятно произнесённая фраза. Эта проблема особенно актуальна для пользователей с различными речевыми нарушениями — например, с заиканием, ДЦП, последствиями инсульта или травмы. Часто речь искажается так, что Алиса не понимает её, а значит, пользователь сталкивается с ограничениями. Меня зовут Даня, я представляю команду, которая разрабатывает в Алисе технологию распознавания речи. Сегодня я расскажу небольшую историю о том, как мы решали описанную выше проблему. Пожалуй, было бы слишком смело предполагать, что такую сложную задачу можно навсегда победить одним быстрым решением (даже людям не всегда удаётся корректно понимать речь с особенностями). Тем не менее нам удалось сократить разрыв между точностью распознавания обычной речи и речи с искажениями в среднем на 20%. При некоторых лёгких формах нарушений звукопроизношения Алиса теперь понимает речь не хуже человека, а при тяжёлых формах нарушений — даже лучше. Это самый большой шаг в этом направлении с момента создания нашего помощника. Под катом вы не найдёте хардкорных подробностей обучения нейросетевых моделей, потому что основная сложность таилась вовсе не в вопросах применяемых технологий. Ключом к успеху стала помощь сообщества и экспертов.

habr.com/ru/companies/yandex/a

ХабрКак Яндекс учит Алису понимать пользователей с особенностями речиВ далёком 2018 году мы представили наше первое умное устройство с Алисой — Яндекс Станцию. С тех пор пользователи успешно взаимодействуют с виртуальным ассистентом с помощью голосовых команд. Но, к...

Как сделать виртуальную АТС на базе VPS

Несмотря на популярность мессенджеров и телеконференций, ни один офис ещё не отказался от телефонной связи. Люди такие существа, что иногда предпочитают общаться голосом. В каждом офисе установлена мини-АТС, которая коммутирует внутренние звонки. Телефоны сотрудников подключаются к коммуникационному шкафу или коробочке с Asterisk (как на КДПВ), а она подключена к телефонной сети общего пользования (PSTN или ТСОП). Таким образом, сотню офисных телефонов можно повесить на один внешний номер. В общем, мини-АТС — совершенно необходимая вещь. Виртуальная или облачная АТС (hosted PBX) — это услуга для компаний, которая заменяет им обычную офисную АТС. Вместо того, чтобы покупать специализированное телекоммуникационное оборудование или выделять отдельный компьютер с Asterisk , они заказывают услугу на удалённом хостинге. И этот компьютер с Asterisk (IP-АТС) физически размещается у провайдера. Таким образом, виртуализация добралась и до АТС, всё в русле современных тенденций.

habr.com/ru/companies/ruvds/ar

ХабрКак сделать виртуальную АТС на базе VPSНесмотря на популярность мессенджеров и телеконференций, ни один офис ещё не отказался от телефонной связи. Люди такие существа, что иногда предпочитают общаться голосом. В каждом офисе установлена...

GigaAM: класс открытых моделей для обработки звучащей речи

Салют, Хабр! Ранее мы в SberDevices анонсировали предобученную на русском языке модель GigaAM ( Giga A coustic M odel) и её дообученные состояния под распознавание речи (GigaAM-CTC) и определение эмоций (GigaAM-Emo). Сегодня же делимся с сообществом весами моделей и примерами использования . Приглашаем под кат погрузиться в self-supervised learning для звучащей речи и оценить возможности предобученных моделей!

habr.com/ru/companies/sberdevi

ХабрGigaAM: класс открытых моделей для обработки звучащей речиСалют, Хабр! Ранее мы в SberDevices анонсировали предобученную на русском языке модель GigaAM ( Giga A coustic M odel) и её дообученные состояния под распознавание речи (GigaAM-CTC) и определение...

Распознаем голосовые сообщения Telegram без СМС и пересылок ботам

Как всем известно, люди делятся на две категории: 1. Те, кто любит отправлять голосовые сообщения 2. Те, кто кто надеются, что для первых приготовлен отдельный котел Но мы здесь не для того чтобы осуждать какую-то из этих категорий. Читать сообщения я люблю больше, чем слушать и здесь я расскажу, как я попробовал решить для себя эту проблему.

habr.com/ru/articles/803833/

#telegram #telegram_api #голосовые_сообщения #c# #text_to_speech #мессенджеры #распознавание_речи

ХабрРаспознаем голосовые сообщения Telegram без СМС и пересылок ботамКак всем известно, люди делятся на две категории: Те, кто любит отправлять голосовые сообщения Те, кто кто надеются, что для первых приготовлен отдельный котел, градусов так на 200. Можно сделать...

SALMONN — универсальная модель для всех типов аудиоданных

Человек без труда воспринимает речь на фоне тихой музыки и звуков окружающей среды. Более того, прямо во время разговора он может мысленно подпевать и реагировать на звуки. До недавнего времени нейросети так не умели. Одни были заточены на распознавание речи, другие — на обработку музыки, а третьи — на анализ различных звуковых событий. Всё изменилось с появлением работы китайских исследователей, создавших единую мультимодальную модель SALMONN. Это нейронная сеть с открытым исходным кодом, предназначенная для обработки аудиоданных любого типа: речи, музыки и различных звуков. В этой статье мы рассказываем об особенностях SALMONN на основе научной публикации его разработчиков. Адаптировать материал помогли наши эксперты в области обработки и синтеза речи. Перевод и разбор препринта о SALMONN выполнен исследователем лаборатории больших данных и статистики компании «Криптонит» Анной Холькиной. Ключевой идеей проекта SALMONN стала интеграция большой языковой модели (LLM) с двумя энкодерами: одним из модели Whisper для восприятия речи и другим (BEATs) для остальных звуков. В качестве предобученной LLM используется Vicuna, созданная на основе модели LLaMA с 13 миллиардами параметров и обученная на данных лучших диалогов с ChatGPT (также авторы SALMONN выпустили версию своей модели на основе Vicuna с 7 миллиардами параметров).

habr.com/ru/companies/kryptoni

ХабрSALMONN — универсальная модель для всех типов аудиоданныхЧеловек без труда воспринимает речь на фоне тихой музыки и звуков окружающей среды. Более того, прямо во время разговора он может мысленно подпевать и реагировать на звуки. До недавнего времени...

[Перевод] Тонкая настройка Whisper для многоязычного ASR с помощью Hugging Face Transformers

Предлагается пошаговое руководство по дообучению Whisper для любого многоязычного набора данных ASR с использованием Hugging Face 🤗 Transformers. Эта заметка содержит подробные объяснения модели Whisper, набора данных Common Voice и теории дообучения, а также код для выполнения шагов по подготовке данных и дообучению. Для более упрощенной версии с меньшим количеством объяснений, но со всем кодом, см. соответствующий Google Colab .

habr.com/ru/articles/783128/

ХабрТонкая настройка Whisper для многоязычного ASR с помощью Hugging Face TransformersПредлагается пошаговое руководство по дообучению Whisper для любого многоязычного набора данных ASR с использованием Hugging Face 🤗 Transformers. Эта заметка содержит подробные объяснения модели...