mstdn.social is one of the many independent Mastodon servers you can use to participate in the fediverse.
A general-purpose Mastodon server with a 500 character limit. All languages are welcome.

Administered by:

Server stats:

7.2K
active users

#text_to_speech

0 posts0 participants0 posts today

Пишем персонального AI-ассистента на Python

Современные голосовые помощники это мощные приложения, сочетающие обработку речи, машинное обучение и интеграцию с внешними API. В этой статье мы разберём, как создать базовый проект персонального ассистента на Python, используя библиотеки whisper, webrtcvad, gTTS и другие. Наш ассистент будет: слушать микрофон; определять начало и конец речи с помощью VAD (Voice Activity Detection); преобразовывать речь в текст через модель Whisper; отправлять запросы на локальный LLM для генерации ответа; читать ответ вслух с помощью gTTS; начинать/останавливать запись по нажатию клавиши. Проект может служить как началом для экспериментов, так и для прототипирования реальных решений.

habr.com/ru/articles/919720/

ХабрПишем персонального AI-ассистента на PythonСовременные голосовые помощники это мощные приложения, сочетающие обработку речи, машинное обучение и интеграцию с внешними API. В этой статье мы разберём, как создать базовый проект персонального...

apparently i have resigned all of my free time to doing QA of #gridcosm #podcast mp3 audio file reviews. (my janky ui for doing reviews pictured here.) 🎧

the #text_to_speech #ML i am using is great, but not perfect. so sometimes it glitches out so bad, i have to regenerate (parts of) that level.

i have 1500 levels generated now, and its looking like ~10% will need re-running. not the worst, if my brain can survive the audio onslaught. #surreal #digitalart

sito.org/podcast/

ИИ-Дед Мороз: создаём новогодние видео-открытки с YandexART и YandexGPT

Салют! Меня зовут Григорий, и я главный по спецпроектам в команде AllSee. Новогодние праздники — не только лучший повод для подарков и взаимных поздравлений, но и время большой праздничной суеты: не всегда хватает времени и сил, чтобы придумать оригинальное поздравление для каждого друга, коллеги или члена семьи. В данной статье я расскажу, как можно применить YandexGPT , YandexART и другие ИИ‑инструменты для генерации новогодних видео‑открыток, превращая рутину новогодних поздравлений в увлекательный эксперимент с искусственным интеллектом. Хо-Хо-Хо! Поехали!

habr.com/ru/articles/870844/

ХабрИИ-Дед Мороз: создаём новогодние видео-открытки с YandexART и YandexGPT— Так‑с‑так‑с, открытки с Дедом Морозом: сделаю одну! — А ты уже сгенерировал открытку с Дедом Морозом? ( источник ) Салют! Меня зовут Григорий, и я главный по спецпроектам...

🔥🔥🔥: 3 steps to run HuggingFace 🤗 "Parler TTS" AI Voice on your local machine. New tutorial video out now!

Open Source Parler TTS (Text-to-Speech) allows you to synthesize high class artificial voice audio using a text prompt description text 👏 . Really fun playing around with that.

My step-by-step technical tutorial is now available on my "Thorsten-Voice" youtube channel 😊 .

youtu.be/1X2LxAGn9tU

#tts #huggingface #text_to_speech #texttospeech #opensource @huggingface

youtu.be- YouTubeСмотрите любимые видео, слушайте любимые песни, загружайте собственные ролики и делитесь ими с друзьями, близкими и целым миром.

Reviewing a lot of ITIL v4 material for work at the moment as we are adopting as part of a new "operating model" and I am helping set up an Infrastructure and Platform Management Practice.

Seems that not a lot of large companies have progressed much yet so not so much using best practice from industry frameworks as creating it.

Really appreciating modern text to speech tools such as naturalreaders.com/online/ and the amazing new feature from Google (link below) hat can turn source material in rather realistic sounding two-hander podcasts to give me options for how I digest some of the material.

notebooklm.google.com

www.naturalreaders.comFree Text to Speech Online with Realistic AI Voices

Интерактивный NPC на Unreal Engine

Всем привет. Я хочу с вами поделиться результатами эксперимента по созданию интерактивного NPC на Unreal Engine 5 . Speech recognition , Text-to-speech , LLM модели, LipSync , MetaHuman и все это без использования сторонних сервисов . Видео работы и ссылка на демо версию прилагается. Если вам интересно увидеть результат и обсудить перспективы интерактивных NPC в игровой индустрии - добро пожаловать под кат.

habr.com/ru/articles/807561/

ХабрИнтерактивный NPC на Unreal EngineВ настоящее время у многих на слуху использование нейронных сетей в игровой индустрии (в том числе генерация музыки, изображений, 3D моделей).  Одним из возможных применений нейронных сетей в...

Распознаем голосовые сообщения Telegram без СМС и пересылок ботам

Как всем известно, люди делятся на две категории: 1. Те, кто любит отправлять голосовые сообщения 2. Те, кто кто надеются, что для первых приготовлен отдельный котел Но мы здесь не для того чтобы осуждать какую-то из этих категорий. Читать сообщения я люблю больше, чем слушать и здесь я расскажу, как я попробовал решить для себя эту проблему.

habr.com/ru/articles/803833/

#telegram #telegram_api #голосовые_сообщения #c# #text_to_speech #мессенджеры #распознавание_речи

ХабрРаспознаем голосовые сообщения Telegram без СМС и пересылок ботамКак всем известно, люди делятся на две категории: Те, кто любит отправлять голосовые сообщения Те, кто кто надеются, что для первых приготовлен отдельный котел, градусов так на 200. Можно сделать...