mstdn.social is one of the many independent Mastodon servers you can use to participate in the fediverse.
A general-purpose Mastodon server with a 500 character limit. All languages are welcome.

Administered by:

Server stats:

12K
active users

#машинное_обучение

8 posts3 participants2 posts today

Интеллектуальные технологии в биомедицине. Как AI и Data Science решают задачи науки

ИИ и Data Science уже стали неотъемлемой частью современной биомедицины: с их помощью исследуют микробиом человека, диагностируют болезни у животных и моделируют органы в 3D. В статье — прикладные проекты на стыке биологии, медицины и ветеринарии: от метагеномики и цифровых двойников до нейросетевого анализа поведения собак и платформы «Медцифра».

habr.com/ru/companies/mipt_dig

ХабрИнтеллектуальные технологии в биомедицине. Как AI и Data Science решают задачи наукиСовременная биомедицина — не просто наука на стыке биологии и медицины. Это междисциплинарная область, которая все активнее использует интеллектуальные технологии: искусственный интеллект, анализ...

Как мы учимся решать одну из самых сложных задач в метеорологии — прогнозирование количества осадков по часам

Вопрос точности прогнозирования осадков — один из ключевых вызовов в метеорологии. Мы все сталкиваемся с ситуациями, когда дождь буквально появляется «из ниоткуда», несмотря на оптимистичный прогноз. Особенно остро эта проблема проявляется летом, когда проливные кратковременные дожди сложно поймать заблаговременно. Об этой проблеме знает и наша команда Яндекс Погоды и ищет способы решить её. Если бы меня попросили назвать слово, которое лучше всего подходит для прогноза осадков, я бы с уверенностью выбрал «сложность». В осадках она подстерегает нас всюду: от способов прогнозирования до оценки качества полученного прогноза. Потому в научных статьях про нейросетевой прогноз погоды (GraphCast, Pangu Weather, Aurora и т. д.) осадки или совсем не участвуют, или прогнозируются раз в 6 часов без упоминания о метриках. Либо же создаётся локальная модель под регион (например, MetNet для США). В Яндекс Погоде мы используем множество ML‑моделей в рамках наших технологий прогноза Метеум и OmniCast, постоянно их улучшаем и постепенно заменяем на более продвинутые, повышая качество прогноза для наших пользователей. Недавно мы научились прогнозировать грозы , а до этого — улучшили прогноз температуры за счёт использования пользовательских метеостанций. Меня зовут Стефеев Дмитрий, я разработчик группы ML и качества прогноза в Яндекс Погоде. Сегодня я и моя команда хотим представить новые модели для прогноза осадков и рассказать, почему мы на них перешли и как этот переход повлиял на качество.

habr.com/ru/companies/yandex/a

ХабрКак мы учимся решать одну из самых сложных задач в метеорологии — прогнозирование количества осадков по часамВопрос точности прогнозирования осадков — один из ключевых вызовов в метеорологии. Мы все сталкиваемся с ситуациями, когда дождь буквально появляется «из ниоткуда», несмотря...

Чат-боты и LLM в клиентском сервисе ЮMoney: от быстрой обработки запросов до LLM-прогнозирования оценок CSI

Рассказываем, как искусственный интеллект помогает нам оперативнее помогать пользователям и предсказывает, чего им не хватает в общении с нашей службой поддержки.

habr.com/ru/companies/yoomoney

ХабрЧат-боты и LLM в клиентском сервисе ЮMoney: от быстрой обработки запросов до LLM-прогнозирования оценок CSIРассказываем, как искусственный интеллект помогает нам оперативнее помогать пользователям и предсказывает, чего им не хватает в общении с нашей службой поддержки. Кто такой Манибот...

Как работает Web Guide от Google и чем он отличается от AI-поиска

Google снова меняет правила игры в поиске. В июле 2025 года компания представила экспериментальную функцию Web Guide, которая обещает переосмыслить классическую выдачу с «десятью синими ссылками». Это не просто очередной AI-слой поверх старого поиска, а попытка организовать результаты так, чтобы они стали понятнее и полезнее для сложных запросов. Но действительно ли Web Guide способен заменить AI-поиск и как он смотрится на фоне конкурентов вроде Perplexity или Bing Copilot?

habr.com/ru/companies/ru_mts/a

#google #web_guide #искусственный_интеллект #машинное+обучение #машинное_обучение #AIпоиск

ХабрКак работает Web Guide от Google и чем он отличается от AI-поискаGoogle снова меняет правила игры в поиске. В июле 2025 года компания представила экспериментальную функцию Web Guide, которая обещает переосмыслить классическую выдачу с «десятью синими ссылками». Это...

Системы ценностей больших языковых моделей

Каждый раз, когда человечество создаёт очередной инструмент на машинном обучении, оно сперва любуется пользой от его работы, а потом пугается своего отражения внутри. С большими языковыми моделями история повторилась с ускорением. От восторга перед ответами ChatGPT до шока от таблиц, где жизнь человека глубоко неравноценна, прошло меньше двух лет. Звучит странно, но языковые модели предвзяты. У них есть политические взгляды, любимые расы и даже люди, которыми они не прочь пожертвовать. Но обо всём по порядку.

habr.com/ru/articles/932986/

ХабрСистемы ценностей больших языковых моделейКаждый раз, когда человечество создаёт очередной инструмент на машинном обучении, оно сперва любуется пользой от его работы, а потом пугается своего отражения внутри. С большими языковыми моделями...

[Перевод] Я перешла из Data Science в AI Engineering: вот всё, что вам нужно знать

Переход из Data Science в AI Engineering — это не просто смена должности, а полный сдвиг в подходах к работе с моделями и их внедрению в продакшн. В статье я делюсь опытом, как расширение ролей Data Scientist и AI Engineer пересекается с DevOps, MLOps и инфраструктурными практиками. Если вам интересно, как сделать шаг от теории к реальной работе с моделями, интеграции в инфраструктуру и поддержке на протяжении жизненного цикла — читайте дальше.

habr.com/ru/companies/otus/art

ХабрЯ перешла из Data Science в AI Engineering: вот всё, что вам нужно знатьЛичный гид по навыкам, инструментам и мышлению, стоящим за этой должностью Data Science не умирает, но быстро эволюционирует. По прогнозам, число вакансий, связанных с искусственным интеллектом, будет...

Как я строил антифрод-систему для ставок: неожиданные сложности и решения

Индустрия ставок требует мощных и гибких систем для мониторинга ставок и защиты от мошенничества. Построение антифрод-системы, способной эффективно фильтровать подозрительные активности, стало непростой задачей. В этой статье я поделюсь подробностями технической части разработки антифрод-системы для ставок, построенной на основе данных из различных источников, в том числе sidestake net.

habr.com/ru/articles/932826/

ХабрКак я строил антифрод-систему для ставок: неожиданные сложности и решенияВведение Индустрия ставок требует мощных и гибких систем для мониторинга ставок и защиты от мошенничества. Построение антифрод-системы, способной эффективно фильтровать подозрительные активности,...

Неделя в российском AI: от управления «мыслями» нейросетей до победы человека над ИИ

Собрали главные события недели с 21 по 26 июля 2025 года в российском AI-сегменте: технические прорывы, корпоративные внедрения и неожиданные результаты соревнований человека с машиной.

habr.com/ru/articles/932744/

ХабрНеделя в российском AI: от управления «мыслями» нейросетей до победы человека над ИИСобрали главные события недели с 21 по 26 июля 2025 года в российском AI-сегменте: технические прорывы, корпоративные внедрения и неожиданные результаты соревнований человека с машиной. TabM от Yandex...

[Перевод] ML Q & AI. Глава 5. Уменьшение переобучения при помощи данных

← Предыдущая глава | Предположим, что мы обучаем классификатор при помощи обучения с учителем и замечаем, что он страдает от переобучения. Какие существуют основные подходы для уменьшения переобучения путем модификации или дополнения данных? Переобучение - достаточно широко распространенная проблема в машинном обучении, возникающая, когда модель слишком точно подстраивается под тренировочные данные. В результате она начинает учитывать шум и выбросы, а не взаимосвязи данных. Из-за этого модель хорошо работает на тренировочных данных, но плохо справляется с новыми или тестовыми. В идеале мы бы хотели полностью избежать переобучения, однако на практике это не всегда реально. Поэтому мы стараемся минимизировать его влияние на модель настолько, насколько это возможно. Наиболее успешные методы, направленные на уменьшение переобучения, основаны на сборе большего количества высококачественных размеченных данных. Однако, если затраты на получение дополнительных размеченных данных оказываются неоправданными, мы можем рассмотреть варианты, такие как аугментация существующих данных или использование неразмеченных данных для предварительного обучения.

habr.com/ru/articles/931494/

ХабрML Q & AI. Глава 5. Уменьшение переобучения при помощи данных← Предыдущая глава | Предположим, что мы обучаем классификатор при помощи обучения с учителем и замечаем, что он страдает от переобучения. Какие существуют основные подходы для уменьшения переобучения...

Grok 4, Chimera и LLM от ETH Zurich: что нового в мире больших языковых моделей

Искусственный интеллект развивается стремительно, новые LLM становятся быстрее, универсальнее плюс менее требовательными к ресурсам. Среди ключевых новинок последнего времени — Grok 4 от xAI, модель Chimera от DeepSeek, а еще открытый проект от ETH Zurich и EPFL, обещающий поддержку более 1 000 языков. Эти разработки отражают три важных тренда: ускорение локальных моделей, расширение мультиязычности и стремление открытых решений догнать проприетарных лидеров. Давайте обсудим новинки и попробуем понять, куда движется индустрия.

habr.com/ru/companies/ru_mts/a

#llm #grok #искусственный_интеллект #машинное+обучение #машинное_обучение #deepseek

ХабрGrok 4, Chimera и LLM от ETH Zurich: что нового в мире больших языковых моделейИскусственный интеллект развивается стремительно, новые LLM становятся быстрее, универсальнее плюс менее требовательными к ресурсам. Среди ключевых новинок последнего времени — Grok 4 от xAI, модель...

Знает ли LLM то, что знаешь ты?

Представьте, что у вас есть друг, который идеально завершает ваши мысли. Вы говорите: «В детстве я любил...», а он тут же продолжает: «...играть в футбол и смотреть “Смешариков”». Совпадение? Или он вас слишком хорошо знает? Теперь представьте, что этот “друг” — языковая модель вроде GPT-4, обученная на десятках терабайт текста. Вы даёте ей фразу — и она точно угадывает продолжение. Вопрос: она действительно видела это раньше или просто хорошо обучена угадывать? Вот тут на сцену выходит Membership Inference Attack (MIA) — метод, который позволяет выяснить, был ли конкретный текст в тренировочном датасете модели. По сути, это способ заставить LLM проговориться: «Да, я это читала. Но никому не говори». Раньше такие атаки были возможны только при доступе к логитам — вероятностям слов, которые модель "придумывает" на выходе. Но популярные модели вроде ChatGPT или Claude таких данных не раскрывают — вы получаете только текст. Можно ли вытащить приватные данные, видя только текст, без логитов и без доступа к модели? Спойлер: да, можно. И способ называется PETAL .

habr.com/ru/articles/931060/

ХабрЗнает ли LLM то, что знаешь ты?Как понять, "помнит" ли модель ваш текст? Представьте, что у вас есть друг, который идеально завершает ваши мысли. Вы говорите: «В детстве я любил...», а он тут же продолжает: «...играть в футбол и...

За неделю от ночных кошмаров до спокойного сна: как я автоматизировал защиту от AI-хакеров

Никто не любит быть тем парнем, который говорит "а давайте еще и защиту поставим". Особенно когда речь идет о блестящем новом AI-продукте, который должен был запуститься "еще вчера". Но когда твой корпоративный чат-бот начинает выдавать системные промпты направо и налево, а в 2 ночи тебе в Telegram прилетают сообщения "СРОЧНО! Хакеры взломали бота!" — понимаешь, что без брони в бой идти нельзя.

habr.com/ru/articles/930522/

ХабрЗа неделю от ночных кошмаров до спокойного сна: как я автоматизировал защиту от AI-хакеровНикто не любит быть тем парнем, который говорит "а давайте еще и защиту поставим". Особенно когда речь идет о блестящем новом AI-продукте, который должен был запуститься "еще вчера". Но когда твой...

Как мы разработали гибкий пайплайн для прогноза временных рядов любых метрик

Практически каждый ML‑разработчик сталкивался с прогнозированием временных рядов, ведь окружающие нас сущности и метрики зачастую зависят от времени. Меня зовут Александр Елизаров, я работаю в группе аналитики ключевых показателей в бизнес‑группе Поиска и рекламных технологий. В течение нескольких лет нам приходилось прогнозировать большое количество временных рядов разных доменных областей: от поисковой доли Яндекса до DAU определённых сервисов. Чтобы успешно справляться с этой задачей, мы вместе с коллегами разработали собственный прогнозный фреймворк. В этой статье я расскажу, как создать универсальный и гибкий пайплайн для прогнозирования. Под катом рассмотрим: — правильно выстроенную иерархию данных; — методы консистентного предсказания абсолютных и относительных метрик; — частые проблемы моделей и то, как мы их фиксили; — а также все важные этапы, о которых нельзя забывать, когда работаешь с временными рядами.

habr.com/ru/companies/yandex/a

ХабрКак мы разработали гибкий пайплайн для прогноза временных рядов любых метрикПрактически каждый ML‑разработчик сталкивался с прогнозированием временных рядов, ведь окружающие нас сущности и метрики зачастую зависят от времени. Меня зовут Александр Елизаров, я работаю...

LiberalMind 1.5- LLM на уровне Gemini 2.5, созданная в России

Сама идея возникла еще год назад.Хотелось создать LLM, которая будет больше всего приближена к AGI.В октябре 2024 было разработано и продумано несколько систем претрейна моделей,а также их дообучение и reinforcement learning системы.Также была разработана новая система декодера на основе декодировщика ROPE.Но к сожалению ресурсов на внедрение таких технологий хватало лишь на модели до 20M параметров,что означало и маленький набор данных для обучения,поэтому смысла в этом ине было. В апреле был разработан опенсорс агент на основе гемини,который с помощью технологии нескольких вариантов ответа и их анализа был по качеству намного лучше grmini 2.5 pro, хотя агент был разработан на основе gemini 2.0.Агент был назван LiberalMind 1.0

habr.com/ru/articles/930352/

ХабрLiberalMind 1.5- LLM на уровне Gemini 2.5, созданная в РоссииС чего все начиналось? Сама идея возникла еще год назад.Хотелось создать LLM, которая будет больше всего приближена к AGI.В октябре 2024 было разработано и продумано несколько систем претрейна...

PACS и ИИ: от внедрения до интеграции машинного обучения в российском здравоохранении

PACS (Picture Archiving and Communication System) — это не просто софт. Это нервная система медицинской визуализации, которая собирает, архивирует и распределяет DICOM-данные между всеми участниками медицинского процесса. А внедрение PACS в реальном здравоохранении — это смесь инженерии, логистики, дипломатии и кризис-менеджмента. Представьте, что вы врач-радиолог. Каждый день вы просматриваете сотни медицинских изображений, ища признаки заболеваний, травм или аномалий. Но как эти изображения попадают к вам? Как они сохраняются и передаются между больницами? Ответ кроется в стандарте DICOM и системе PACS. DICOM (Digital Imaging and Communications in Medicine) — это не просто формат файлов, это целая экосистема для медицинской визуализации. Представьте его как универсальный язык, на котором говорят все медицинские устройства: от рентгеновских аппаратов до МРТ-сканеров. Каждый DICOM файл — это не просто картинка, а целая история пациента, закодированная в цифровом виде. Когда пациент проходит обследование, оборудование создает не только само изображение, но и записывает массу дополнительной информации: кто пациент, когда проводилось исследование, на каком оборудовании, с какими настройками. Все это упаковывается в DICOM файл вместе с пиксельными данными. Получается своеобразная медицинская капсула времени — полная картина того, что происходило в момент исследования. Когда мы говорим об интеграции машинного обучения в медицинскую диагностику, PACS становится естественной точкой входа для ИИ-алгоритмов. В этой статье я расскажу о практическом опыте внедрения PACS в масштабах, сопоставимых с федеральным проектом, и о том, как мы интегрировали ИИ-диагностику в эту систему.

habr.com/ru/articles/930336/

ХабрPACS и ИИ: от внедрения до интеграции машинного обучения в российском здравоохраненииВведение: PACS как нервная система медицинской визуализации PACS (Picture Archiving and Communication System) — это не просто софт. Это нервная система медицинской визуализации, которая собирает,...

Лингвист-разработчик — универсальный специалист для внедрения чат-бота. Опыт найма

С 2023 года чат-ботов использует каждая пятая страховая компания ( по данным Naumen ). Банки, ритейл и даже медицина — и того чаще. Наличие бота в авторизованной зоне, например, на сайте или в личном кабинете, стало важным критерием цифровой зрелости. Казалось бы — ура, да здравствует прогресс. Но все оказалось не так просто. Повальная автоматизация обращений вызвала у клиентов сдержанную реакцию, немногие оказались в восторге от общения с роботами. И теперь всем приходится уделить еще больше внимания наполнению и развитию своих ботов, чтобы они наконец перестали выполнять роль автоответчика и смогли приносить клиенту реальную пользу. В связи с этим, когда в РГС начали думать в сторону внедрения чат-бота, мы ожидаемо озадачились вопросом: «А кого нам для этого надо нанять?». Разработчики не часто подкованы в тонкостях написания текстов и общения с клиентами. Нужно было что-то на стыке технических и гуманитарных навыков. И так мы начали поиск своего загадочного лингвиста-разработчика.

habr.com/ru/companies/rgs_it/a

ХабрЛингвист-разработчик — универсальный специалист для внедрения чат-бота. Опыт наймаС 2023 года чат-ботов использует каждая пятая страховая компания ( по данным Naumen ). Банки, ритейл и даже медицина — и того чаще. Наличие бота в авторизованной зоне, например, на сайте или в личном...

T-Pro 2.0 — открытая гибридно-ризонинговая русскоязычная LLM

Всем привет! На связи Толя Потапов, MLE в Т-Банке. Мы продолжаем развивать собственную линейку моделей GEN-T и внутренние продукты на основе своих моделей: агенты в саппорте, внутренние копилоты для сотрудников и Вселенную ассистентов. Мы уже делились большими языковыми моделями T-lite 0.1, T-lite 1.0 и T-pro 1.0. Модели завоевали популярность и скачиваются суммарно более 15к раз в месяц. Сегодня делимся новой моделью T-pro 2.0 , обученной на основе модели Qwen3 32B , но с более плотной токенизацией на русском языке . Модель поддерживает гибридный ризонинг и позволяет сгенерировать рассуждение перед тем как отвечать. Это помогает в сложных задачах, где требуется несколько последовательных выводов, таких как математика. Мы дообучали модель в несколько этапов, чтобы прокачать общее качество решения задач на русском и улучшить генерацию рассуждений. Расскажу общие детали процесса обучения модели, основные характеристики и результаты замеров качества. Поделюсь, какие сложности у нас возникали и на чем планируем сосредоточиться.

habr.com/ru/companies/tbank/ar

ХабрT-Pro 2.0 — открытая гибридно-ризонинговая русскоязычная LLMВсем привет! На связи Толя Потапов, MLE в Т-Банке. Мы продолжаем развивать собственную линейку моделей GEN-T и внутренние продукты на основе своих моделей: агенты в саппорте, внутренние копилоты для...

Как я устал тестировать LLM-системы вручную и написал универсальный сканер уязвимостей

Полгода назад я работал над внедрением RAG-системы в крупной финансовой компании. Задача была типичная: построить корпоративного чат-бота, который мог бы отвечать на вопросы сотрудников по внутренним документам. Казалось бы, что может пойти не так? Берем готовую LLM, подключаем к базе знаний, добавляем немного магии с векторным поиском — и готово. Но когда я начал тестировать систему перед продакшеном, обнаружил, что наш "умный" ассистент превращается в болтливого предателя при правильно сформулированных вопросах.

habr.com/ru/articles/929168/

ХабрКак я устал тестировать LLM-системы вручную и написал универсальный сканер уязвимостейПредыстория Полгода назад я работал над внедрением RAG-системы в крупной финансовой компании. Задача была типичная: построить корпоративного чат-бота, который мог бы отвечать на вопросы сотрудников по...

Обзор сервера ITPOD-SY4108G-D12R-G4: мощная платформа для AI/ML вычислений

Современный бизнес стремительно внедряет технологии искусственного интеллекта — от автоматизации процессов и анализа данных до создания инновационных продуктов на базе генеративного ИИ. Однако для эффективной работы AI/ML алгоритмов требуются специализированные вычислительные системы, способные обрабатывать колоссальные объемы данных с использованием параллельных вычислений. В условиях растущего спроса на высокопроизводительные решения и необходимости технологической независимости российские компании все чаще обращаются к отечественным производителям. ITPOD, входящий в корпорацию ITG, представляет флагманский сервер ITPOD-SY4108G-D12R-G4 — мощную вычислительную платформу, специально разработанную для самых требовательных задач искусственного интеллекта и машинного обучения.

habr.com/ru/companies/itglobal

ХабрОбзор сервера ITPOD-SY4108G-D12R-G4: мощная платформа для AI/ML вычисленийСовременный бизнес стремительно внедряет технологии искусственного интеллекта — от автоматизации процессов и анализа данных до создания инновационных продуктов на базе генеративного ИИ. Однако для...

Почему Python стал языком нейросетей и как это работает на практике

Python давно перестал быть просто «языком скриптов» и уверенно вышел в лидеры среди инструментов для нейросетей. Его синтаксис понятен «с первого взгляда», а мощные библиотеки позволяют сосредоточиться на идее, а не на рутине. Сегодня, от первых численных расчётов в NumPy до сложных моделей в TensorFlow и PyTorch, всё строится вокруг привычного Python-кода. В этой статье мы пройдём путь от базовых скриптов до «ручных» нейросетей и ноукод-решений, чтобы понять, почему именно Python стал стандартом в мире ИИ и как с его помощью оживить ваши первые нейросети.

habr.com/ru/companies/netology

ХабрПочему Python стал языком нейросетей и как это работает на практикеPython давно перестал быть просто «языком скриптов» и уверенно вышел в лидеры среди инструментов для нейросетей. Его синтаксис понятен «с первого взгляда», а мощные библиотеки позволяют...