mstdn.social is one of the many independent Mastodon servers you can use to participate in the fediverse.
A general-purpose Mastodon server with a 500 character limit. All languages are welcome.

Administered by:

Server stats:

15K
active users

#анализ_данных

2 posts2 participants0 posts today

Геопространственная обработка признаков

Привет, я Александр Мещеряков, более 3-х лет работаю в компании «Синимекс» специалистом по анализу данных. Мне удалось поработать с различными ML-проектами, и больше всего меня увлекла работа с геоданными. Для многих эта тема кажется немного «магией» и я хотел бы на страницах Хабра пролить на нее немного света. Эта статья — как шпаргалка для шеф-повара: берите готовые рецепты под ваши задачи. Здесь вы найдёте ключевые библиотеки (geopandas, h3-py) и принципы работы с геоданными — от парсинга OpenStreetMap до агрегации по шестиугольникам.

habr.com/ru/companies/cinimex/

ХабрГеопространственная обработка признаковПривет, я Александр Мещеряков, более 3-х лет работаю в компании «Синимекс» специалистом по анализу данных. Мне удалось поработать с различными ML-проектами, и больше всего меня увлекла работа с...

Отказоустойчивая распределённая архитектура для UX-аналитики

UX-аналитика – это сбор и анализ данных о взаимодействии пользователей с интерфейсом (клики, скроллы, навигация и прочие события). Такие события генерируются в огромных количествах, особенно при большой аудитории приложения. Чтобы эффективно обрабатывать эту информацию, необходима распределённая архитектура, способная масштабироваться под высокий поток событий и обеспечивать отказоустойчивость – т.е. работать надёжно даже при сбоях отдельных компонентов. Также важна возможность обработки данных в реальном времени , чтобы как можно быстрее получать метрики и инсайты об опыте пользователей. В этой статье мы рассмотрим ключевые аспекты такой архитектуры: масштабирование UX-событий, надёжный сбор метрик с устройств (в том числе офлайн), реалтайм-аналитику на основе потоковых технологий (Kafka, Flink, Kafka Streams, ClickHouse) и механизмы гарантированной доставки событий (at-least-once, exactly-once, retry, дедупликация). В результате станет понятно, как правильно спроектированная система UX-аналитики позволяет оперативно находить проблемные места UI, проводить A/B тесты и глубже понимать поведение пользователей.

habr.com/ru/articles/897798/

ХабрОтказоустойчивая распределённая архитектура для UX-аналитикиUX-аналитика – это сбор и анализ данных о взаимодействии пользователей с интерфейсом (клики, скроллы, навигация и прочие события). Такие события генерируются в огромных количествах, особенно при...

RAG без эмбеддингов для энтерпрайза (опыт ИИ-чемпионата)

Как я отказался от оверинжиниринга и переместился с 30 места на 7 в Enterprise RAG Challenge. И чего не хватило до 1 места. Сейчас облась ИИ – дикий запад. Никто не знает, как правильно решать задачи, а результаты экспериментов лежат приватными под NDA. Тем ценнее, когда кто-то делится реальным опытом с разбором деталей и подводных камней. Так что делюсь с хабром своей мартовской статьей про участие в Enterprise RAG Challenge от Рината LLM под капотом Если вы интересуетесь разработкой продуктов поверх LLM, то

habr.com/ru/articles/896692/

ХабрRAG без эмбеддингов для энтерпрайза (опыт ИИ-чемпионата)Как я отказался от оверинжиниринга и переместился с 30 места на 7 в Enterprise RAG Challenge. И чего не хватило до 1 места. Сейчас облась ИИ – дикий запад. Никто не знает, как правильно решать задачи,...
#ИИ#rag#pdf

Диверсифицируйте инвестиционный портфель карточками Pokémon*

Устали от скучных инвестиций в акции и облигации? Хотите добавить магии и приключений в свой портфель? Тогда карточки Pokémon — это то, что вам нужно! Не упустите уникальную возможность стать частью новой экономики. Согласно анонимным источникам в сети Интернет, Илон Маск уже планирует добавить карточки Pokémon в Стратегический резервный фонд США. Успейте купить сейчас, пока цены не взлетели до небес, как ракета SpaceX!

habr.com/ru/articles/895870/

ХабрДиверсифицируйте инвестиционный портфель карточками Pokémon*Устали от скучных инвестиций в акции и облигации? Хотите добавить магии и приключений в свой портфель? Тогда карточки Pokémon — это то, что вам нужно! Кто ваш любимый покемон? Напишите в комментариях...

Анализ факторов аттрактивности современного изобразительного искусства

Феномен Современного искусства с каждым днём приобретает новые, более широкие рамки и концепции. Но, их понимание и интерпретация для простого зрителя по-прежнему вызывает много вопросов. Одними из ведущих факторов оценки искусства являются уникальность, сложность и, конечно же – стоимость. Зачастую, совсем «простые» произведения имеют совсем не малую цену, величина которой порой, кажется, действительно несоизмерима с визуальной составляющей работ. Наша команда решила разобраться с этим феноменом и провела исследование в области произведений современного искусства (делая особый акцент на изобразительном творчестве). Мы собрали статистические данные из открытых источников в интернете (с ресурсов, представляющих наибольших интерес у коллекционеров, покупателей, галеристов). На основании этих данных можно проследить аттрактивность предметов коллекционирования, их востребованность и ценность. Среди всех вариантов расчета данных мы выбрали наиболее показательные поля для оценки: регион и год создания, стиль и тема искусства, площадь, ключевые слова, а также тип материала (из которого и на котором выполнено произведение). Комбинация данных позволили выделить некоторое количество ведущих пунктов, ставших- основой для создания статистики. Зависимость стоимости от региона (илл.1) показывает самые дорогостоящие произведения из Центральной Америки, цена которых варьируется от 3,5 до 4,8 млн. рублей. Следом за ними - произведения стоимостью от 500 тыс. до 1.5 млн. из Южной Азии и Западно-Африканского региона.

habr.com/ru/articles/895674/

ХабрАнализ факторов аттрактивности современного изобразительного искусстваФеномен Современного искусства с каждым днём приобретает новые, более широкие рамки и концепции. Но, их понимание и интерпретация для простого зрителя по-прежнему вызывает много вопросов. Одними из...

Как мы обучили модель прогноза ранней просрочки: логистическая регрессия vs градиентный бустинг

Всем привет! На связи дата-сайентисты стрима разработки моделей для корпоративного сегмента ВТБ — Андрей Бояренков, Иван Кондраков и Денис Дурасов. Как уже писали ранее в другой статье , внедрение процесса AutoML позволило нам во многом автоматизировать рутину и разработки, и применения моделей. Соответственно, у нас появилось больше времени для RnD-задач, которые могли бы быть полезны нашим заказчикам, чтобы охватить моделями новые процессы, а также провести исследования новых алгоритмов. Поэтому мы составили мэппинг возможных моделей на элементы работы Банка с клиентами малого и среднего бизнеса в части предотвращения просрочек по кредитной задолженности, а также по взысканию задолженности. Из данной схемы стало понятно, что есть необходимость разработать модели для процессов по мониторингу заёмщиков Банка — Precollection-модели. Под катом расскажем, как мы их разрабатывали и каких результатов удалось с ними добиться.

habr.com/ru/companies/vtb/arti

ХабрКак мы обучили модель прогноза ранней просрочки: логистическая регрессия vs градиентный бустингВсем привет! На связи дата-сайентисты стрима разработки моделей для корпоративного сегмента ВТБ — Андрей Бояренков , Иван Кондраков и Денис Дурасов . Как уже писали ранее в другой статье , внедрение...
#data_science#ds#ml

Тестирование платформы DeepSeek для проверки гипотез по анализу данных

Привет, Хабр! Мы, ребята из Центра эксплуатации Блока ИТ Страхового Дома ВСК, занимаемся управлением автоматизации ИТ-процессов. И у нас, как у всех — куча прикладных задач, которые хочется закрыть быстро дешево и качественно. Недавний хайп по Deepseek не обошел нас стороной, и мы решили протестировать платформу по парочке гипотез в надежде на чудо. И так, мы решили сфокусироваться на потребностях нашей команды технической поддержки в части анализа и обработки данных по ключевым метрикам и категоризации обращений. Гипотеза 1: Оценка тенденций ключевых показателей технической поддержки Мы решили проверить, насколько DeepSeek способен анализировать динамику показателей. В качестве данных взяли выгрузку по основным метрикам техподдержки: SLA, количество заявок (поступило/решено), количество негативных отзывов и пр. Скармливали выгрузку Excel, в общем то, простая таблица со следующими показателями (столбцы):

habr.com/ru/companies/vsk_insu

ХабрТестирование платформы DeepSeek для проверки гипотез по анализу данныхПривет, Хабр! Мы, ребята из Центра эксплуатации Блока ИТ Страхового Дома ВСК, занимаемся управлением автоматизации ИТ-процессов. И у нас, как у всех — куча прикладных задач, которые хочется закрыть...

Топ мировых AI-платформ на конец марта 2025 (сгруппировано по странам и категориям) + ссылки на официальные сайты

AI-платформы и инструменты активно развиваются, предлагая решения для различных задач: от генерации текста и изображений до автономных систем и бизнес-аналитики. Локальные решения, такие как Stable Diffusion и LLaMA, позволяют использовать ИИ без подключения к интернету, что особенно важно для задач, требующих конфиденциальности и высокой производительности. Выбор платформы зависит от конкретных задач, бюджета и технических возможностей.

habr.com/ru/articles/892678/

ХабрТоп мировых AI-платформ на конец марта 2025 (сгруппировано по странам и категориям) + ссылки на официальные сайтыСША 1. Генеративные AI (NLP, текст, изображения) OpenAI – https://openai.com Сайт : https://openai.com Модели : ChatGPT, GPT-4, DALL-E. Особенности : Лидер в генеративном ИИ, высокая точность в...

Как стать продуктовым аналитиком в Ozon Банке?

Всем привет! Меня зовут Миша, и я работаю продуктовым аналитиком в Ozon Банке. Мой путь в профессии начался всего 3 года назад, и я отлично помню, как мне самому не хватало подробного плана по входу в профессию. Поэтому я решил написать свой. Надеюсь, что он поможет новичкам и тем, кто только задумывается об аналитике данных) Для того чтобы мой план был более интерактивным, давайте представим, что, идя по плану мы как Танос из вселенной Marvel – собираем навыки аналитика в свою перчатку бесконечности.

habr.com/ru/companies/ozonbank

ХабрКак стать продуктовым аналитиком в Ozon Банке?Всем привет! Меня зовут Миша, и я работаю продуктовым аналитиком в Ozon Банке. Мой путь в профессии начался всего 3 года назад, и я отлично помню, как мне самому не хватало подробного плана по входу в...

Deep Research Showdown: битва AI-систем за качество исследований

Как я сравнил топовые AI-модели для глубокого анализа данных и собственную разработку Привет! Меня зовут Валера Ковальский, я CEO NDT by red_mad_robot. Недавно я протестировал ведущие AI-системы, которые способны проводить глубокие исследования, и делюсь с вами результатами.

habr.com/ru/companies/redmadro

ХабрDeep Research Showdown: битва AI-систем за качество исследованийКак я сравнил топовые AI-модели для глубокого анализа данных и собственную разработку Привет! Меня зовут Валера Ковальский, я CEO NDT by red_mad_robot. Недавно я протестировал ведущие AI-системы,...

Исследование набора данных для обучения LVLM — SeeClick (Web Data)

В данной статье будет рассмотрен набор данных для обучения LVLM (Large Visual Language Model), который использовался авторами статьи " SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents " при обучении модели SeeClick , которая показывает достаточно неплохие результаты, по сравнению с аналогичными решениями. Рассмотрен будет только набор данных, который использовался при обучении SeeClick для определения элементов на веб-страницах, полученный авторами этой модели с помощью Common Crawl (открытый репозиторий набора данных о веб-страницах). Данная статья может быть полезна специалистам, которые начинают разрабатывать свою LVLM работающую со скриншотами пользовательского экрана (image-ориентированные), а не с содержимым HTML веб-приложения (text-ориентированные). В статье будет рассмотрена базовая работа с частью предоставляемого SeeClick набора данных (10000 размеченных изображений общим объёмом в 4.8 Гб).

habr.com/ru/articles/887248/

ХабрИсследование набора данных для обучения LVLM — SeeClick (Web Data)В данной статье будет рассмотрен набор данных для обучения LVLM (Large Visual Language Model), который использовался авторами статьи " SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents...

Как я маркетдату агрегировал. Визуализация данных Nasdaq, LSE и MOEX

В предыдущей статье я рассказал о finmap.org - инструменте визуализации данных Мосбиржи. Спасибо хабравчанам за отзывы и предложения. Отдельная благодарность за донаты - я уже почти могу покрыть затраты на AWS. Благодаря вашим идеям, в finmap.org появилась строка поиска по тикеру, а в portfolio можно отобразить американские ETF. В новой версии опубликован исходный код Github Workflows , добавлены данные торгов Лондонской биржи. Датафайлы приведены к общему формату, это сильно упростило разработку. Отображение исторических данных в виде гистограммы теперь доступно для всех площадок.

habr.com/ru/articles/884938/

ХабрКак я маркетдату агрегировал. Визуализация данных Nasdaq, LSE и MOEXВ предыдущей статье я рассказал о finmap.org - инструменте визуализации данных Мосбиржи и американских площадок. Спасибо хабравчанам за отзывы и предложения. Отдельная благодарность за донаты, вы...

Метод максимального правдоподобия и информация Фишера: от А до Я

Всем привет👋🏻 Сегодня я хотел бы рассказать про метод максимального правдоподобия и информацию Фишера и еще несколько смежных тем , которые активно используются в машинном обучении и анализе данных . Расскажу я об этом просто, понятно и без воды, но с практическими примерами , в том числе на Python. В данной статье я постараюсь изложить информацию таким образом, чтобы даже относительно малоподготовленный читатель смог понять как все устроено и работает на практике, и так, как предпочел бы, чтобы тему объяснили мне, то есть предоставлю инструментарий , объясню как им пользоваться в разных ситуациях и покажу это на практике. Присаживайтесь поудобнее, заварите кофейку и запаситесь печеньки, нам предстоит интересный путь🍪 Go little rockstar⭐

habr.com/ru/articles/830326/

ХабрМетод максимального правдоподобия и информация Фишера: от А до ЯВсем привет! Сегодня я хотел бы рассказать про метод максимального правдоподобия и информацию Фишера и еще несколько смежных тем, которые активно используются в машинном обучении и анализе данных....

EDA of dataset Python

Привет, Хабр! Аналитики данных часто сталкиваются с грязными данными, которые могут существенно замедлить процесс анализа. Грязны данные – это пропущенные значения, дубликаты, неконсистентные данные. Пропущенные значения заставляют нас гадать, что же было замыслено нашим коллегой; дубликаты вводят в заблуждение, умножая одно и то же на количество их копий, а неконсистентные данные заставляют нас сомневаться в каждой цифре. Очищать грязные данные можно c Pandas . Рассмотрим основные методы.

habr.com/ru/articles/882588/

ХабрEDA of dataset PythonПривет, Хабр! Аналитики данных часто сталкиваются с  грязными данными,  которые могут существенно замедлить процесс анализа. Грязны данные – это пропущенные...

Супер-простой анализ отзывов с помощью GPT

Для менеджера по продукту отзывы пользователей – это бесценный источник знаний о проблемах, запросах, пожеланиях и юзкейсах аудитории. Но есть нюанс: анализировать текстовые отзывы вручную тяжело, поэтому команды часто их игнорируют целиком или анализируют отзывы редко и несистемно. Мы решили упорядочить анализ и систематизацию отзывов пользователей с помощью GPT. В итоге получился полностью автоматизированный дашборд, который обновляется каждый день и приносит много пользы и инсайтов.

habr.com/ru/articles/881050/

ХабрСупер-простой анализ отзывов с помощью GPTДля менеджера по продукту отзывы пользователей – это бесценный источник знаний о проблемах, запросах, пожеланиях и юзкейсах аудитории. Но есть нюанс: анализировать текстовые отзывы вручную тяжело,...

Boxplot, он же ящик с усами

Представьте, что вам нужно быстро сравнить распределения зарплат сотрудников разных отделов или оценить разброс результатов эксперимента. В таких ситуациях отличным выбором будет boxplot, он же “ящик с усами” – эффективный инструмент для выявления ключевых характеристик распределения, позволяющий быстро оценить медиану, разброс данных и обнаружить выбросы. В этой статье мы подробно разберем, что такое boxplot и почему его называют “ящиком с усами”.

habr.com/ru/articles/879840/

ХабрBoxplot, он же ящик с усамиВведение Представьте, что вам нужно быстро сравнить распределения зарплат сотрудников разных отделов или оценить разброс результатов эксперимента. В таких ситуациях отличным выбором будет boxplot, он...

Считаем по головам: как проверить пассажиропотоки с помощью искусственного интеллекта

Привет, Habr! Это Сергей Пономаренко, я занимаюсь аналитикой данных в «МосТрансПроекте» . Как и многие современные компании, мы применяем искусственный интеллект в нашей деятельности. Недавно мы впервые использовали машинное зрение для анализа пассажиропотоков на Большой кольцевой линии. Подробности расскажу в деталях под катом.

habr.com/ru/companies/mostrans

ХабрСчитаем по головам: как проверить пассажиропотоки с помощью искусственного интеллектаПривет, Habr! Это Сергей Пономаренко, я занимаюсь аналитикой данных в «МосТрансПроекте» . Как и многие современные компании, мы применяем искусственный интеллект в нашей деятельности. Недавно мы...

[Перевод] Основы очистки данных в data science

В реальной жизни данные, к сожалению, не идеальны и требуют тщательной предобработки. Проблемы с данными могут возникать по разным причинам: из-за их природы, способа сбора или ошибок при вводе. Очистка данных позволит сделать анализ более точным, а в случае машинного обучения — улучшить качество моделей. Давайте рассмотрим пять задач, с которыми можно столкнуться в рамках очистки данных. Это не исчерпывающий список, но он послужит хорошим ориентиром при работе с реальными датасетами. Все примеры мы будем рассматривать на Ames Housing Dataset , который содержит информацию о продажах жилой недвижимости в городе Эймс, штат Айова, США

habr.com/ru/articles/875662/

ХабрОсновы очистки данных в data scienceВ реальной жизни данные, к сожалению, не идеальны и требуют тщательной предобработки. Проблемы с данными могут возникать по разным причинам: из-за их природы, способа сбора или ошибок при вводе....

Транскриптомный анализ: как посчитать гены?

Вся информация о нас закодирована в ДНК. Но как она реализуется? Как при помощи анализа данных секвенирования ученые находят количественные соотношения между группами генов? Что такое транскриптомика? Давайте разберемся, как находят закономерности в экспрессии генов и построим красочные визуализации.

habr.com/ru/articles/874558/

ХабрТранскриптомный анализ: как посчитать гены?Все знают, что наследственная информация закодирована в ДНК. Но мало кто задумывается о том, как эта информация реализуется внутри нас. Как информация с одних молекул передается на другие? Что...