mstdn.social is one of the many independent Mastodon servers you can use to participate in the fediverse.
A general-purpose Mastodon server with a 500 character limit. All languages are welcome.

Administered by:

Server stats:

7.2K
active users

#data_analysis

1 post1 participant0 posts today
Habr<p>Краткий обзор платформы данных Т-Банка</p><p>Привет, Хабр! Меня зовут Дима Пичугин, и уже семь лет я занимаюсь различными компонентами T Data Platform. Эта статья — результат внутреннего аудита наших инструментов, но я подумал, что она может быть интересна не только нашим аудиторам, но и более широкой аудитории. Enjoy! Платформа данных в Т-Банке существует более 18 лет и за это время прошла значительный путь эволюции. Она помогает более чем 17 тысячам пользователей извлекать из данных ценную информацию для бизнеса. За последние годы подходы к работе с данными заметно изменились: индустрия постепенно отходила от классических концепций хранилищ данных по Инмону и Кимбеллу в сторону Data Lake, а затем — Lakehouse-архитектур. Вместе с отраслью менялась и наша платформа. В статье расскажу, как трансформировалась T Data Platform за 18 лет развития, и опишу ее текущее устройство — без погружения в технические детали, но с акцентом на общую архитектуру. Для тех, кому интересны отдельные инструменты или решения, оставлю ссылки на подробные материалы и выступления.</p><p><a href="https://habr.com/ru/companies/tbank/articles/926886/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/tbank/ar</span><span class="invisible">ticles/926886/</span></a></p><p><a href="https://zhub.link/tags/data" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data</span></a> <a href="https://zhub.link/tags/data_analysis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_analysis</span></a> <a href="https://zhub.link/tags/data_platform" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_platform</span></a> <a href="https://zhub.link/tags/data_engineering" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_engineering</span></a> <a href="https://zhub.link/tags/architecture" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>architecture</span></a></p>
Habr<p>Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов</p><p>За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции
по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.</p><p><a href="https://habr.com/ru/companies/oleg-bunin/articles/915332/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/oleg-bun</span><span class="invisible">in/articles/915332/</span></a></p><p><a href="https://zhub.link/tags/%D0%B8%D0%BD%D1%82%D0%B5%D1%80%D0%B2%D1%8C%D1%8E" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>интервью</span></a> <a href="https://zhub.link/tags/greenplum" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>greenplum</span></a> <a href="https://zhub.link/tags/data_engineering" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_engineering</span></a> <a href="https://zhub.link/tags/data_analysis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_analysis</span></a> <a href="https://zhub.link/tags/infrastructure" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>infrastructure</span></a> <a href="https://zhub.link/tags/python" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>python</span></a> <a href="https://zhub.link/tags/data_bases" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_bases</span></a> <a href="https://zhub.link/tags/data_internals" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_internals</span></a> <a href="https://zhub.link/tags/big_data" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>big_data</span></a> <a href="https://zhub.link/tags/big_data_analytics" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>big_data_analytics</span></a></p>
Habr<p>Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице</p><p>Привет! Меня зовут Влад Божьев, я старший разработчик юнита АБ-тестирования Авито . Один из наших ключевых инструментов – M42, сервис для визуализации метрик. Он позволяет быстро проверять гипотезы, анализировать отклонения и оценивать инициативы. В этой статье мы с вами погружаемся в самое сердце M42 и разбираем, как же там хранятся отчеты по метрикам. Это не просто рассказ, это почти детективная история о том, как мы искали оптимальное решение. В нашем семантическом слое данных больше 20 000 метрик, и есть десятки разрезов для каждой из них. Под катом рассказываю, как мы храним терабайты данных и автоматизируем добавление новых разрезов в отчёт M42.</p><p><a href="https://habr.com/ru/companies/avito/articles/913694/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/avito/ar</span><span class="invisible">ticles/913694/</span></a></p><p><a href="https://zhub.link/tags/M42" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>M42</span></a> <a href="https://zhub.link/tags/bigdata" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>bigdata</span></a> <a href="https://zhub.link/tags/clickhouse" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>clickhouse</span></a> <a href="https://zhub.link/tags/python" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>python</span></a> <a href="https://zhub.link/tags/data_analysis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_analysis</span></a> <a href="https://zhub.link/tags/data_engineering" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_engineering</span></a> <a href="https://zhub.link/tags/data_structures" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_structures</span></a> <a href="https://zhub.link/tags/storage" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>storage</span></a> <a href="https://zhub.link/tags/adhoc%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>adhocанализ</span></a> <a href="https://zhub.link/tags/adhoc" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>adhoc</span></a></p>
Habr<p>Как пройти собеседование: опыт аналитика Яндекс Лавки</p><p>Привет, Хабр! Меня зовут Рафаэль Сайфутдинов, но обычно меня зовут просто Раф. Я работаю аналитиком ценообразования в Яндекс Лавке, выпускаюсь из НИУ ВШЭ и уже успел пройти курс</p><p><a href="https://habr.com/ru/companies/yandex_praktikum/articles/902750/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/yandex_p</span><span class="invisible">raktikum/articles/902750/</span></a></p><p><a href="https://zhub.link/tags/%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D1%82%D0%B8%D0%BA%D0%B0" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>аналитика</span></a> <a href="https://zhub.link/tags/%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D1%82%D0%B8%D0%BA_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>аналитик_данных</span></a> <a href="https://zhub.link/tags/%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>анализ_данных</span></a> <a href="https://zhub.link/tags/data_analysis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_analysis</span></a></p>
Habr<p>Full-stack в аналитике: почему это будущее Data Science?</p><p>Привет. Представьте: вы запилили нейросеть, которая определяет котиков на фото с точностью 99.9% (оставшиеся 0.1% — это когда хомяк притворяется котом). Воодушевлённый результатом, бежите к руководству — а там оказывается, что:</p><p><a href="https://habr.com/ru/articles/904376/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/904376/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/data_science" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_science</span></a> <a href="https://zhub.link/tags/data_analysis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_analysis</span></a> <a href="https://zhub.link/tags/python" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>python</span></a> <a href="https://zhub.link/tags/%D0%B1%D0%B5%D0%BA%D0%B5%D0%BD%D0%B4" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>бекенд</span></a> <a href="https://zhub.link/tags/%D1%84%D1%80%D0%BE%D0%BD%D1%82%D0%B5%D0%BD%D0%B4" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>фронтенд</span></a> <a href="https://zhub.link/tags/ml" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>ml</span></a> <a href="https://zhub.link/tags/javascript" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>javascript</span></a></p>
Habr<p>Контролируем качество данных с помощью Python</p><p>В работе с данными одной из самых больших трудностей является обеспечение их качества. В процессе анализа и обработки информации приходится сталкиваться с множеством проблем, таких как отсутствие нужных значений, неправильно отформатированные данные или ошибки, появляющиеся при сборе данных с веб-ресурсов. В этой статье мы рассмотрим, как с помощью Python можно автоматизировать процесс проверки и очистки данных, используя популярные библиотеки, такие как pandas и pyspark. Мы исследуем практические подходы к подготовке данных для анализа, включая поиск аномалий, постобработку и работу с пустыми значениями, что поможет обеспечить высокое качество данных для дальнейших исследований и принятия решений.</p><p><a href="https://habr.com/ru/companies/otus/articles/903634/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/otus/art</span><span class="invisible">icles/903634/</span></a></p><p><a href="https://zhub.link/tags/qa" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>qa</span></a> <a href="https://zhub.link/tags/data_analysis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_analysis</span></a> <a href="https://zhub.link/tags/%D0%BA%D0%B0%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%BE_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>качество_данных</span></a> <a href="https://zhub.link/tags/%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D1%82%D0%B8%D0%BA%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>аналитика_данных</span></a> <a href="https://zhub.link/tags/Python_%D0%B4%D0%BB%D1%8F_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Python_для_анализа_данных</span></a> <a href="https://zhub.link/tags/pandas" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>pandas</span></a> <a href="https://zhub.link/tags/Pyspark" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Pyspark</span></a> <a href="https://zhub.link/tags/%D0%9E%D1%87%D0%B8%D1%81%D1%82%D0%BA%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Очистка_данных</span></a> <a href="https://zhub.link/tags/%D0%90%D0%BD%D0%BE%D0%BC%D0%B0%D0%BB%D0%B8%D0%B8_%D0%B2_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Аномалии_в_данных</span></a></p>
Habr<p>Как создать инструмент для DQ только на Python и Airflow?</p><p>Всем привет! Меня зовут Павел, я главный аналитик данных управления подготовки данных Банка. В этой статье я расскажу, как мы создали самописный инструмент и библиотеку для проверок качества данных, используя только Python и Airflow, и какую пользу это принесло команде.</p><p><a href="https://habr.com/ru/companies/gazprombank/articles/896814/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/gazpromb</span><span class="invisible">ank/articles/896814/</span></a></p><p><a href="https://zhub.link/tags/dq" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>dq</span></a> <a href="https://zhub.link/tags/python" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>python</span></a> <a href="https://zhub.link/tags/airflow" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>airflow</span></a> <a href="https://zhub.link/tags/superset" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>superset</span></a> <a href="https://zhub.link/tags/data_engineering" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_engineering</span></a> <a href="https://zhub.link/tags/data_analysis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_analysis</span></a> <a href="https://zhub.link/tags/data_quality" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_quality</span></a></p>
Habr<p>Великий и могучий: как мы учим нашу систему находить нецензурную лексику в ФИО</p><p>Привет, Хабр! Меня зовут Макс Траулько, я занимаюсь анализом данных и проработкой новый фичей в команде RnD в HFLabs. Прямо сейчас я работаю над нетривиальной задачей — учу наши алгоритмы распознавать в именах и фамилиях русский мат и прочие ругательства. Как появилась эта задача? В одной крупной компании клиенты могут оставить обращения во фронт-системе. И иногда пишут в полях ФИО, прямо скажем, черт знает что. А у бизнеса риски: если при ответе на обращение автоматически использовать данные из поля «Имя», можно стать героем насмешливых или гневных постов. Чуть раньше с такой же проблемой к нам пришел другой клиент, из ретейла. У того клиенты вообще большие выдумщики — придумывают составные и сложные имена и фамилии с обсценной лексикой. Даже жаль, что показать эти примеры не можем. В статье расскажу, как мы решаем эту задачу.</p><p><a href="https://habr.com/ru/companies/hflabs/articles/896436/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/hflabs/a</span><span class="invisible">rticles/896436/</span></a></p><p><a href="https://zhub.link/tags/%D0%BA%D0%B0%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%BE_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>качество_данных</span></a> <a href="https://zhub.link/tags/%D1%81%D1%82%D0%B0%D0%BD%D0%B4%D0%B0%D1%80%D1%82%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>стандартизация</span></a> <a href="https://zhub.link/tags/%D1%80%D1%83%D0%B3%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D1%81%D1%82%D0%B2%D0%B0" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>ругательства</span></a> <a href="https://zhub.link/tags/%D0%BF%D0%B5%D1%80%D1%81%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>персональные_данные</span></a> <a href="https://zhub.link/tags/mdm" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>mdm</span></a> <a href="https://zhub.link/tags/data_analysis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_analysis</span></a> <a href="https://zhub.link/tags/data_governance" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_governance</span></a> <a href="https://zhub.link/tags/%D0%B0%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC%D1%8B" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>алгоритмы</span></a></p>
Habr<p>Байесовская собака: анализ пёсьего компаса</p><p>Ориентируются ли собаки по компасу, когда делают свои грязные дела? Оказывается — да! Если вам интересно, как можно это подтвердить в домашних условиях, используя компас, Байесовскую статистику и собаку (собака не включена), то добро пожаловать под кат.</p><p><a href="https://habr.com/ru/articles/895332/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/895332/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/python" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>python</span></a> <a href="https://zhub.link/tags/data_analysis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_analysis</span></a> <a href="https://zhub.link/tags/bayesian" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>bayesian</span></a> <a href="https://zhub.link/tags/tutorial" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>tutorial</span></a> <a href="https://zhub.link/tags/dog" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>dog</span></a> <a href="https://zhub.link/tags/pymc3" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>pymc3</span></a></p>
Habr<p>Повышение эффективности аналитических баз данных: кейс «Комус» и Arenadata</p><p>Хабр, привет! Современные высоконагруженные системы требуют точной настройки и регулярного мониторинга, чтобы обеспечить стабильную производительность в условиях постоянно растущих объёмов данных. Когда речь идёт о крупной аналитической базе данных, развёрнутой в облачной среде, оптимизация её работы становится критически важной задачей. В прошлой статье мы уже рассказывали о типичных ошибках при работе с Arenadata DB (ADB), о том, как их избежать и значительно повысить производительность кластера. Сегодня же поделимся реальным опытом на примере компании «Комус» — лидера в области B2B-ритейла, которая обратилась к Arenadata за проведением комплексного аудита своего кластера ADB. В этой статье мы детально разобрали, как с помощью анализа и оптимизации удалось выявить точки роста, подготовить кластер к текущим и будущим нагрузкам и предложить план улучшений. Мы рассмотрим технические детали аудита, проблемы, с которыми пришлось столкнуться, и эффективные практики, позволившие повысить производительность аналитической базы данных. Что там с нагрузкой на кластер?</p><p><a href="https://habr.com/ru/companies/arenadata/articles/887792/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/arenadat</span><span class="invisible">a/articles/887792/</span></a></p><p><a href="https://zhub.link/tags/arenadata_db" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>arenadata_db</span></a> <a href="https://zhub.link/tags/%D0%BE%D0%BF%D1%82%D0%B8%D0%BC%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F_%D0%B1%D0%B0%D0%B7%D1%8B_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>оптимизация_базы_данных</span></a> <a href="https://zhub.link/tags/etl" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>etl</span></a> <a href="https://zhub.link/tags/%D0%B2%D1%8B%D1%81%D0%BE%D0%BA%D0%BE%D0%BD%D0%B0%D0%B3%D1%80%D1%83%D0%B6%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>высоконагруженные_системы</span></a> <a href="https://zhub.link/tags/highload" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>highload</span></a> <a href="https://zhub.link/tags/%D0%BF%D0%B0%D1%80%D1%82%D0%B8%D1%86%D0%B8%D0%BE%D0%BD%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>партиционирование</span></a> <a href="https://zhub.link/tags/%D0%B0%D1%83%D0%B4%D0%B8%D1%82" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>аудит</span></a> <a href="https://zhub.link/tags/data_analysis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_analysis</span></a> <a href="https://zhub.link/tags/%D0%B1%D0%B0%D0%B7%D1%8B_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>базы_данных</span></a> <a href="https://zhub.link/tags/%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D0%B1%D0%B0%D0%B7%D1%8B_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>аналитические_базы_данных</span></a></p>
Habr<p>Logit Lens &amp; ViT model: туториал</p><p>Привет, Хабр! В этом туториале разобран метод для анализа внутренних представлений "логит-линза" (Logit Lens). В результате практики по туториалу, вы: 1. Изучите подход и концепцию Logit Lens; 2. Реализуете Logit Lens для Visual Transformer; 3. Познакомитесь с анализом результатов применения логит-линзы. Как всегда, весь код будет на гитхаб — step by step. Welcome!</p><p><a href="https://habr.com/ru/articles/891352/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/891352/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/explainable_ai" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>explainable_ai</span></a> <a href="https://zhub.link/tags/data_science" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_science</span></a> <a href="https://zhub.link/tags/data_analysis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_analysis</span></a> <a href="https://zhub.link/tags/transformers" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>transformers</span></a></p>
Habr<p>Неизвестный библейский алгоритм кластеризации</p><p>Времена, когда горящий куст мог принести озарение, давно прошли. Примитивный опыт уже не может стать источником открытий. А всё потому, что он обобщён и впитан в культуру человечества. И чтобы подключиться к мудрости предков нужно опереться на философию. В этой статье мы познакомимся с новым алгоритмом кластеризации и поверхностно затронем некоторые философские категории. Перевернём объективность в субъектность и обратно.</p><p><a href="https://habr.com/ru/articles/890050/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/890050/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/%D0%BA%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>кластеризация</span></a> <a href="https://zhub.link/tags/%D1%84%D0%B8%D0%BB%D0%BE%D1%81%D0%BE%D1%84%D0%B8%D1%8F" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>философия</span></a> <a href="https://zhub.link/tags/data_science" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_science</span></a> <a href="https://zhub.link/tags/data_analysis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_analysis</span></a></p>
Habr<p>Python для начинающих дата-аналитиков: как настроить виртуальное окружение?</p><p>Привет! Меня зовут Женя и я работаю аналитиком данных. В этой статье я бы хотел рассказать начинающим аналитикам о том, как правильно настроить окружение для работы с Python. Когда я только начинал заниматься анализом данных, концепция питоновского виртуального окружения вводила меня в ступор, и здесь я постараюсь показать, что в ней нет ничего сложного.</p><p><a href="https://habr.com/ru/articles/889670/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/889670/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/venv" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>venv</span></a> <a href="https://zhub.link/tags/pip" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>pip</span></a> <a href="https://zhub.link/tags/data_analysis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_analysis</span></a> <a href="https://zhub.link/tags/uv" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>uv</span></a> <a href="https://zhub.link/tags/pandas" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>pandas</span></a> <a href="https://zhub.link/tags/jupyter_notebook" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>jupyter_notebook</span></a> <a href="https://zhub.link/tags/python" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>python</span></a></p>
Habr<p>Boxplot, он же ящик с усами</p><p>Представьте, что вам нужно быстро сравнить распределения зарплат сотрудников разных отделов или оценить разброс результатов эксперимента. В таких ситуациях отличным выбором будет boxplot, он же “ящик с усами” – эффективный инструмент для выявления ключевых характеристик распределения, позволяющий быстро оценить медиану, разброс данных и обнаружить выбросы. В этой статье мы подробно разберем, что такое boxplot и почему его называют “ящиком с усами”.</p><p><a href="https://habr.com/ru/articles/879840/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/879840/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/python" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>python</span></a> <a href="https://zhub.link/tags/%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>анализ_данных</span></a> <a href="https://zhub.link/tags/data_analysis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_analysis</span></a> <a href="https://zhub.link/tags/%D0%B2%D0%B8%D0%B7%D1%83%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>визуализация_данных</span></a> <a href="https://zhub.link/tags/data_visualization" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_visualization</span></a> <a href="https://zhub.link/tags/boxplot" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>boxplot</span></a> <a href="https://zhub.link/tags/%D1%8F%D1%89%D0%B8%D0%BA_%D1%81_%D1%83%D1%81%D0%B0%D0%BC%D0%B8" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>ящик_с_усами</span></a> <a href="https://zhub.link/tags/machine_learning" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>machine_learning</span></a> <a href="https://zhub.link/tags/%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>машинное_обучение</span></a> <a href="https://zhub.link/tags/%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>статистика</span></a></p>
RedPacket Security<p>Data Volumes and Deletion issues Faced by European Police in Cybercrime Investigations - <a href="https://www.redpacketsecurity.com/european-police-data-volumes-and-deletion-hindering-investigations/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://www.</span><span class="ellipsis">redpacketsecurity.com/european</span><span class="invisible">-police-data-volumes-and-deletion-hindering-investigations/</span></a></p><p><a href="https://mastodon.social/tags/threatintel" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>threatintel</span></a> <a href="https://mastodon.social/tags/data_analysis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_analysis</span></a> <a href="https://mastodon.social/tags/Europol" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Europol</span></a> <a href="https://mastodon.social/tags/cybercrime" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>cybercrime</span></a></p>
Habr<p>Data-driven культура и подход по версии аналитика</p><p>Привет! Я работаю в аналитике и с данными уже 13+ лет. Про data-driven от заказчиков-пользователей трудов моей работы слышу тоже, почти 13+ лет. И очень разные интерпретации этого явления встречал. Думаю, что я один из тех, чья трудовая деятельность ближе всего к data-driven. Хочу рассказать о том, какой data-driven = хорошо , а какой != хорошо . Эта статья может быть полезна как управленцам, так и аналитикам. Давайте говорить на "одном языке".) != хорошо Это когда PM, PO, CIO и даже CTO, роли, задачи которых развивать бизнес (дальше буду называть эти роли "бизнесом"), не используют в работе цифры, полагаясь на экспертные мнения или оценки. При этом цифры могут быть и использоваться для чего-то ещё. Например, для того, чтобы косвенно отслеживать работоспособность продукта - тоже неплохой вариант для аналитики, но, думаю, лучше работать с повышением качества тестирования продукта. Индикаторы того, что вы работаете в компании с плохим вариантом интерпретации data-driven:</p><p><a href="https://habr.com/ru/articles/874206/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/874206/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/datadriven" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>datadriven</span></a> <a href="https://zhub.link/tags/%D0%BF%D1%80%D0%B8%D0%BD%D1%8F%D1%82%D0%B8%D0%B5_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>принятие_решений</span></a> <a href="https://zhub.link/tags/data_analysis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_analysis</span></a> <a href="https://zhub.link/tags/data" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data</span></a></p>
Habr<p>Документация, которая точно не навредит аналитике в Вашем проекте</p><p>Привет! Я работаю Chief Data Officer в средней российской компании и, думаю, попробовал «всякое» в плане работы с документацией для команды, которая работает с данными. Хочу поделиться своим опытом того, что «маст хев» в документации в Вашем проекте, когда есть планы вроде «make analysis great [again]». Нука-нука!</p><p><a href="https://habr.com/ru/articles/864512/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/864512/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8F_%D1%8D%D1%82%D0%BE_%D0%BB%D0%B5%D0%B3%D0%BA%D0%BE" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>документация_это_легко</span></a> <a href="https://zhub.link/tags/%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D1%82%D0%B8%D0%BA%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>аналитика_данных</span></a> <a href="https://zhub.link/tags/data_analysis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_analysis</span></a> <a href="https://zhub.link/tags/data_engineering" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_engineering</span></a> <a href="https://zhub.link/tags/%D0%BC%D0%B5%D1%82%D0%B0%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>метаданные</span></a></p>
Habr<p>Бизнес-визуализации или графики, которые недооценивают. Часть I</p><p>Расскажу я вам о способах визуализации данных, которые помогают бизнесу быстро оценивать информацию и принимать обоснованные решения. Постараюсь объяснить теоретические аспекты и продемонстрировать на практическом примере. Донести плюсы и минусы этих визуализаций.</p><p><a href="https://habr.com/ru/articles/864370/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/864370/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/%D0%BF%D1%80%D0%BE%D0%B4%D1%83%D0%BA%D1%82%D0%BE%D0%B2%D1%8B%D0%B9_%D0%B4%D0%B8%D0%B7%D0%B0%D0%B9%D0%BD" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>продуктовый_дизайн</span></a> <a href="https://zhub.link/tags/%D0%B2%D0%B8%D0%B7%D1%83%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>визуализация_данных</span></a> <a href="https://zhub.link/tags/%D0%B4%D0%B8%D0%B0%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B0" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>диаграмма</span></a> <a href="https://zhub.link/tags/data_analysis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_analysis</span></a> <a href="https://zhub.link/tags/product_design" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>product_design</span></a></p>
Habr<p>Как СИБУР заменил иностранное ПО за три месяца: кейс создания RTO-модели для производства этилена и пропилена</p><p>Когда иностранные вендоры приостановили работу в России, под угрозой оказалось внедрение систем на производстве этилена и пропилена. Без критически важного программного обеспечения Spyro производство могло столкнуться с серьёзными экономическими потерями. Я, Вячеслав Базанов, руководитель проекта, и моя команда инженеров и аналитиков из Цифрового СИБУРа взялись за разработку собственной модели прогнозирования. Это был вызов по масштабу и срокам, но мы справились и за три месяца создали решение, которое не только заменило прежнюю систему, но и улучшило её эффективность. Добро пожаловать под кат — расскажу, как мы это сделали.</p><p><a href="https://habr.com/ru/companies/sibur_official/articles/863382/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/sibur_of</span><span class="invisible">ficial/articles/863382/</span></a></p><p><a href="https://zhub.link/tags/rto" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>rto</span></a> <a href="https://zhub.link/tags/%D0%BE%D0%BF%D1%82%D0%B8%D0%BC%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>оптимизация</span></a> <a href="https://zhub.link/tags/%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>моделирование</span></a> <a href="https://zhub.link/tags/realtime_optimization" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>realtime_optimization</span></a> <a href="https://zhub.link/tags/python" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>python</span></a> <a href="https://zhub.link/tags/heavy_digital" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>heavy_digital</span></a> <a href="https://zhub.link/tags/%D0%BF%D1%80%D0%BE%D0%B8%D0%B7%D0%B2%D0%BE%D0%B4%D1%81%D1%82%D0%B2%D0%BE" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>производство</span></a> <a href="https://zhub.link/tags/data_science" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_science</span></a> <a href="https://zhub.link/tags/data" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data</span></a> <a href="https://zhub.link/tags/data_analysis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_analysis</span></a></p>
Habr<p>Импортозамещение Data Quality стека в нефтегазохимии: опыт СИБУРа</p><p>В СИБУРе много данных, которые текут в режиме реального времени с многочисленных датчиков на разных производствах, эти данные нужно собирать, хранить, обрабатывать и анализировать, чтобы компания могла принимать правильные бизнес-решения. И от качества инфраструктуры для работы с данными зависит рентабельность производств и прибыль компании в целом, а это жизненно важные показатели. В небольшом цикле из двух статей мы разберём опыт СИБУРа в создании, поддержке и развитии DQ (Data Quality — качество данных) сервиса для DWH (Data Warehouse — хранилище данных) в условиях санкций и исчезающих вендоров проверенных и привычных решений. Рассказывать об этом опыте будет Александр Бергер , Lead DQ Analyst в Цифровом СИБУРе, которому посчастливилось лидить процесс создания DQ-сервиса на решениях вендора, который решил покинуть рынок РФ в разгар рабочего процесса.</p><p><a href="https://habr.com/ru/companies/sibur_official/articles/855310/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/sibur_of</span><span class="invisible">ficial/articles/855310/</span></a></p><p><a href="https://zhub.link/tags/data_quality" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_quality</span></a> <a href="https://zhub.link/tags/data_analysis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_analysis</span></a> <a href="https://zhub.link/tags/soda" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>soda</span></a> <a href="https://zhub.link/tags/%D0%BA%D0%B0%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%BE_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>качество_данных_</span></a>(data_quality) <a href="https://zhub.link/tags/data" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data</span></a> <a href="https://zhub.link/tags/%D1%81%D0%B8%D0%B1%D1%83%D1%80_%D1%86%D0%B8%D1%84%D1%80%D0%BE%D0%B2%D0%BE%D0%B9" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>сибур_цифровой</span></a> <a href="https://zhub.link/tags/%D0%BF%D1%80%D0%BE%D0%BC%D1%8B%D1%88%D0%BB%D0%B5%D0%BD%D0%BD%D0%BE%D1%81%D1%82%D1%8C" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>промышленность</span></a> <a href="https://zhub.link/tags/heavy_digital" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>heavy_digital</span></a> <a href="https://zhub.link/tags/%D0%BD%D0%B5%D1%84%D1%82%D0%B5%D1%85%D0%B8%D0%BC%D0%B8%D1%8F" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>нефтехимия</span></a> <a href="https://zhub.link/tags/%D0%B7%D0%B0%D0%B2%D0%BE%D0%B4%D1%8B" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>заводы</span></a></p>