mstdn.social is one of the many independent Mastodon servers you can use to participate in the fediverse.
A general-purpose Mastodon server with a 500 character limit. All languages are welcome.

Administered by:

Server stats:

15K
active users

#etl

3 posts3 participants0 posts today

Как мы сделали одну большую песочницу для всех аналитиков

В мире данных и аналитики, где каждый день генерируются огромные объемы информации, создание единой платформы для работы с данными становится неотъемлемой частью успешной стратегии бизнеса. Мы команда РСХБ.Цифра, в которой я, Кристина Проскурина , руковожу управлением бизнес-анализа данных, а Алексей Кошевой , руководитель отдела развития витрин данных «РСХБ-Интех», руководит разработкой аналитической отчетности и платформы по исследованию данных. В этой статье мы расскажем, как наша команда разработала единую песочницу для аналитиков, которая объединила все инструменты и ресурсы в одном месте, обеспечивая эффективность, удобство и возможность совместной работы. К песочнице

habr.com/ru/companies/rshb/art

ХабрКак мы сделали одну большую песочницу для всех аналитиковВ мире данных и аналитики, где каждый день генерируются огромные объемы информации, создание единой платформы для работы с данными становится неотъемлемой частью успешной стратегии бизнеса. Мы команда...

We've released "Append Features to Layer" v2.1.0 for #QGIS 🎉

🪄 This is a processing plugin to:

1️⃣ copy features from one layer to another, or
2️⃣ update existing features based on a source layer.

➡️ The plugin comes with 2 handy models for building #ETL processes on @qgis

Today in #metadata #librarian land I finally fucking solved the character encoding issue!!!! Fuck Windows, fuck Excel, and fuck Java based programs that require you open via command line to add a utf-8 flag because the GUI just takes Windows latin, and while we’re at it fuck character encoding work up the bit level nose. IYKYK #datamigration #ETL I get Smithwicks and edibles to celebrate

Повышение эффективности аналитических баз данных: кейс «Комус» и Arenadata

Хабр, привет! Современные высоконагруженные системы требуют точной настройки и регулярного мониторинга, чтобы обеспечить стабильную производительность в условиях постоянно растущих объёмов данных. Когда речь идёт о крупной аналитической базе данных, развёрнутой в облачной среде, оптимизация её работы становится критически важной задачей. В прошлой статье мы уже рассказывали о типичных ошибках при работе с Arenadata DB (ADB), о том, как их избежать и значительно повысить производительность кластера. Сегодня же поделимся реальным опытом на примере компании «Комус» — лидера в области B2B-ритейла, которая обратилась к Arenadata за проведением комплексного аудита своего кластера ADB. В этой статье мы детально разобрали, как с помощью анализа и оптимизации удалось выявить точки роста, подготовить кластер к текущим и будущим нагрузкам и предложить план улучшений. Мы рассмотрим технические детали аудита, проблемы, с которыми пришлось столкнуться, и эффективные практики, позволившие повысить производительность аналитической базы данных. Что там с нагрузкой на кластер?

habr.com/ru/companies/arenadat

ХабрПовышение эффективности аналитических баз данных: кейс «Комус» и ArenadataХабр, привет! Современные высоконагруженные системы требуют точной настройки и регулярного мониторинга, чтобы обеспечить стабильную производительность в условиях постоянно растущих объёмов данных....

Работа с библиотеками, которые не установлены в Airflow

Данные библиотеки можно использовать при работе со SparkOperator: 1. Создание виртуального окружения с необходимыми библиотеками 2. Создание задачи в даге и установка окружения в SparkSubmit

habr.com/ru/articles/889394/

ХабрРабота с библиотеками, которые не установлены в AirflowДанные библиотеки можно использовать при работе со SparkOperator Создание виртуального окружения с необходимыми библиотеками Создание задачи в даге и установка окружения с SparkSubmit Создание...

I did some benchmarks on the ETL flow, an Elixir Broadway pipeline outperformed the collection of tiny Go services I thought would be more efficient. Also, OTP tooling around processes and state greatly simplified the topology of the final setup.

bsky.app/profile/brefi.eu/post

Bluesky Social · Brefi (@brefi.eu)It's alive!! Sort of, things are coming in but not yet going out. Still, half way there you could say. #BuildInPublic #IndieDev

An analysis of 100 Fortune 500 job postings reveals the tools and technologies shaping the data engineering field in 2025. Top skills in demand:
⁕ Programming Languages (196) - SQL (85), Python (76), Scala (14), Java (14)
⁕ ETL and Data Pipeline (136) - ETL (65), Data Integration (46)
⁕ Cloud Platforms (85) - AWS (45), GCP (26), Azure (14)
⁕ Data Modeling and Warehousing (83) - Data Modeling (40), Data Warehousing (22), Data Architecture (21)
⁕ Big Data Tools (67) - Spark (40), Big Data Tools (19), Hadoop (8)
⁕ DevOps, Version Control, and CI/CD (52) - Git (14), CI/CD (13), DevOps (7), Version Control (6), Terraform (6)
...

#DataEngineering #BigData #SQL #Python #ETL #AWS #CloudComputing #Spark #DataModeling #DataWarehouse #DevOps #DataGovernance #DataVisualization #MachineLearning #API #Scala #Java #GCP #Azure #Hadoop #Git #CICD #Terraform #DataQuality #Tableau #PowerBI #Collaboration #Microservices #MLOps #TechSkills

reddit.com/r/dataengineering/c

Как перевести банковский продукт в realtime

Частая история: приходит пуш-уведомление от банка, что вам одобрено классное предложение. Причём это уже десятое сообщение за пару месяцев, и никакое оно для вас не важное и не классное. Тизер: да, мы будем говорить о цифровом маркетинге в реальном времени от финансовых организаций — кредит, ипотека, депозит. Научим, как сделать так, чтоб клиент получал своевременные и выгодные предложения, а не спам. Привет, Хабр! Это Владимир Ловцов и Владимир Аврамов из «ИТ-холдинга Т1». И мы расскажем о формировании офферов финансовых продуктов в realtime. Поехали!

habr.com/ru/companies/oleg-bun

ХабрКак перевести банковский продукт в realtimeЧастая история: приходит пуш-уведомление от банка, что вам одобрено классное предложение. Причём это уже десятое сообщение за пару месяцев и никакое оно для вас не важное и не классное. Тизер: да, мы...

Dagster: новый стандарт для ETL в 2025?

Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:

habr.com/ru/articles/883700/

ХабрDagster: новый стандарт для ETL в 2025?Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С...

🚀 DataTalksClub's Data Engineering Zoomcamp Workshop 1 - dlt pipelines

🎯 This optional workshop introduced us to dlt for easier data loading from/to various sources (e.g. various hosted DBs, APIs, cloud services, etc).

💡 For those who want to follow the XDG spec, you can set "DLT_DATA_DIR=$XDG_DATA_HOME/dlt" to make dlt comply with it.

🔗 My answers to the workshop: github.com/goosethedev/de-zoom

🔗 About the bootcamp: github.com/DataTalksClub/data-

Homeworks for the DataTalksClub's Data Engineering Zoomcamp 2025. - goosethedev/de-zoomcamp-2025
GitHubde-zoomcamp-2025/w1-dlt-workshop at 9b50dec0c5897efe8d2cc87851c28162472127b1 · goosethedev/de-zoomcamp-2025Homeworks for the DataTalksClub's Data Engineering Zoomcamp 2025. - goosethedev/de-zoomcamp-2025