Любить и понимать данные: кто такие дата инженеры и как им расти
Аналитика больших данных стала «новым черным» в бизнесе, а «дата пайплайн» в компаниях звучит чаще, чем «мы сломали прод». Так в чем же особенность и почему об этом все говорят?
Эван Томас, Lead Software Engineer в компании Tilting Point, рассказал о задачах дата инженеров, особенностях их профессии, а также вместе со своей командой поделился полезными ресурсами для обучения, которые помогут профессиональному росту в дата инженерии.
Какие цели у дата инженеров?

«Функции дата инженеров напрямую зависят от особенностей бизнеса, но все же имеют много общего. Одной из главных задач является создание систем для сбора и обработки данных. Частью процесса является валидация данных, которая необходима для их преобразования и дальнейшего использования в R&D, моделях машинного обучения, командами Data Science и бизнес аналитиками. Мы делаем то, что помогает бизнесу развиваться. С технической стороны, необходимо создавать достаточно универсальные решения, а не только заточенные под один конкретный источник данных. Также здесь важны гибкость и производительность продукта. Мы постоянно задаемся вопросами — как сделать нашу работу быстрее? Как сэкономить расходы? Как сделать систему более удобной для разных команд? Как обеспечить надежную работу с источниками данных?», — Эван Томас, Lead Software Engineer в компании Tilting Point.
Какие главные технологические тенденции в дата инженерии?
Я бы выделил две главных тенденции сферы прямо сейчас.
Lake House – новый термин в индустрии, объединяющий в себе структуру данных и элементов управления данными, аналогичных Data Warehouses, по типу экономичного хранения данных, используемого для классических Data Lakes.
Кто такой хороший дата инженер?
Главной чертой хорошего дата инженера является базовое умение решать сложные инженерные задачи, разбивая их на простые, управляемые части. Из-за специфики работы с Big Data, очень важно проектировать ПО с большим запасом адаптивности к изменениям.
Главными soft skills, помимо коммуникации, являются внимание к деталям и любопытство. Что касается hard skills, то для работы дата инженером важны такие навыки:
Моим любимым рабочим инструментом для оркестрации является AirFlow, а для обработки больших объемов данных – Spark. Эти инструменты позволяют с легкостью строить и управлять потоками данных, используя наиболее удобный для вас язык программирования. Среди языков программирования я бы выделил Scala.
Где и как учиться дата инженерам?
Профессия дата инженера достаточно новая, поэтому привычного карьерного пути на данный момент нет. Но я бы выделил два распространенных способа как зачастую становятся дата инженером.
Вместе с командой дата инженеров Tilting Point мы подобрали список полезных ресурсов для обучения и развития.
Книги:
- «Чистый Код», Роберт С. Мартин – отличная книга, которая научит качественно писать код.
- «Паттерны проектирования», Эрих Гамма — книга о том, как сделать крутую архитектуру.
- «Концепты систем баз данных седьмое издание», Авраам Зильбершац.
- «Высоконагруженные приложения», Мартин Клеппман — в этой книге вы найдете ключевые принципы, алгоритмы и компромиссы при разработке высоконагруженных систем для работы с данными.
- «Принципы организации распределенных баз данных», М. Тамер Есу — в книге представлено подробное описание распределенных и параллельных баз данных.
- Learning Spark: Lightning-Fast Big Data Analysis, Холден Карау — полезная книга для начинающего инженера. В книге детально рассматривается вся инфраструктура Spark, концепции работы, API, типы операций, структуры данных.
Блоги:
- Towards Data Science — платформа с полезными статьями от комьюнити разработчиков.
- Functional Data Engineering Post — блог создателя Apache Superset и Apache Airflow.
- InfoQ — блог с подборками статей от разработчиков и программистов на всевозможные тематики IT-сферы.
- Medium Spotify Insights — интересный блог о Spotify: от UI/UX дизайна до аналитики. Для дата-инженеров особенно интересно почитать про доменную область, как аналитики в Spotify работают с данными, а так же как настроены процессы по обработке этих данных.
- Medium Airbnb Engineering — отличный ресурс для программистов и дата инженеров от компании, известной своими стандартами качества кода и данных.
Подкасты:
- Data Engineering Podcast — еженедельный подкаст с Тобиасом Мейси о неочевидных подходах в работе с данными, дата менеджменте и детальными разборами реальных кейсов.
- Software Engineering Daily — подкаст, который дает возможность слушать новое интервью о сфере IT каждый день.
Telegram-каналы:
- Spark in me — канал с информацией о сфере данных, содержащий много ссылок на интересные статьи, видео и блоги.
- DataEng — канал про дата инжиниринг и распределенные системы. Все, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объема данных.
- «Инжиниринг Данных» — канал для всех, кто интересуется или работает с данными и аналитикой.
А также, мы в Tilting Point разыгрываем 3 premium билета на конференцию для дата-инженеров — AI and Big Data Online Day». Все остальные, кто заполнит форму полезной информацией ниже – получат дисконт 50% на премиум версию билетов.
Для этого всего лишь нужно поделиться с нами ресурсами для обучения и развития в области дата инженерии и Big Data и получить рассылку с дополнительными ресурсами.