В чем разница между Data Engineer и Data Scientist?


Наиболее распространенный вопрос, который возникает в последнее время у многих, заключается в том, в чем разница между специалистом Data Engineer и Data Scientist? Давайте углубимся в эту тему.

Есть много должностей специалистов по данным, которые звучат одинаково и используют подобные инструменты, поэтому может быть трудно понять, какую роль нужно выполнять при любой из специальностей в этой области.

Станьте Data Engineer
Подробнее

За 4 месяца Вы получите практические навыки разработки дата-сервисов, витрин и приложений, а также знание принципов организации мониторинга, оркестрации, тестирования.

Кроме того, небольшие компании могут быть ограничены тем, сколько инженеров данных или ученых данных они могут нанять. Это означает, что во многих случаях конкретные задачи и цели могут начать смешиваться.

Это может затруднить четкое разграничение двух ролей. Таким образом, следует обсудить различия между двумя позициями, обсудив различные цели, установки, инструменты и опыт инженеров и исследователей данных.

Правда в том, что многие Data Engineer и Data Scientist будут выполнять задачи других технических ролей. Data Scientist, возможно, потребуется разработать ETL, а Data Engineer может потребоваться разработка API и внешнего интерфейса.

by DataCamp

Цели

Задачи Data Engineer гораздо больше ориентированы на задачи и разработку. Data Engineer создают автоматизированные системы и моделируют структуры данных, чтобы обеспечить эффективную обработку данных.

Это означает, что целью Data Engineer является создание и разработка таблиц и конвейеров данных для поддержки аналитических информационных панелей и других пользователей данных (таких как ученые, аналитики и другие инженеры).

Это похоже на большинство инженеров. Существует много вариантов проектирования, допущений, ограничений и развития, которые необходимы для выполнения окончательного задания.

Каждый дизайн и решение имеют свой набор ограничений, даже если все они могут выполнить конечную задачу. В сравнении, ученые данных имеют тенденцию быть сосредоточенными на вопросе. В том смысле, что они ищут способы снижения затрат / увеличения прибыли, улучшения качества обслуживания клиентов или эффективности бизнеса.

Это означает, что им нужно задавать вопросы, а затем отвечать на них (задать вопрос, выдвинуть гипотезу и затем сделать вывод). Поэтому им нужно задать такие вопросы, как то, что влияет на реадмиссию пациента, потратит ли клиент больше, если будет показано добавление типа «А vs В», есть ли более быстрый путь доставки посылок?

Цель здесь — найти ответ на любой заданный вопрос. Это может быть окончательный вывод или появление новых вопросов. На протяжении всего процесса Data Scientist анализируют, собирают поддержку и могут прийти к заключению по этому вопросу.

вернуться в меню ↑

Инструменты

Data Scientist и Data Engineer часто полагаются на Python и SQL. Однако то, как эти две роли используют эти навыки, варьируется. Опять же, это связано с различиями в мышлении.

Python — это очень надежный язык, в котором есть библиотеки, которые помогают управлять как операционными, так и аналитическими задачами. Data Scientist будут использовать библиотеки, такие как Pandas и Scikit Learn, тогда как Data Engineer будут использовать python для управления конвейерами.

Станьте Data Engineer
Подробнее

За 4 месяца Вы получите практические навыки разработки дата-сервисов, витрин и приложений, а также знание принципов организации мониторинга, оркестрации, тестирования.

Здесь пригодятся такие библиотеки, как Airflow и Luigi. Точно так же запросы Data Scientist будут ориентированы на конкретные ситуации (например, на вопросы). Принимая во внимание, что запросы Data Engineer будут направлены на очистку и преобразование данных.

Теперь есть другие инструменты, которые могут использовать оба специалиста по данным. Это включает в себя Tableau, Jupyter и несколько других.

вернуться в меню ↑

Бэкграунд

Теперь, еще один распространенный вопрос, когда дело доходит до различий Data Scientist и Data Engineer, это какой бэкграунд потребуется. Инженерия данных и Data Scienсе требуют некоторого понимания данных и программирования.

Даже если это ограниченная сфера. Тем не менее, есть некоторые различия, которые выходят за рамки программирования. Из-за того, что Data Scientist, больше похож на исследователя, наличие опыта, основанного на исследованиях, является преимуществом.

Это может быть экономика, психология, эпидемиология и т. д. Объедините опыт исследований с SQL, Python и хорошим пониманием бизнеса, и у вас есть Data Scientist.

Большинство работодателей предпочитают нанимать Data Scientist, обладающего по крайней мере степенью магистра, которая имеет какую-то техническую или математическую направленность.

Инженерия данных больше о том, чтобы быть разработчиком. Это требует гораздо большего практического опыта, нежели теоретических знаний. Таким образом, получение высшего образования не дает одинаковую ценность в этих двух областях.

вернуться в меню ↑

Пример

Допустим, директор медицинской компании решает, что они хотели бы выяснить, как сократить количество пациентов, вновь поступивших до 30 дней после их первоначального посещения.

С точки зрения данных, есть несколько вещей, которые должны произойти. Data Scientist, должен выяснить, что является причиной реадмиссии пациента.

Это вопрос, на который они будут пытаться ответить. Основываясь на сделанных ими выводах, они будут работать с бизнесом для разработки показателей и политик, которые помогут улучшить показатели повторного приема пациентов.

Data Scientist будет разрабатывать таблицы, чтобы помочь специалистам по обработке данных ответить на этот вопрос, и в то же время разрабатывать аналитические таблицы, которые помогут отследить прошлые и будущие показатели повторного приема пациентов.

То, как создаются эти метрики, будет зависеть от ответов, которые получает ученый. Data Scientist и Data Engineer имеют множество различий. У них разные цели и бэкграунд, но именно в этом и заключается ценность их совместного использования.

Тот факт, что Data Engineer уделяют больше внимания созданию надежных систем, позволяет ученым легко запрашивать данные и эффективно их анализировать.

Их партнерство — это то, что приносит компании пользу от данных.

Есть вопрос или дополнение?

      Оставить отзыв

      EdAdvisor
      Регистрация
      Сброс пароля
      Сравнить товары
      • Итого (0)
      Сравнить
      0