Data Scientist (дата-сайентист или датасаентист) обрабатывает и анализирует массивы больших данных (Big Data), чтобы с использованием алгоритмов машинного обучения найти в них новые связи и закономерности и построить прогнозную алгоритмическую модель, которую можно использовать для решения задач бизнеса, науки, повседневной жизни. Профессия подходит людям с аналитическим складом ума и способностями к математике.
Data Science – наука о данных на стыке разных дисциплин: математика и статистика; информатика и компьютерные науки; бизнес и экономика.
С. Мальцева, В. Корнилов. НИУ ВШЭ
Профессия новая, актуальная и чрезвычайно перспективная. Термин Big Data появился в 2008 году. А профессия Data Scientist – «учёный по данным» официально зарегистрирована как академическая и межотраслевая в начале 2010 г. Хотя первое упоминание термина data science было отмечено в книге Петера Наура 1974 г., но в ином контексте.
Содержание
- 1 Краткое описание
- 2 Особенности профессии
- 3 Разница между Data Scientist и другими Data-специалистами
- 4 Плюсы и минусы профессии
- 5 Место работы
- 6 Важные качества
- 7 Профессиональные знания и навыки
- 8 Обучение на Data Scientist´а
- 9 Оплата труда
- 10 Зарплата data scientist на январь 2025
- 11 Ступеньки карьеры и перспективы
- 12 Видео: Новая специализация «Большие данные» – Михаил Левин
- 13 Вопросы по теме
Краткое описание
Data Scientist работает с Big Data (большими данными) – огромными массивами неструктурированной информации.
Массивы больших данных подразделяют на 3 вида:
- структурированные (например, данные кассовых аппаратов в торговле);
- полуструктурированные, или слабоструктурированные (сообщения email, статистика из трекеров событий: Yandex.Metrika, GAnalytics и т. д.);
- неструктурированные (видеофайлы, изображения, текстовые посты в соцсетях, метеорологические сводки, аудиозаписи, результаты спортивных матчей, базы геномов и многое другое).
Большая часть информации в Big Data – это неструктурированные или слабоструктурированные данные, что значительно усложняет их анализ. В работе с такими данными дата-сайентист пользуются методами математической статистики и машинного обучения (machine learning, ML).
Задача дата-сайентиста – проанализировать большие данные, чтобы на их основании сделать прогнозы. Какие именно – зависит от решаемой задачи. Результат работы Data Scientist′а – прогнозная модель, упрощённо, это программный алгоритм, который находит оптимальное решение поставленной задачи.
Благодаря работе дата-сайентистов бизнес может принимать взвешенные решения, основанные на разного рода данных, и опережать своих конкурентов, а продукты становятся более удобными и полезными для людей.
Профессия Data Scientist продолжает оставаться одной из самых востребованных на рынке труда. С увеличением объемов данных и их разнообразия, компании всех размеров и отраслей нуждаются в специалистах, которые могут эффективно анализировать и интерпретировать эти данные. Ожидается, что спрос на Data Scientists будет расти даже в будущем, поскольку организации стремятся использовать данные для принятия обоснованных бизнес-решений и создания конкурентных преимуществ.
Технологический прогресс также влияет на эволюцию этой профессии. С развитием искусственного интеллекта и машинного обучения, задачи Data Scientist становятся более сложными и интересными. Специалистам предстоит не только анализировать данные, но и разрабатывать и внедрять алгоритмы, способные предсказывать тенденции и оптимизировать процессы. Это откроет новые горизонты для квалифицированных специалистов, делая их навыки еще более ценными и актуальными.
Однако конкурентоспособность на рынке труда требует постоянного обучения и профессионального развития. Data Scientists должны быть готовы осваивать новые технологии, языки программирования и методологии анализа данных. В будущем те специалисты, которые смогут адаптироваться к быстро меняющимся условиям и внедрять новейшие решения, будут иметь большие карьерные перспективы и возможность занимать ключевые позиции в организациях.
Особенности профессии
Обычные специалисты по статистике, системный аналитик или бизнес-аналитик по отдельности не могут обрабатывать массивы информации, которые относятся к категории Big Data. Для этого нужен профи с междисциплинарным образованием, компетентный в математике и статистике, экономике и бизнесе, информатике и компьютерных технологиях, – специалист по работе с данными, то есть Data Scientist.
Главные задачи Data Scientist´а:
- извлекать необходимую информацию из самых разнообразных источников, используя информационные потоки в режиме реального времени;
- устанавливать скрытые закономерности в массивах данных и статистически анализировать их для принятия грамотных бизнес-решений.
Рабочиее место датасайентиста – не 1 компьютер и даже не 1 сервер, а кластер серверов.
Data Scientist, как настоящий учёный, занимается не только сбором и анализом данных, но и изучает их в разных контекстах и под разными углами, подвергая сомнению любые предположения. Важнейшее качество дата-сайентиста – это умение видеть логические связи в системе собранной информации и на основе количественного анализа разрабатывать эффективные бизнес-решения. В современном конкурентном и быстро меняющемся мире, в постоянно растущем потоке информации Data Scientist незаменим для принятия правильных бизнес-решений.
Что делает Data Scientist
В разных компаниях задачи дата-сайентиста будут отличаться, но основные этапы работы похожи:
- Выяснить, что нужно заказчику.
- Оценить, возможно ли решить поставленную задачу методами машинного обучения (ML).
- Собрать данные для анализа, преобразовать их в формат, более удобный для работы по методике ML. (Если возможность применить ML есть, а если целесообразнее использовать методы математической статистики, визуализации, то задачу решает бизнес-аналитик.)
- Найти критерии оценки, чтобы выяснить, насколько эффективной будет модель, которую предстоит создать.
- Запрограммировать и «натренировать» модель ML.
- Оценить экономическую целесообразность применения этой модели (на этом этапе возможно помощь других специалистов – бизнес-аналитика, главного экономиста предприятия и др.).
- Внедрить модель в производство/продукт.
- Сопровождать внедренную модель – дорабатывать, если нужно, или адаптировать под текущие запросы заказчика.
Что можно сделать по такому шаблону? Очень много. Дата-сайентисты создали сотни сервисов, к которым мы давно привыкли и пользуемся каждый день. Алгоритмы поисковых систем, прогнозы погоды в смартфонах, голосовые помощники, программы распознавания лиц или изображений, рекомендательные алгоритмы, подбирающие видео и музыку или потенциальных друзей в соцсетях, чат-боты – всё это плоды трудов Data Scientist′ов.
В работе с данными Data Scientist использует:
- статистические методы;
- моделирование баз данных;
- методы интеллектуального анализа;
- искусственный интеллект для работы с данными;
- методы проектирования и разработки баз данных.
Одним из малоизвестных фактов о профессии Data Scientist является то, что это термин был впервые введён в обиход только в 2008 году. До этого аналитики данных имели различные титулы, такие как «статистик» или «аналитик», однако с ростом объемов данных и развитием технологий появилась необходимость в более универсальной роли.
Интересно, что по данным различных исследований, около 60-70% времени Data Scientist тратят не на анализ данных, а на их подготовку и очистку. Этот процесс, известный как «data wrangling», часто считается одним из самых сложных и времязатратных этапов в работе с данными.
Еще один необычный аспект профессии заключается в том, что Data Scientist часто пользуются навыками из разных областей, включая программирование, статистику, математику и даже знание предметной области. Это делает их одними из самых универсальных специалистов на рынке труда.
Разница между Data Scientist и другими Data-специалистами
С Big Data работают многие специалисты, но у каждого из них свои инструменты и цели.
Отличие Data Scientist от Business Analyst
Дата-сайентист и бизнес-аналитик (Business Analyst) делают выводы, опираясь на данные, но разница состоит в результате их работы. Data Scientist находит в данных связи и закономерности, чтобы создать прогнозную модель и предсказать результат. Фактически дата-сайентист смотрит в будущее. При этом он решает поставленную задачу технически, пользуясь алгоритмами и математической статистикой.
Бизнес-аналитика интересуют коммерческие метрики компании. Опираясь на статистику, он может оценить, к примеру, эффективность рекламы, динамику продаж за определенный период. Эту информацию из прошлого бизнес-аналитик может использовать для предложений, как улучшить показатели компании. Когда данных много и нужен основанный на них прогноз, то техническую сторону задачи помогает решить Data Scientist.
Итак, результат работы дата-сайентиста – алгоритмическая модель, код, написанный на основе анализа данных. Data Scientist – это технический специалист. Результат работы бизнес-аналитика – визуализированные рекомендации, как улучшить коммерческие показатели компании. Эти советы тоже делаются на основе анализа данных, но бизнес-аналитик погружается в бизнесовую составляющую задачи.
Отличие Data Scientist от Data Engineer
Оба специалиста – технические. Они делают данные качественными и доступными, часто работают в связке, поэтому их обязанности и зону ответственности нередко путают.
Data Scientist на основе потребностей бизнеса формулирует задачи анализа данных. Он знает, какие именно данные нужны, умеет находить в них закономерности (иногда не замеченные другими) и создает прогнозные модели, в случаях, когда можно и нужно применить методы ML. Дата-сайентист контролирует качество разработанной модели и оценивает эффект ее применения.
Data Engineer собирает данные, обеспечивает их качественную структуру, чтобы Data Scientist мог тренировать и внедрять алгоритмы и модели ML. Data Engineer может обработать гигантские объемы информации и добыть из них самое важное, он знает, как наладить регулярную выгрузку и интеграцию противоречивых или неполных данных из разных источников.
Итак, задачи Data-инженера и дата-сайентиста разные:
- Data Engineer предоставляет очищенные и структурированные данные дата-сайентисту, разрабатывает пайплайн поддержки алгоритма ML;
- Data Scientist тестирует гипотезы в системе данных, разрабатывает алгоритмы.
Data Scientist находит в данных коммерчески важную информацию для построения стратегии компании и изучает возможность использования ML. Data Engineer – командный работник, его задача – обеспечить высокую продуктивность бизнес-аналитиков, связывать членов команды разработки ПО.
Существует множество заблуждений о профессии Data Scientist, которые могут вводить в заблуждение как новичков, так и людей, уже работающих в смежных областях. Одно из наиболее распространенных заблуждений заключается в том, что Data Scientist — это только программист. На самом деле, помимо программирования, специалисты этой области должны иметь глубокие знания в математике, статистике и предметной области, а также навыки визуализации данных и коммуникации.
Еще одно заблуждение состоит в том, что Data Scientist занимается исключительно обработкой больших данных. Хотя работа с большими массивами данных является важной частью их роли, задача специалиста по данным часто включает в себя также интерпретацию результатов и выработку рекомендаций для бизнеса. Это требует аналитического мышления и способности объяснять сложные концепции простым языком.
Некоторые считают, что Data Scientist должен знать все языки программирования и инструменты, используемые в аналитике данных. В реальности, важно иметь определенный набор навыков и инструментов, которые хорошо подходят для решения конкретных задач. Часто достаточно глубоких знаний одного или двух языков программирования, таких как Python или R, и нескольких инструментов для работы с данными.
Также распространено мнение, что Data Scientist всегда работает с заранее структурированными данными. На практике данные могут быть как структурированными, так и неструктурированными, и работа с неструктурированными данными, такими как текст или изображения, становится все более важной в современном мире анализа данных.
Наконец, многие предполагают, что Data Scientist сразу становится экспертом после завершения учебы. Однако, как и в любой другой области, для достижения высокого уровня мастерства требуется значительный опыт на практике, а также постоянное обучение и совершенствование навыков в условиях быстро меняющейся технологической среды.
Плюсы и минусы профессии
Плюсы:
- Профессия Data Scientist чрезвычайно востребованная в России и за рубежом, на рынке острый дефицит специалистов по данным такого уровня.
- Высокооплачиваемая профессия.
- Интересная работа для тех, кто увлечен IT-технологиями и математикой. Каждый проект по-своему уникален, поэтому работу не назовешь рутинной.
- Профессия Data Scientist´а обязывает быть всесторонне развитой, интеллектуальной личностью: надо быть в курсе трендов в экономике, торговле, культуре, образовании, социологии и многих других сферах жизни и главное – уметь анализировать их и делать выводы.
Минусы:
- Не каждый человек сможет освоить профессию Data Scientist´а, нужен особый склад ума.
- При построении моделей могут не сработать известные методы и более 60% идей. Множество решений окажется несостоятельным, и нужно иметь большое терпение, чтобы получить удовлетворительные результаты. Data Scientist не имеет права сказать «нет» проблеме. Он должен найти способ, который поможет решить поставленную задачу.
- Большая ответственность: ошибки дата-сайентиста дорого стоят компаниям. Например, из-за просчётов в построении скоринговой модели (оценивает кредитоспособность) банк массово выдаст займы ненадёжным клиентам, которые не вернут деньги.
Место работы
Data Scientist – незаменимый сотрудник везде, где надо делать прогнозы, совершать сделки, оценивать риски. Основные сферы применения знаний и навыков дата-сайентистов:
- высокотехнологические отрасли производства;
- наука;
- IT (оптимизация поисковой выдачи, фильтр спама, систематизация новостей, автоматические переводы текстов и многое другое);
- медицина (автоматическая диагностика болезней);
- финансовые структуры (принятие решений о выдаче кредитов) и т. д.;
- телекоммуникации;
- транспорт;
- крупные торговые сети;
- сельское хозяйство;
- страхование;
- социология.
По сведениям Академии больших данных MADE Mail.ru Group и hh.ru, три основные сферы занятости Data Scientist′ов: ИТ (38 % вакансий), финансы (29 %), B2B (9 %).
Data Scientist может работать и со стартапами, и с транснациональными корпорациями. В небольших, начинающих бизнесах дата-сайентист обычно один и решает отдельные задачи. В крупных компаниях в сотрудничестве с аналитиками данных и бизнес-аналитиками, сисадминами, программистами, Data-инженерами, дизайнерами, менеджерами проектов Data Scientist занимается долгосрочными проектами.
Важные качества
- Аналитический склад ума.
- Трудолюбие.
- Настойчивость.
- Скрупулёзность, точность, внимательность.
- Способность доводить исследования до конца, несмотря на неудачные промежуточные результаты.
- Коммуникабельность.
- Умение объяснить сложные вещи простыми словами.
- Бизнес-интуиция.
Профессиональные знания и навыки
- Математика, матанализ, математическая статистика, теория вероятностей.
- Подготовка данных к анализу с использованием библиотек.
- Английский язык.
- Языки программирования, у которых имеются компоненты для работы с большими массивами данных: SQL, Java (Hadoop), C++(BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy). Чаще всего дата-сайентисты пользуются SQL, Python, а для сложных вычислений – C/C++.
- Статистические инструменты: SPSS, R, MATLAB, SAS Data Miner, Tableau и др.
- Основательное знание отрасли, в которой работает Data Scientist (например, если это фармацевтическая отрасль, то необходимо знание основных процессов производства, компонентов лекарств).
- Законы развития бизнеса.
Data Science – это использование научных методов в работе с большими данными для того, чтобы найти нужное решение. Data Scientist работает с данными так же, как учёный любой сферы знания. Он применяет математическую статистику, логические принципы и современные инструменты визуализации, чтобы получить результат. Он должен уметь анализировать и обобщать частные наблюдения, исключать случайности, отсеивать несущественные факты и делать верные выводы.
Коротко говоря, Data Scientist′у надо знать математику, матстатистику, один-два языка программирования, принципы машинного обучения и иметь представление о той отрасли, где всё это будет использоваться для работы с данными.
Обучение на Data Scientist´а
Data Scientist должен уметь программировать, работать со статистикой, пользоваться аналитическими методами. Всему этому учат в вузах на программах ИТ-направлений, несколько примеров:
- «Прикладная математика и информатика» (01.03.02), профили:
- «Прикладной анализ данных и искусственный интеллект» (НИУ ВШЭ, СПб);
- «Анализ и принятие решений» (НИУ ВШЭ, Москва);
- «Математические и компьютерные методы в прикладных разработках» (ВГУ, Воронеж);
- «Прикладная математика и информатика» (такой профиль есть в более чем 80 российских вузах).
- «Прикладная математика» (01.03.04), профили:
- «Применение математических методов к решению инженерных и экономических задач» (МИЭТ, УГАТУ, ВГУ, ДГТУ, ИжГТУ им. Калашникова, ОГУ);
- «Анализ данных» (МТУСИ, РТУ МИРЭА);
- «Математическое моделирование» (АлтГПУ, КнАГУ и др.).
- «Статистика» (01.03.05), профиль:
- «Аналитика и управление данными» (РЭУ им. Плеханова).
С бэкграундом разработчика легко за несколько месяцев перейти в дата-сайентисты. Профессионалам из других сфер будет сложнее, но зато у них есть важное конкурентное преимущество – глубокое понимание своей предметной области.
Как и в любой профессии, для Data Scientist´а важно самообразование. Для самостоятельной прокачки знаний и скиллов будут полезны:
- Machine Learning 101 – канал ML Youtube;
- YouTube-курс машинного обучения от «ШАД» Яндекса.
- курсы Udacity;
- курсы Dataquest, на которых можно стать настоящим профи в Data Science;
- 6-шаговые курсы Datacamp;
- обучающие видео O’Reilly;
- скринкасты для начинающих и продвинутых Data Origami;
- ежеквартальная конференция специалистов Moskow Data Scients Meetup;
- соревнования по анализу данных Kaggle.сom.
Оплата труда
Профессия Data Scientist одна из самых высокооплачиваемых в ИТ. В США оплата труда дата-сайентиста составляет $110–140 тыс. в год. В России зарплата Data Scientist´ов зависит от опыта работы, объёма обязанностей и региона. Начинающий специалист может рассчитывать на 70 тыс. руб. в Москве и 60 тыс. руб. в Санкт-Петербурге. С опытом работы от 3 лет зарплата повышается до 110–250 тыс. руб.
Ступеньки карьеры и перспективы
Как и все ИТ-специалисты, Data Scientist проходит карьерные ступени от джуниора до сеньора и тимлида. Каждый этап профессионального роста занимает примерно год-два. Дата-сайентист уровня Middle глубже понимает бизнес-задачи, ему по силам предложить лучшее решение для них. Чем больше опыта и выше карьерный уровень, тем меньше Data Scientist фокусируется на технических задачах: он подходит к проекту глобально и может оценивать его смысловую составляющую.
Профессия Data Scientist сама по себе уже достижение: для работы требуются серьёзные теоретические знания и практический опыт в нескольких ИТ-специальностях. В любой крупной компании или организации дата-сайентист – ключевая фигура. Чтобы достичь таких высот, надо упорно и целенаправленно работать и постоянно совершенствоваться во всех сферах, составляющих основу профессии.
Применение Data Science не ограничивается одной сферой. Можно обучать нейросети для поиска новых электронных частиц или кодов ДНК, а если захочется разнообразия, то перейти в совершенно другую отрасль и создать рекомендательный музыкальный сервис.
Про Data Scientist шутят: это универсал, который программирует лучше любого специалиста по статистике, и знает статистику лучше любого программиста. А в бизнес-процессах разбирается лучше руководителя компании.
Видео: Новая специализация «Большие данные» – Михаил Левин
Вопросы по теме
Какие навыки являются наиболее важными для успеха в профессии Data Scientist?
Для успешной карьеры в области Data Science специалист должен обладать разнообразными навыками. Ключевыми из них являются: сильные аналитические способности, умение программировать на языках, таких как Python или R, знание статистики и теории вероятностей. Также важно владеть инструментами для работы с базами данных, такими как SQL, а также опыт работы с большими данными и понимание методов машинного обучения. Не менее важными являются навыки визуализации данных, чтобы четко и аргументированно представлять результаты своих исследований. В дополнение к техническим навыкам, умение работать в команде и четко доносить свои идеи также играет важную роль.
Как Data Scientist может повлиять на бизнес-процессы компании?
Data Scientist может осуществлять значительное влияние на бизнес-процессы компании через оптимизацию и автоматизацию принятия решений. Анализ больших объемов данных позволяет выявлять скрытые закономерности и тенденции, которые могут помочь в понимании потребностей клиентов, оптимизации маркетинговых стратегий и улучшении продуктов. Например, с помощью анализа поведения пользователей можно адаптировать предложения и сделать их более персонализированными, что приведет к повышению продаж. Кроме того, Data Scientist может разрабатывать предсказательные модели, которые помогают компаниям заранее выявлять потенциальные риски и возможности, обеспечивая более проактивный подход к управлениям бизнесом.
Каковы этические аспекты работы Data Scientist и как следует их учитывать в своей практике?
Этические аспекты работы Data Scientist становятся все более актуальными на фоне растущего объема собираемых и анализируемых данных. Специалисты должны учитывать вопросы конфиденциальности, безопасности данных и защиты личной информации. Важно следовать лучшим практикам в отношении анонимизации данных, чтобы гарантировать, что личные данные клиентов не будут использованы неправомерно. Также стоит учитывать потенциальные предвзятости в алгоритмах и данных, чтобы избежать искажения выводов и ненадлежащего обращения с определенными группами населения. Важно внедрять механизмы открытости и подотчетности, чтобы обеспечить доверие пользователей и соблюдение нормативных требований. Применение этических принципов не только предотвращает риски, но и создает ценность для бизнеса, способствуя его устойчивому росту.