Кто такой специалист по Data Science?
Data Scientist – это профессионал, который занимается разработкой инструментов для решения задач в бизнесе. Он использует свои навыки анализа данных и создания моделей машинного обучения (Machine Learning). Работа Data Scientist основывается на трех областях знания: статистике, машинном обучении и программировании.
Этот специалист требуется практически во всех отраслях – от производства до стриминговых сервисов. Например, в розничной торговле Data Scientist может анализировать данные о поведении покупателей в магазине, создавать модель для оптимального ценообразования, что приводит к увеличению среднего чека и прибыли компании.
Основная задача специалиста по Data Science – использовать уже разработанные алгоритмы и определить, какие из них и когда применять. Например, алгоритм Netflix, который рекомендует сериалы и фильмы на основе предпочтений и просмотров пользователей, – результат работы Data Scientist.
Чем занимается специалист по обработке данных?
Задачи Data Scientist выполняются последовательно – нельзя начинать новую, пока не завершена предыдущая. Прежде чем построить модель, необходимо иметь готовые данные.
Основные задачи специалиста по Data Science:
- Уточнение требований к бизнес-задаче и их перевод в математическую формулировку.
- Подготовка данных для решения задачи: их получение и обработка, чтобы они стали пригодными для использования.
- Анализ и структурирование данных.
- Построение модели машинного обучения для решения задачи.
- Проверка работоспособности модели: ее внедрение на выборке пользователей или проведение A/B-тестирования.
При необходимости специалист может вернуться к этапу сбора данных или обучения модели, если текущие результаты неудовлетворительны.
Например, клиент хочет увеличить выручку от маркетинговых рассылок. Для решения этой задачи Data Scientist сначала изучает, какие факторы влияют на выручку.
Для этого он запрашивает данные о рассылках у маркетологов, которые находятся в базе данных или в таблице Excel. Затем специалист по Data Science объединяет данные и делит получателей на тех, кто принял предложение, и тех, кто не отреагировал.
Затем Data Scientist проверяет, достаточно ли у него данных для построения модели и, если да, разрабатывает алгоритм, который отправит каждому подписчику письмо, подходящее именно ему.
Далее необходимо протестировать рассылку на небольшой группе пользователей и измерить ее эффективность. Если результаты лучше ожидаемых, можно говорить об успехе. В противном случае придется вернуться к этапу сбора данных и повторить все действия заново.
Чем Data Scientist отличается от аналитика?
Часто специалиста по Data Science путают с аналитиком данных, потому что их задачи на первый взгляд выглядят похожими. Оба работают с большими объемами данных и имеют хорошие знания в своих областях, таких как рынки и индустрии. Однако есть некоторые отличия.
Задача аналитика заключается в проведении статистического анализа для ответа на вопросы и решения проблем. Он собирает данные, выявляет закономерности и создает отчеты, которые помогают проектным менеджерам и бизнес-лидерам принимать стратегические решения.
Специалист по Data Science не только умеет анализировать и визуализировать данные, но и создавать модели на их основе. Для этого он должен знать машинное обучение (Machine Learning) и глубокое обучение (Deep Learning), которые отсутствуют у аналитика.
Чем Data Scientist отличается от ML-инженера?
ML-инженер (Machine Learning Engineer) продолжает работу специалиста по Data Science после достижения хороших результатов.
Data Scientist анализирует данные, создает модели и проверяет их. ML-инженер автоматизирует работу моделей, следит за их качеством и исправляет ошибки. Если точность модели снижается, инженер исследует причины и переобучает алгоритм.
Что нужно знать и уметь Data Scientist?
Работа в области Data Science требует двух видов навыков: технических и надпрофессиональных. Технические навыки связаны с профильными дисциплинами, а надпрофессиональные навыки включают психологические качества и управленческие навыки, которые необходимы для любой профессии.
У Data Scientist преобладает доля технических навыков, так как их работа связана преимущественно с обработкой данных, а не с работой с людьми.
Технические навыки включают:
- Программирование на Python и SQL.
- Знание математики, статистики и машинного обучения.
- Работа с базами данных.
- Опыт работы с инструментами обработки больших данных, такими как Apache Spark и Hadoop Mapreduce.
- Продуктивность моделей.
- Английский на уровне Advanced Proficiency для чтения технической литературы.
- Понимание специфики бизнеса и сферы деятельности.
Надпрофессиональные навыки включают:
- Коммуникацию с коллегами.
- Представление результатов своей работы.
Требования к Data Scientist на уровне Junior, Middle и Senior
Для Junior Data Scientist необходимы:
- Базовые знания машинного обучения и статистики.
- Понимание основных алгоритмов и их применение.
- Опыт: не обязателен, но желательно иметь опыт учебных проектов.
- Программирование: уверенное владение Python и базовые знания SQL.
Middle Data Scientist должен иметь:
- Глубокие знания математики.
- Опыт: успешно выполненные 2-3 проекта.
- Программирование: уверенное владение Python и знание особенностей его использования для оптимизации моделей и улучшения производительности.
- Уверенные навыки работы с инструментами внедрения и поддержки моделей машинного обучения, такими как gitLFS, MLFlow и DVC.
- Знание A/B-тестирования.
- Способность решать задачи от начала до конца с минимальным вмешательством старших специалистов.
У Senior Data Scientist должны быть:
- Глубокие и уверенные знания математики и статистики.
- Опыт: успешно выполненные более 5 проектов.
- Программирование: уверенное владение Python и SQL.
- Экспертные знания в своей области.
- Полная самостоятельность от постановки задачи до реализации в производство.
- Способность обучать и наставлять младших и опытных специалистов.
Преимущества и недостатки профессии Data Scientist
Преимущества:
- Новая и интересная профессия, позволяющая решать нестандартные задачи.
- Возможность действительно влиять на процессы в компании и увеличивать выручку за счет оптимизации бизнес-процессов с помощью Data Science.
- Высокие зарплаты. Data Scientist зарабатывает больше, чем разработчики backend и frontend.
Недостатки:
- Непонимание со стороны руководства. Не все владельцы бизнеса понимают, для чего нужно внедрять Data Science и машинное обучение в компанию, и порой назначают дата-сайентистам задачи, не относящиеся к их квалификации, например подготовка отчетов или аналитика.
- Нереалистичные ожидания от профессии. Некоторые люди могут считать, что Data Scientist должен обучить роботов выполнять сложные операции вместо хирургов.
- Быстрое устаревание знаний. Постоянно приходится уделять время для освоения новых технологий и самообразования.
Востребованность и перспективы
В последние годы спрос на дата-сайентистов только растет. Все крупные компании открывают отделы Data Science. Специалисты в этой области нужны как в стартапах, так и в небольших разработческих коллективах. Постоянно возникают новые задачи, которые можно решать с помощью Data Science. Современные модели машинного обучения позволяют иначе подходить к решению задач даже по сравнению со сравнительно недавними моделями - что в свою очередь позволяет получать больше прибыли.
Путь Data Science – это непрерывное совершенствование в профессии. Задачи для этих специалистов становятся все более сложными и захватывающими. Например, создание чат-ботов и голосовых помощников с использованием NLP (естественной обработки языка) или машинного обучения на основе текстовых данных.
Спрос на специалистов по Data Science растет из-за нехватки специалистов, способных решать новые задачи. Компании стараются найти или перекупить таких специалистов, что ведет к росту их зарплат. Если приобрести навыки невозможно, компании обучают сотрудников для решения конкретных задач. Таких квалифицированных специалистов немного, поэтому они всегда востребованы, особенно на международном рынке.
Зарплата Data Scientist
Junior ― от 80 000 до 150 000 ₽
Middle ― от 200 000 до 250 000 ₽
Senior ― от 250 000 до 450 000 ₽
Как стать Data Scientist
- Овладеть математикой и машинным обучением Окончить профильный вуз и получить образование на кафедре машинного обучения в НИУ ВШЭ, МФТИ или МГУ. Также подойдет образование прикладного математика в другом вузе. Для тех, кто желает получить знания и навыки для профессии за более короткий период, существуют онлайн-курсы, которые предлагают структурированный материал и полную поддержку со стороны менторов.
- Получить опыт После обучения можно найти стажировку или начальную позицию в компании. Участие в соревнованиях по Data Science и машинному обучению, выполнение задач и разработка моделей помогут набраться опыта. Победы и участие в соревнованиях станут дополнительным плюсом при поиске работы.
- Устроиться на работу Теперь можно трудоустроиться в компании в должности Data Science и развивать свои навыки в конкретной отрасли.
Важные моменты, которые нужно запомнить
- Data Scientist – это специалист, который работает с данными для решения бизнес-задач. Он сочетает в себе знания в области программирования, машинного обучения и математики.
- Основные задачи дата-сайентиста включают сбор и анализ данных, построение, обучение и тестирование моделей. Data Scientist должен также разбираться в работе компании и конкретной отрасли, в которой он работает.
- Профессия Data Scientist постоянно развивается и хорошо оплачивается. Возникают новые интересные задачи. Потребность в Data Scientist в больших компаниях будет только расти, а вместе с этим и их заработная плата.
- Для работы в качестве Data Scientist не обязательно иметь образование в области математики. Можно получить дополнительное образование, пройти стажировку или начать работать на младшей должности специалиста.