Live-данные · обновлено 23.06.26

Data Scientist: кто это и чем занимается

Data Scientist — это специалист, который превращает продуктовый или бизнес-вопрос в проверяемую задачу на данных. Это не человек, который просто запускает модели: он формулирует ML-задачу, собирает выборку, строит baseline, выбирает метрику, проверяет качество и объясняет, где результату нельзя доверять. Ценность роли появляется не там, где метрика выглядит красиво в ноутбуке, а там, где вывод выдерживает проверку и меняет решение. Поэтому сильный Data Scientist отвечает за постановку задачи, качество данных, валидацию и ограничения не меньше, чем за саму модель. По данным SkillStat, в Москве и МО сейчас 175 активные вакансии Data Scientist, а зарплатная оценка по профессии составляет 340 000 ₽.

ИА Игорь Антонов · Технический редактор · Senior Data Scientist
Вакансии
175
Москва и МО · 23.06.26
Оценка зарплаты
340 000 ₽
Оценка по вакансиям за 180 дней
Спрос
66 / 100
Средний · #15
Уровень
Senior
48% вакансий
Формат
гибридный формат
удал. 7% · гибрид 49% · офис 44%
Выборка зарплат
66
вакансий с зарплатой

Как ещё называют Data Scientist

В поиске и вакансиях рядом встречаются как названия самой роли, так и смежные data-профессии. Синонимы можно объединять, а соседние роли лучше читать отдельно: у них другая зона ответственности.

Синонимы
Data Scientistдата-сайентистспециалист по Data Scienceспециалист по науке о данныхспециалист по машинному обучениюML-исследовательприкладной ML-специалистспециалист по моделям данныхисследователь данных
Смежные роли
Data AnalystML EngineerData EngineerAI EngineerMLOps EngineerResearch ScientistNLP EngineerComputer Vision EngineerBI Analyst
Рыночный вывод

Свежие данные рынка: 175 активные вакансии, зарплатная оценка 340 000 ₽, спрос 66/100. Срез по Москве и МО от 23.06.2026.

Для Data Scientist сейчас используется estimated-зарплата: SkillStat считает оценку по вакансиям за 180 дней, потому что в текущем активном срезе недостаточно вакансий с открытой зарплатной вилкой для точной медианы и диапазона. Опорная выборка профессии за окно — n=66. Диапазон и позиция в зарплатном рейтинге не показываются, чтобы не создавать ложную точность.

Спрос средний: текущая точка выше значений за 7 и 30 дней, но средние по месяцам показывают волнообразный рынок. Data Scientist остаётся сильной ролью, но компании стали требовательнее: важны не красивые цифры сами по себе, а доказательство качества, устойчивость вывода и связь результата с решением.

Коротко о профессии

Data Scientist работает с задачами, где нужно не просто описать прошлое, а получить вывод, который можно использовать в решении. Он проходит полный цикл: вопрос, данные, baseline, признаки, модель, валидация, интерпретация и честное описание ограничений.

Сильного специалиста отличает не любовь к сложной модели, а дисциплина проверки. Он смотрит на утечки признаков, временные срезы, качество выборки, разницу между модельной и бизнес-метрикой и только потом делает вывод.

Профессия находится между аналитикой, исследованием и внедрением. Рядом работают Data Analyst, Data Engineer, ML Engineer, AI Engineer и продуктовая команда, поэтому Data Scientist должен уметь объяснить не только результат, но и границы доверия к нему.

На этой странице редакционный текст объясняет саму роль, а числовые блоки ниже показывают свежий рынок SkillStat по Москве и МО.

По зарплате у профессии нет достаточной собственной актуальной выборки. Поэтому на странице показана оценка с явной маркировкой источника, а не точная медиана только по текущим активным вакансиям.

Как читать свежие данные SkillStat

Числовые метрики показывают вакансии Москвы и Московской области. Описание роли, задач и навыков относится к профессии в целом.

Регион
Москва и МО
Срез
23.06.26
Зарплата
Оценка по вакансиям за 180 дней
Выборка
n=66

Как мы считали

  • Регион страницы — Москва и Московская область, а текущий срез вакансий относится к 23.06.2026.
  • По зарплате для Data Scientist сейчас используется estimated-режим: оценка считается по вакансиям за 180 дней, потому что в свежем активном срезе мало открытых вилок.
  • Опорная salary-выборка профессии за окно — n=66. Поэтому диапазон рынка и место в зарплатном рейтинге не выводятся, чтобы не создавать ложную точность.
  • Спрос лучше читать вместе: текущий объём вакансий, сравнение со значениями за 7 и 30 дней, месячные средние и структура рынка по грейдам показывают ситуацию точнее одной цифры.

Актуальные данные по профессии

Актуальный срез по вакансиям, зарплате, спросу и динамике найма для специалиста по моделям данных в Москве и МО.

Вакансии Количество активных вакансий на сегодня в регионе Москва и МО. Не включает закрытые или приостановленные.
175
активных вакансий
Москва и МО · текущий срез 23.06.26
7 дней назад
142
16.06.26 +23%
30 дней назад
113
24.05.26 +55%
Спрос 50 = средний по рынку, 100 = в 4× больше вакансий чем у средней IT-профессии. Метрика считается по актуальной выборке Москва и МО.
66
из 100
Ранг по спросу
#15 из 71
Статус
Средний
Топ спроса
#1
Системный аналитик
645
#2
Продакт-менеджер
521
#3
Бизнес-аналитик
504
Оценка зарплаты
Оценка
340 000
Москва и МО · Оценка по вакансиям за 180 дней
Вакансии профессии за 180 дней · n=66
Диапазон и позиция в зарплатном рейтинге не показаны: зарплата рассчитана в estimated-режиме, поэтому SkillStat не выводит эти значения, чтобы не создавать ложную точность.
Средний тренд Сначала сравниваем последние 30 дней с предыдущими 30. Если в одном из окон меньше 14 точек, пробуем 45, 60, 90 дней. Ряд использует ту же семантику активных публичных вакансий, что и верхнее число.
↑ 20.5%
последние 30 дней vs предыдущие 30
среднее последнего окна выше предыдущего
151 против 125 вакансий, последние 30 дней vs предыдущие 30
сглаживание 30 дней

Кто такой Data Scientist

Data Scientist работает на стыке статистики, машинного обучения, данных и продукта. Его задача — не «запустить модель», а понять, какой вопрос вообще можно честно решить на данных и какую ошибку команда готова принять.

В этой роли важно уметь формулировать гипотезу, собирать корректную выборку, строить baseline, выбирать метрику и проверять, не обманывает ли модель сама себя через leakage, смещение или плохой split. Если вывод нельзя перенести в решение, исследование ещё не закончено.

От Data Analyst роль отличается фокусом на прогнозе, классификации, ранжировании и других модельных задачах. От ML Engineer — фокусом на постановке, валидации и интерпретации, а не на сервисе вокруг модели. От AI Engineer — тем, что здесь важнее доказать качество вывода, чем собрать прикладную AI-функцию.

Рабочий объект

Проверяемый вывод из данных, а не просто обученная модель

Обязательный минимум

Python, SQL, статистика, baseline, валидация и интерпретация

Главная ценность

Отделить реальный сигнал от шума и связать результат с решением

Что делает

Data Scientist переводит общий вопрос в проверяемую ML-задачу, готовит данные, строит baseline, выбирает метрику и сравнивает подходы. Итог работы — не просто модель, а вывод с понятными условиями применимости.

Поэтому хороший специалист всегда отвечает на два вопроса: что именно меняется после результата и где этому результату нельзя доверять.

Почему это не «просто модель»

Высокая метрика сама по себе ничего не гарантирует. В признаки могла попасть информация из будущего, выборка могла сместиться, а целевая метрика могла не совпадать с реальной целью бизнеса.

Сильный Data Scientist проверяет leakage, делает корректный split, смотрит срезы, сравнивает модель с baseline и только потом предлагает решение.

С чем чаще всего путают

Роль часто смешивают с отчётной аналитикой, инженерией данных и внедрением модели в сервис. На практике Data Scientist отвечает прежде всего за качество исследования, проверяемость вывода и границы доверия к нему.

Отчёт, витрина или API могут быть частью общей цепочки, но не заменяют модельную постановку и честную валидацию.

Чем занимается Data Scientist

Постановка и данные

вопрос, выборка и качество исходных таблиц

  • Формулирует ML-задачу так, чтобы было понятно, какое решение должно измениться после результата.
  • Проверяет источники, пропуски, дубли, выбросы, смещения, временные срезы и утечки будущей информации.
Модель и проверка

baseline, признаки, метрика и валидация

  • Строит baseline, подбирает признаки, сравнивает модели и выбирает метрику, которая связана с реальным действием.
  • Проверяет устойчивость результата через split, cross-validation, сегменты и сценарии, где ошибка особенно дорога.
Решение и ограничения

объяснение результата и связь с продуктом

  • Показывает, что модель действительно меняет в решении: кого ранжируем, что прогнозируем, где нужен эксперимент, а где достаточно правила.
  • Фиксирует ограничения, условия недоверия и передаёт вывод продукту, аналитикам и инженерам без ложного обещания точности.

Как выглядит работа по задаче

Одна задача Data Scientist проходит путь от вопроса к решению: сначала нужно понять, зачем вообще нужна модель, затем проверить данные, сравнить подходы и только после этого передавать вывод дальше.

Шаг 01

Формулирует задачу

Уточняет, что именно нужно предсказать, ранжировать или проверить, какая ошибка опаснее и какое решение должно измениться после вывода.

Шаг 02

Проверяет данные

Собирает выборку, проверяет пропуски, дубли, выбросы, временные границы и признаки, которые могут дать feature leakage.

Шаг 03

Ставит baseline

Сначала задаёт простое правило или базовую модель, чтобы понять, даёт ли сложный подход реальный выигрыш, а не просто больше кода.

Шаг 04

Валидирует результат

Сравнивает модели по метрике, проверяет split, cross-validation и качество на сегментах, где цена ошибки выше средней.

Шаг 05

Объясняет вывод

Формулирует, что можно делать с результатом, где нужен A/B-тест или ручной контроль и в каких условиях вывод перестаёт быть надёжным.

Data Scientist, Data Analyst, ML Engineer, AI Engineer и Research Scientist — в чём разница

Эти роли стоят рядом в вакансиях, но отвечают за разные части результата. Чтобы не промахнуться с вакансией или roadmap, полезно смотреть не только на стек, но и на главный объект ответственности.

Роль Главный фокус Что делает Типовой результат Какие навыки нужны Чем отличается от Data Scientist
Data Scientist Проверяемый вывод из данных Формулирует задачу, готовит выборку, строит baseline, модель и валидацию Решение с понятными ограничениями и метрикой Python, SQL, статистика, ML, метрики, feature engineering, интерпретация Это базовая роль сравнения
Data Analyst Понимание метрик и прошлого поведения Делает выборки, отчёты, исследования, визуализации и продуктовые выводы Пояснение, что произошло и где искать причину SQL, BI, статистика, метрики, продуктовая аналитика Меньше моделирования и автоматического прогноза, больше объяснения данных
ML Engineer Рабочий сервис вокруг модели Запускает модель в продукт, обновляет, мониторит и делает её устойчивой Модель как сервис с API, пайплайном и мониторингом Python, backend, MLOps, Docker, Kubernetes, monitoring Фокус смещён с валидации гипотезы на эксплуатацию и надёжность
Data Engineer Потоки, хранилища и качество данных Собирает источники, витрины, пайплайны и проверки качества Надёжный маршрут данных для аналитики и моделей SQL, Spark, Airflow, DWH, orchestration, data quality Отвечает за данные как систему, а не за модельный вывод
AI Engineer Прикладная AI-функция в продукте Собирает LLM или RAG-сценарий, API, evals, fallback и интеграции Рабочая функция с ИИ внутри пользовательского сценария Python, LLM, RAG, embeddings, FastAPI, evals, product engineering Сильнее завязан на сервис и UX AI-функции, чем на исследовательскую постановку
MLOps Engineer Инфраструктура ML-цикла Делает reproducibility, CI/CD, registry, monitoring, drift и handoff Устойчивый ML-контур вокруг команд и моделей Docker, Kubernetes, MLflow, CI/CD, observability, IaC Фокус не на модели как таковой, а на надёжной среде для её жизни
Research Scientist Новый метод и исследовательская новизна Проверяет гипотезы уровня метода, пишет прототипы и иногда публикации Новый алгоритм, эксперимент или исследовательский прототип Математика, deep learning, papers, experimentation, PyTorch Чаще работает с новизной метода, а не с прикладным бизнес-решением
NLP Engineer Языковые модели и текстовые пайплайны Строит классификацию текстов, поиск, embeddings, RAG и LLM-процессы Рабочая NLP-функция или текстовый сервис Python, PyTorch, transformers, embeddings, retrieval, evals Уже специализируется на одном домене, а не на широком наборе DS-задач
Computer Vision Engineer Модели для изображений и видео Работает с разметкой, detection, segmentation, embeddings и качеством визуальных данных CV-модель или сервис для изображения PyTorch, CV, augmentation, labeling, metrics, deployment basics Так же специализируется на одном домене, где данные и метрики другие

Навыки специалиста по моделям данных: что требуют работодатели

Работодателю нужен Data Scientist, который отвечает за качество вывода, а не только за запуск библиотеки. Ядро роли — Python, SQL, статистика, baseline, выбор метрики, проверка гипотез и умение разобрать качество данных.

Дальше начинается modeling-слой: pandas, NumPy, scikit-learn, признаки, split, cross-validation, переобучение и бустинговые модели вроде CatBoost, LightGBM и XGBoost. Для deep learning чаще нужен PyTorch, а для прикладных AI-задач — понимание LLM, RAG, embeddings, retrieval и оценки качества ответа.

Соседний контекст тоже важен. Spark, Airflow и PostgreSQL помогают там, где нужно собирать признаки и работать с крупными источниками. Docker, Git и Kubernetes помогают довести исследование до воспроизводимого и передаваемого результата, но сами по себе не заменяют Data Science Core.

На собеседовании особенно видно, как кандидат рассуждает о leakage, baseline, выборе метрики, переобучении, временном split и ограничениях модели. Если человек сразу идёт в сложную архитектуру, не проверив простое правило и качество таблиц, это слабый сигнал.

В текущем активном срезе по этой роли 175 вакансий. Список работодателей ниже построен по накопленной статистике SkillStat, поэтому его нужно читать как ориентир по источникам вакансий, а не как долю текущего рынка.
Топ работодателей
Компании, которые встречаются в вакансиях по профессии Data Scientist
1
Сбер. Data Science
180 вак.
2
Сбер. IT
90 вак.
3
Сбер для экспертов
47 вак.
4
Ozon Tech
34 вак.
5
Ozon Банк
23 вак.
6
Альфа-Банк. Центральный офис
21 вак.
Вход через junior
10%
от рынка

Рынок ориентирован на опытных специалистов.

На одну junior-вакансию приходится примерно 5.1 senior-позиции.
Навыков на вакансию
11
в среднем

Столько требований работодатели обычно собирают в одной позиции по этой роли.

Курс · подобран по данным рынка

Лучший курс для специалиста по моделям данных

Соответствие рассчитано по стеку из 175 вакансий — это не реклама, а совпадение со спросом работодателей.

Все курсы →
Лучшее совпадение
99%
соответствие
Skillbox
Skillbox
онлайн · курс
Профессия Data scientist + ИИ
12 месяцев Трудоустройство
4.7
от 5 424 ₽/мес
Сравнить все курсы

Data Science Core: что реально нужно знать

Ниже — не список модных слов, а то, что действительно держит профессию. Эти группы знаний встречаются в работе снова и снова, даже если домен меняется от скоринга до RAG.

Статистика и вероятность

Распределения, выборка, дисперсия, доверительный интервал, гипотезы, p-value и ошибки I/II рода. Без этого легко принять шум за сигнал.

Данные

SQL, источники, пропуски, дубли, выбросы, смещения, временные срезы и data leakage. Хорошая модель начинается с честной таблицы.

Python stack

Python, pandas, NumPy, Jupyter, визуализация, clean notebooks и reproducibility. Код должен быть удобен для повторной проверки, а не только для первой демонстрации.

Machine Learning

Baseline, train/test split, cross-validation, overfitting, regularization и feature engineering. Это фундамент прикладного ML.

Модели

Linear и logistic regression, trees, random forest, gradient boosting, CatBoost, LightGBM и XGBoost. Без понимания этих инструментов трудно оценить, нужна ли вообще более сложная архитектура.

Метрики

ROC-AUC, precision, recall, F1, MAE, RMSE, MAPE и различие между business metric и model metric. Правильная метрика важнее красивой модели.

Deep Learning

PyTorch, neural networks, embeddings, transfer learning, NLP и computer vision. Этот слой нужен тогда, когда задача действительно оправдывает нейросеть.

LLM / RAG

LLM, RAG, embeddings, LangChain, retrieval quality, hallucination checks и evals. Важно не только вызвать модель, но и проверить качество ответа.

Experimentation

A/B-тесты, power, sample size, uplift, causal thinking, сегменты и интерпретация результата. Эксперимент помогает понять, меняет ли вывод реальное решение.

Production-aware context

Docker, Kubernetes, MLflow, Airflow, Spark, monitoring, drift, versioning и reproducibility. Это контекст внедрения, без которого хороший ноутбук может не дожить до продукта.

Сколько зарабатывает Data Scientist

Для специалиста по моделям данных сейчас доступна рыночная оценка дохода, а не точная медиана только по текущим активным вакансиям. Её лучше читать вместе с подписью источника и структурой рынка по уровням.
Оценка зарплаты Оценка
340 000
Москва и МО · Оценка по вакансиям за 180 дней
Вакансии профессии за 180 дней · n=66
Опора оценки
66
наблюдений в опорном срезе
Диапазон и позиция в зарплатном рейтинге не показаны: зарплата рассчитана в estimated-режиме, поэтому SkillStat не выводит эти значения, чтобы не создавать ложную точность.
Для Data Scientist SkillStat сейчас показывает не точную медиану активного среза, а зарплатную оценку 340 000 ₽. Она считается по вакансиям за 180 дней, потому что в свежем срезе мало вакансий с открытой вилкой. Опорная выборка профессии за окно — n=66.
Зарплата по грейдам
Медиана зарплаты по грейду. n — выборка вакансий с указанной суммой.

Для estimated-режима грейдовые зарплаты не показываются, чтобы не создавать ложную точность.

Распределение по уровням
Senior
48% рынка
Lead
7%
Senior
48%
Middle
34%
Junior
10%
Intern
2%
По структуре вакансий видно, какой уровень для этой профессии считается базовым на рынке. Это помогает читать грейды не как абстрактную лестницу, а как реальную точку входа и роста.
Дополнительный разбор

Где начинается рост

Эту цифру нельзя читать как универсальную ставку для любого специалиста. На доход сильнее всего влияют самостоятельность исследования, выбор метрики, качество данных, способность объяснить ограничения и довести модель до решения, которому бизнес готов доверять.

Что говорит структура рынка

Структура рынка сейчас заметно senior-heavy: Senior — 48%, Middle — 48.2%, Junior — 33.6%, Lead — 7%, Intern — 2%. На одну junior-вакансию приходится примерно 5.1 senior-позиции, поэтому вход сложнее, а рост быстрее там, где специалист умеет не только обучить модель, но и доказать её пригодность.

Что ограничивает доход

Диапазон и место в зарплатном рейтинге на странице не показываются, потому что estimated-режим не должен создавать ложную точность. Для этой роли полезнее читать оплату вместе с типом задач: скоринг, риск, рекомендации, NLP, LLM-сценарии и задачи, близкие к внедрению, обычно оплачиваются выше учебных и демонстрационных проектов.

Вакансии специалиста по моделям данных: спрос и динамика рынка

Спрос на специалиста по моделям данных лучше читать как сочетание объёма найма, ранга профессии в общей выборке и устойчивости вакансий во времени. Виджеты выше дают быстрый срез рынка, а график ниже помогает понять, насколько этот спрос поддерживается от месяца к месяцу.

Активные вакансии
175
в активном найме
Москва и МО · текущий срез 23.06.26
7 дней назад
142
16.06.26 +23%
30 дней назад
113
24.05.26 +55%
Спрос
66
из 100
Ранг по спросу
#15 из 71
Статус
Средний
Среднее число активных вакансий по месяцам
Блок показывает среднее число активных вакансий за месяц, чтобы видеть общую картину без шума отдельных дней.
июнь 158 неполный +35
май 123 -69
апрель 192 -2
март 194 -97
февраль 291
Июнь пока показан как текущий неполный месяц, поэтому его лучше читать как живую картину рынка, а не как итог месяца.
Дополнительный разбор

На 23.06.2026 SkillStat видит 175 активные вакансии Data Scientist в Москве и МО. 7 дней назад было 142, 30 дней назад — 113. спрос — 66/100, ранг — #15 из 71, статус — средний.

Это не ровный рынок массового найма. Текущая точка выше значений за 7 и 30 дней, но средние по месяцам показывают волнообразную картину: спрос возвращается, но компании заметно строже к постановке задачи, качеству выборки, валидации и связи модели с решением.

Сильнее читаются вакансии, где виден полный исследовательский цикл: Python, SQL, статистика, baseline, признаки, cross-validation, метрика, ограничения и понятный вывод для команды. Отдельные сигналы вроде PyTorch, LLM, RAG, Spark или Airflow важны, но без дисциплины проверки они не делают вакансию или кандидата сильнее.

Формат работы специалиста по моделям данных

Этот срез показывает, в каком формате работодатели чаще всего открывают вакансии по профессии: удалённо, гибридно или с полной привязкой к офису.

Сейчас сильнее всего выражен гибридный формат: его отрыв от следующего сценария составляет около 5 п.п.
Удалённо
7%
Гибрид
49%
Офис
44%
По 175 вакансиям

Карьерный путь специалиста по моделям данных

Грейдовые медианы не показаны: для специалиста по моделям данных сейчас используется estimated-режим зарплаты, поэтому SkillStat не выводит отдельные зарплаты по уровням, чтобы не создавать ложную точность.

01
Junior

Junior Data Scientist помогает готовить данные, строить baseline, считать метрики и проверять простые модели. Главное на этом уровне — научиться не доверять первой красивой метрике и аккуратно описывать ограничения.

02
Middle

Middle Data Scientist ведёт исследование сам: уточняет постановку, выбирает метрику, строит признаки, валидирует результат и объясняет вывод продукту или бизнесу.

03
Senior

Senior Data Scientist отвечает за сложные модельные направления, стандарты проверки и качество решений на уровне команды. Он задаёт правила работы с leakage, метриками, экспериментами и переносом вывода в практику.

04
Lead

Lead Data Scientist управляет не только задачами, но и исследовательской дисциплиной команды: приоритетами, критериями качества, взаимодействием с продуктом и тем, какие выводы вообще можно выносить в решение.

Где работает Data Scientist

Риск, финансы и антифрод

Здесь модель оценивает вероятность события, помогает принимать риск-решение и требует особой аккуратности к смещениям, порогу и объяснимости.

Продукт, рекомендации и поиск

Фокус смещается к ранжированию, персонализации, ranking metrics и проверке того, действительно ли модель улучшает пользовательский сценарий.

Прогнозирование и операции

Прогноз спроса, запасы, логистика и нагрузка требуют временного split, внимания к сезонности и понимания, что прошлый паттерн может быстро сломаться.

NLP, CV и LLM-сценарии

Здесь особенно важны качество разметки, embeddings, PyTorch, evals, hallucination checks и понимание, когда сложная модель действительно оправдана.

Путь в профессию: специалистом по моделям данных

Практический путь входа в профессию: что освоить сначала, как собрать рабочую базу и на чём быстрее всего набирается прикладная уверенность.

01
1. Python

Освойте Python как рабочий язык анализа: структуры данных, функции, чтение таблиц, простую автоматизацию и аккуратные ноутбуки.

02
2. SQL

Научитесь делать выборки, join, group by и простые window functions. Большая часть реальной работы начинается именно здесь.

03
3. Вероятность и статистика

Разберитесь с распределениями, выборкой, дисперсией, доверительным интервалом, гипотезами и p-value.

04
4. pandas и NumPy

Научитесь чистить данные, преобразовывать таблицы, считать признаки и держать воспроизводимый рабочий слой вокруг анализа.

05
5. Очистка данных и проверка качества

Проверяйте пропуски, дубли, выбросы, смещения, временные границы и то, как собиралась сама выборка.

06
6. Baseline

Привыкайте начинать с простого правила или базовой модели. Без baseline нельзя честно доказать, что сложность действительно дала выигрыш.

07
7. Классический ML

Линейные модели, деревья, random forest и градиентный бустинг дают базу, без которой рано идти в более тяжёлые архитектуры.

08
8. Метрики качества

Разберитесь, когда нужны ROC-AUC, precision, recall, F1, MAE, RMSE и как они связаны с бизнес-решением.

09
9. Cross-validation

Научитесь проверять модель не на одном удачном split, а на нескольких разбиениях или на корректном временном сценарии.

10
10. Feature engineering

Учитесь строить признаки из доменной логики, а не только механически добавлять всё подряд в модель.

11
11. Интерпретация моделей

Важно объяснить, какие признаки влияют на результат, где модель ошибается и почему её вывод нельзя считать абсолютной правдой.

12
12. A/B-тесты

Поймите гипотезу, метрику, sample size, power, эффект и то, как эксперимент соотносится с модельным решением.

13
13. Один домен

Выберите одну прикладную область: скоринг, рекомендации, NLP, computer vision или прогнозирование. Так проще собрать связное портфолио.

14
14. Basics внедрения

Разберитесь, как передаётся результат дальше: версии данных, reproducibility, Docker, Git, мониторинг и граница между DS и ML Engineer.

15
15. Портфолио

Соберите несколько законченных кейсов с вопросом, данными, leakage, baseline, метриками, ограничениями и README, который можно читать без автора рядом.

Что добавить в портфолио Data Scientist

Сильное портфолио показывает не коллекцию ноутбуков, а умение провести исследование от вопроса до решения. В каждом проекте должны быть вопрос, данные, leakage, baseline, метрики, ограничения и README, который объясняет логику без устного комментария автора.

01

Проект 1. Скоринг или классификация. Покажите, какой вопрос решается, какие данные используются, где возможна утечка, какой baseline задан, какие метрики выбраны, что модель меняет в решении и в каких условиях результату доверять нельзя. В README опишите данные, target, признаки, split, метрики, ограничения и следующий шаг.

02

Проект 2. Прогноз спроса или временной ряд. Обязательно используйте временной split, опишите сезонность, baseline, ошибку прогноза и бизнес-ограничение. В README должно быть видно, почему выбран именно такой горизонт прогноза и где модель быстро устаревает.

03

Проект 3. Рекомендательная система. Покажите пользователя, объект, implicit или explicit feedback, baseline, ranking metric и cold start. В README объясните, какое действие меняет рекомендация и почему офлайн-качество не гарантирует продуктовый эффект.

04

Проект 4. NLP или LLM/RAG-проект. Опишите задачу, данные, retrieval, evals, hallucination checks и ограничения. В README нужно показать, что вы умеете не только вызвать модель, но и оценить качество ответа и риски применения.

05

Проект 5. A/B или causal case. Сформулируйте гипотезу, метрику, сегменты, эффект и ограничение эксперимента. В README объясните, почему этот дизайн позволяет говорить об эффекте и где вывод всё ещё остаётся спорным.

Путь в профессию
Как стать специалистом по моделям данных: данные из вакансий
Roadmap, junior-рынок, проекты для портфолио, первый оффер — без обещаний, с цифрами.
Как стать специалистом по моделям данных
Курсы · подобрано по данным рынка

Курсы для специалиста по моделям данных

Сопоставили программы с реальным стеком из 175 вакансий — оценка соответствия рассчитана автоматически, это не реклама.

Соответствие — доля ключевых навыков из вакансий, которые охватывает программа курса

Что не надо учить сразу

Типичная ошибка новичка — перепрыгнуть через базу и начать с самого громкого термина. Это делает портфолио красивее, но почти всегда ухудшает качество входа в профессию.

Не начинайте с deep learning

Сначала нужна статистика, baseline и понимание данных. Без них нейросеть чаще маскирует проблему, чем решает её.

Не учите нейросети раньше классического ML

Если вы не умеете сравнить модель с логистической регрессией или бустингом, сложная архитектура редко даёт честный выигрыш.

Не делайте портфолио только из Kaggle-ноутбуков

Готовый датасет без контекста плохо показывает, умеете ли вы работать с постановкой, leakage, ограничениями и README.

Не пишите «LLM / RAG» без оценки качества

Если вы не умеете проверить retrieval, hallucination и качество ответа, это ещё не прикладной навык, а только знакомство со стеком.

Не игнорируйте SQL

Большинство задач начинается не с модели, а с выборки, join, group by и проверки того, как вообще устроены данные.

Не верьте высокой метрике без проверки leakage

Feature leakage, неверный split и временная путаница могут сделать модель «слишком хорошей» ещё до первого реального запуска.

Не усложняйте модель раньше baseline

Пока простое правило не стало baseline и не проиграло честно, сложность не даёт доказанной ценности.

Не называйте модель полезной без связи с решением

Если непонятно, какое действие меняется после вывода, то даже сильная метрика остаётся технической игрушкой, а не продуктовым решением.

Что спрашивают на собеседовании Data Scientist

На интервью обычно проверяют не только знание библиотек, но и ход мысли. Работодателю важно понять, умеете ли вы проверить модель, объяснить ограничение и выбрать корректный эксперимент.

01

Статистика

Распределения, гипотезы, p-value, confidence interval и sample bias. Частые вопросы: как читать доверительный интервал и почему статистическая значимость не равна бизнес-ценности.

02

SQL

Joins, group by, window functions и data quality checks. Часто просят собрать выборку, проверить дубли, найти пропавшие записи и объяснить логику расчёта.

03

Python

pandas, NumPy, clean code и reproducibility. Спрашивают, как вы организуете анализ, держите ноутбук понятным и воспроизводимым.

04

Machine Learning

Baseline, train/test split, cross-validation, overfitting, regularization и feature engineering. Типовые вопросы: что такое baseline, как проверить переобучение и как делать split для временных данных.

05

Метрики

ROC-AUC, precision, recall, F1, MAE, RMSE, calibration и business metric. Часто спрашивают, когда accuracy плохая метрика и как выбрать метрику под решение.

06

A/B-тесты

Гипотеза, группы, sample size, power, p-value, effect size и multiple testing. Важен не термин, а понимание того, как эксперимент связывается с действием.

07

Интерпретация модели

Feature importance, SHAP, partial dependence и ограничения метода. Нередко просят объяснить модель продукту или бизнесу простыми словами.

08

NLP, CV и LLM

Embeddings, transformers, RAG, hallucination и evals. Спрашивают, когда оправдана сложная модель и как понять, что без неё можно обойтись.

09

Контекст внедрения

Drift, monitoring, MLflow, reproducibility, handoff и граница между Data Scientist и MLOps. Работодатель проверяет, понимаете ли вы жизнь модели после ноутбука.

10

Практический кейс

Что делать, если качество упало на одном сегменте, модель слишком хороша, данные изменились, бизнес хочет внедрить модель без эксперимента или метрика не связана с решением.

Плюсы и минусы профессии

Плюсы

  • Работа даёт интеллектуальную глубину: нужно искать сигнал, проверять гипотезы и понимать причину результата.
  • Можно влиять на решения в банках, маркетплейсах, телекоме, поиске, рекомендациях, NLP и computer vision.
  • Навыки статистики, проверки и интерпретации остаются ценными даже при росте ИИ-инструментов.
  • Есть развитие в прикладной, исследовательский и руководящий трек.
  • Сильные кейсы показывают не только код, но и зрелость мышления.

Минусы

  • Высокий порог входа по статистике, данным и исследовательской дисциплине.
  • Много времени уходит на грязные данные, слабую постановку и проверку ограничений.
  • В незрелых командах результат исследования может не доходить до решения.
  • Сложную модель всё равно нужно объяснить и защитить, спрятаться за кодом не получится.

Кому подойдет

Подходит тем, кому интересно соединять Python, SQL, статистику, машинное обучение и реальные решения. Здесь нужны любопытство, терпение к неопределённости и готовность признать, что красивая модель могла не выдержать проверку.

Подойдет

  • Умение перевести общий бизнес-вопрос в проверяемую гипотезу.
  • Критичность к данным, метрикам, корреляциям и красивым графикам.
  • Способность объяснять ограничения результата без искусственной сложности.
  • Терпение к итерациям: значительная часть работы уходит на проверку и уточнение.
  • Коммуникация с аналитиками, продуктом, риском и инженерами вокруг одного решения.
  • Готовность остановить внедрение, если качество вывода не выдерживает проверки.

Не подойдет

  • Роль плохо подходит тем, кто любит саму модель больше, чем проверку результата.
  • Если интереснее строить пайплайны, инфраструктуру или сервис вокруг модели, ближе могут оказаться Data Engineer, MLOps или ML Engineer.

FAQ по профессии Data Scientist

Кто такой Data Scientist простыми словами?

Это специалист, который превращает вопрос бизнеса или продукта в проверяемый вывод на данных: от выборки и baseline до модели, валидации и ограничений результата.

Чем занимается Data Scientist?

Он формулирует ML-задачу, готовит данные, строит baseline, выбирает метрику, обучает и проверяет модель, а затем объясняет, где результат можно использовать, а где нельзя.

Какие навыки нужны специалисту по моделям данных?

База — Python, SQL, статистика, машинное обучение, работа с данными, baseline, метрики, cross-validation, feature engineering и интерпретация результата. Для части вакансий добавляются PyTorch, LLM, RAG, Spark, Airflow и production-aware инструменты.

Можно ли стать Data Scientist с нуля и почему junior-вход сложный?

Можно, но маршрут длинный: Python, SQL, статистика, ML, портфолио и собеседования. Вход сложный, потому что на одну junior-вакансию приходится примерно 5.1 senior-позиции, а компании ждут умение проверять качество и ограничения.

Заменит ли AI Data Scientist?

AI ускорит код, черновой анализ, перебор признаков и подготовку отчётов. Но постановка задачи, выбор метрики, проверка leakage, причинность, цена ошибки и решение о внедрении остаются ответственностью специалиста.

Чем Data Scientist отличается от AI Engineer?

Data Scientist исследует задачу и качество вывода. AI Engineer собирает прикладную функцию с ИИ в продукте: API, RAG, интеграции, evals, стоимость и эксплуатацию.

Что спрашивают на собеседовании Data Scientist?

Статистику, SQL, Python, baseline, split, cross-validation, leakage, выбор метрики, A/B-тесты, интерпретацию модели и пограничные кейсы внедрения.

Сколько зарабатывает Data Scientist?

По SkillStat для Москвы и МО на 23.06.26 зарплатная оценка Data Scientist — 340 000 ₽. Это estimated-режим по вакансиям за 180 дней, выборка — n=66, поэтому диапазон и зарплатный ранг не показываются.

Нужна ли математика?

Да, но прикладная: вероятность, статистика, доверительные интервалы, гипотезы и понимание ошибки помогают отличать сигнал от случайной связи.

Нужно ли знать Python?

Да. Python — рабочий язык для подготовки данных, экспериментов, моделей, оценки качества и воспроизводимого ноутбука.

Нужно ли знать PyTorch, LLM и RAG?

PyTorch важен для deep learning, NLP, computer vision и embeddings. LLM и RAG полезны для прикладных AI-задач, но только если вы умеете проверять retrieval, hallucination, evals и ограничения ответа.

Нужно ли знать SQL?

Да. Большая часть реальной работы начинается с выборки, join, group by и проверки качества данных.

Чем Data Scientist отличается от Data Analyst?

Data Analyst чаще объясняет метрики и прошлые события, а Data Scientist чаще строит модели для прогноза, ранжирования, рекомендаций и автоматического решения.

Чем Data Scientist отличается от ML Engineer?

Data Scientist отвечает за постановку, данные, модель и валидацию. ML Engineer отвечает за сервис, запуск, обновление и устойчивость модели после внедрения.

Чем precision отличается от recall?

Precision показывает долю верных срабатываний среди всех срабатываний модели, а recall — долю найденных нужных объектов среди всех реальных нужных объектов.

Что такое A/B-тест?

Это эксперимент с контрольной и тестовой группой, который показывает, меняет ли вмешательство бизнес-метрику, а не только модельную.

Что такое baseline?

Baseline — это простое правило или базовая модель, с которой сравнивают более сложный подход. Без baseline нельзя честно доказать, что модель действительно принесла выигрыш.

Что такое causal inference?

Causal inference помогает отличить причинный эффект от простой связи в данных. Для Data Scientist это важно, когда бизнес хочет понять, что именно изменило результат.

Что такое cross-validation?

Это повторная проверка модели на нескольких разбиениях выборки, чтобы не доверять одному удачному split. Для временных данных вместо случайного разбиения часто нужен time-based split.

Что такое feature leakage?

Это ситуация, когда в признаки попадает информация из будущего или из целевой переменной, и модель выглядит лучше, чем будет работать в реальности.

Что такое overfitting?

Переобучение — это когда модель слишком хорошо запомнила тренировочные данные и хуже переносится на новые наблюдения.

Что такое ROC-AUC?

Это метрика ранжирования для бинарной классификации. Она показывает, насколько хорошо модель отделяет положительный класс от отрицательного на разных порогах.

Что такое SHAP?

SHAP — один из способов объяснить вклад признаков в предсказание модели. Он помогает обсуждать модель с продуктом, рисками и бизнесом, но не отменяет проверку данных и метрики.

Kaggle достаточно для портфолио Data Scientist?

Нет. Kaggle полезен как тренировка, но для отклика важнее проект, где вы объясняете вопрос, данные, leakage, baseline, метрики, ограничения, решение и то, почему результату можно или нельзя доверять.