Навыки специалиста по моделям данных: что требуют работодатели
На основе 175 вакансий — частотность навыков, разбивка по грейдам, связки технологий.
Какие навыки чаще всего требуют от специалиста по моделям данных
Частота упоминания в 175 активных вакансиях. Клик по заголовку колонки — сортировка.
| # | Навык | Частота | Доля | Вакансий |
|---|---|---|---|---|
| 1 | Python | | 88.6% | 155 |
| 2 | SQL | | 61.7% | 108 |
| 3 | PyTorch | | 49.7% | 87 |
| 4 | pandas | | 44% | 77 |
| 5 | LLM | | 43.4% | 76 |
| 6 | scikit-learn | | 41.7% | 73 |
| 7 | NumPy | | 40% | 70 |
| 8 | Apache Spark | | 34.3% | 60 |
| 9 | RAG | | 28.6% | 50 |
| 10 | CatBoost | | 25.7% | 45 |
| 11 | Git | | 25.7% | 45 |
| 12 | Apache Airflow | | 24.6% | 43 |
| 13 | Apache Hadoop | | 24.6% | 43 |
| 14 | Docker | | 22.9% | 40 |
| 15 | LangChain | | 22.9% | 40 |
| 16 | LightGBM | | 19.4% | 34 |
| 17 | XGBoost | | 19.4% | 34 |
| 18 | PostgreSQL | | 18.3% | 32 |
| 19 | TensorFlow | | 16.6% | 29 |
| 20 | MLflow | | 16% | 28 |
Доля = процент вакансий специалиста по моделям данных, в которых упоминается навык. Одна вакансия может содержать несколько навыков. На основе 175 вакансий, 23 июня 2026.
Навыки по грейдам: Junior, Middle, Senior
Доля вакансий каждого грейда, в которых встречается навык. Фильтр — кнопки ниже. Ячейки с «≈» — оценка по выборке менее 20 вакансий.
| Навык | Intern | Junior | Middle | Senior | Lead |
|---|---|---|---|---|---|
| Python | ≈100% | ≈100% | 91.3% | 83.3% | ≈66.7% |
| SQL | ≈66.7% | ≈61.5% | 60.9% | 65.2% | ≈22.2% |
| PyTorch | ≈33.3% | ≈61.5% | 54.3% | 56.1% | ≈22.2% |
| pandas | ≈66.7% | ≈46.2% | ≈39.1% | 50% | ≈44.4% |
| LLM | ≈33.3% | ≈38.5% | 45.7% | 50% | ≈44.4% |
| scikit-learn | ≈33.3% | ≈38.5% | 43.5% | 45.5% | ≈44.4% |
| NumPy | ≈33.3% | ≈46.2% | ≈34.8% | 43.9% | ≈44.4% |
| Apache Spark | ≈33.3% | ≈23.1% | ≈28.3% | 43.9% | ≈22.2% |
| RAG | — | ≈30.8% | ≈34.8% | 31.8% | ≈22.2% |
| CatBoost | ≈33.3% | ≈15.4% | ≈39.1% | ≈24.2% | ≈22.2% |
| Git | ≈66.7% | ≈38.5% | ≈32.6% | ≈21.2% | — |
| Apache Airflow | ≈33.3% | ≈38.5% | ≈28.3% | ≈21.2% | — |
| Apache Hadoop | ≈33.3% | ≈15.4% | ≈23.9% | ≈25.8% | ≈22.2% |
| Docker | ≈33.3% | ≈30.8% | ≈23.9% | ≈21.2% | — |
| LangChain | ≈33.3% | ≈23.1% | ≈23.9% | 30.3% | ≈22.2% |
| LightGBM | ≈33.3% | ≈23.1% | ≈28.3% | ≈16.7% | ≈22.2% |
| XGBoost | ≈33.3% | ≈15.4% | ≈21.7% | ≈21.2% | ≈22.2% |
| PostgreSQL | ≈33.3% | ≈15.4% | ≈17.4% | ≈19.7% | ≈11.1% |
| TensorFlow | — | ≈7.7% | ≈19.6% | ≈18.2% | — |
| MLflow | — | ≈38.5% | ≈19.6% | ≈13.6% | — |
Значение = % вакансий данного уровня, требующих навык. «≈» — оценка (выборка <20 вакансий). «—» — нет данных. Уровень определяется по требованиям вакансии.
Стек по категориям
Навыки сгруппированы по типу технологий. Цифры — частота в вакансиях.
Какие навыки идут в связке
Пары навыков, которые чаще всего встречаются в одной вакансии. Доля — % вакансий специалиста по моделям данных с обоими навыками.
| Навык A | + | Навык B | Вакансий | Доля |
|---|---|---|---|---|
| Python | + | SQL | 104 | 59.4% |
| Python | + | PyTorch | 76 | 43.4% |
| Python | + | pandas | 73 | 41.7% |
| Python | + | scikit-learn | 72 | 41.1% |
| Python | + | NumPy | 68 | 38.9% |
| pandas | + | NumPy | 66 | 37.7% |
| Python | + | LLM | 64 | 36.6% |
| pandas | + | scikit-learn | 63 | 36% |
| scikit-learn | + | NumPy | 59 | 33.7% |
| Python | + | Apache Spark | 57 | 32.6% |
| SQL | + | pandas | 55 | 31.4% |
| SQL | + | scikit-learn | 54 | 30.9% |
| SQL | + | NumPy | 53 | 30.3% |
| PyTorch | + | LLM | 53 | 30.3% |
| LLM | + | RAG | 48 | 27.4% |
На основе 175 вакансий, 23 июня 2026. Показаны пары с ≥10 совместными упоминаниями.
Как мы считаем навыки
Источник данных: 175 вакансий в московском сегменте. Навыки извлечены автоматически из текста каждой вакансии. Все значения рассчитываются на основе реальных данных — без ручной редакции.
Доля (share %): доля вакансий профессии, в которых упомянут навык. Одна вакансия может упоминать несколько навыков — суммарная доля может превышать 100%.
Данные по грейдам: грейд определяется по требованиям каждой вакансии (уровень опыта). Ячейки с «≈» — оценка: выборка менее 20 вакансий. Ячейки «—» — данных нет.
Связки навыков: пары, встречающиеся вместе в ≥10 вакансиях (порог надёжности данных).
Зарплатная премия: разница медианы вакансий с навыком к медиане профессии. Показывается при наличии ≥20 вакансий с зарплатой. «Оценка» — 20–29 вакансий.
Обновлено: 23 июня 2026 · 175 вакансий
Что учить специалисту по моделям данных первым
Порядок опирается на частотность навыков по данным вакансий и логику освоения специализации. Список — ориентир, не жёсткое правило.
- 1Python и базовые библиотеки (88.6%)NumPy, Pandas — обработка данных; Jupyter/VS Code, виртуальные окружения.
- 2Классический ML (41.7%)Scikit-learn: линейные модели, деревья, градиентный бустинг, оценка качества моделей.
- 3Нейросетевые фреймворки (49.7%)PyTorch или TensorFlow/Keras — архитектуры, обучение, инференс.
- 4LLM и языковые модели (43.4%)Трансформеры, API OpenAI/YandexGPT/GigaChat, prompt engineering, few-shot learning.
- 5RAG и векторные базы данных (28.6%)Retrieval-Augmented Generation: эмбеддинги, Qdrant/Chroma/Weaviate, similarity search.
- 6Агентные фреймворки и оркестрация (22.9%)LangChain, LlamaIndex — AI-пайплайны, tool calling, многоагентные системы.
- 7Деплой и сервинг моделей (22.9%)FastAPI/gRPC для инференса, Docker, ONNX — оптимизация latency в production.
- 8MLOps и мониторинг (16%)MLflow, DVC, Airflow — версионирование экспериментов, воспроизводимость, мониторинг дрейфа.
Курсы для специалиста по моделям данных
Сопоставили программы с реальным стеком из 175 вакансий — оценка соответствия рассчитана автоматически, это не реклама.