Навыки инженера данных: что требуют работодатели
На основе 211 вакансий — частотность навыков, разбивка по грейдам, связки технологий.
Какие навыки чаще всего требуют от инженера данных
Частота упоминания в 211 активных вакансиях. Клик по заголовку колонки — сортировка.
| # | Навык | Частота | Доля | Вакансий |
|---|---|---|---|---|
| 1 | SQL | | 86.7% | 183 |
| 2 | Python | | 81.5% | 172 |
| 3 | ETL | | 73% | 154 |
| 4 | Apache Airflow | | 62.1% | 131 |
| 5 | Apache Spark | | 51.7% | 109 |
| 6 | ClickHouse | | 46% | 97 |
| 7 | PostgreSQL | | 45% | 95 |
| 8 | DWH | | 38.9% | 82 |
| 9 | Apache Hadoop | | 37% | 78 |
| 10 | Apache Kafka | | 32.7% | 69 |
| 11 | Git | | 31.3% | 66 |
| 12 | Greenplum | | 28.4% | 60 |
| 13 | AWS S3 | | 24.2% | 51 |
| 14 | Apache Hive | | 21.8% | 46 |
| 15 | CI/CD | | 18.5% | 39 |
| 16 | MS SQL | | 17.5% | 37 |
| 17 | Oracle | | 17.1% | 36 |
| 18 | Docker | | 16.6% | 35 |
Доля = процент вакансий инженера данных, в которых упоминается навык. Одна вакансия может содержать несколько навыков. На основе 211 вакансий, 23 июня 2026.
Эти теги встречаются в вакансиях инженера данных, но не описывают базовый стек роли. Их стоит читать как контекст смежных, AI-ориентированных или технически смешанных позиций.
Навыки по грейдам: Junior, Middle, Senior
Доля вакансий каждого грейда, в которых встречается навык. Фильтр — кнопки ниже. Ячейки с «≈» — оценка по выборке менее 20 вакансий.
| Навык | Intern | Junior | Middle | Senior | Lead |
|---|---|---|---|---|---|
| SQL | ≈100% | ≈100% | 86.1% | 89.2% | ≈61.1% |
| Python | ≈100% | ≈80% | 91.7% | 79.5% | ≈83.3% |
| ETL | ≈75% | ≈66.7% | 83.3% | 69.9% | ≈72.2% |
| Apache Airflow | ≈50% | ≈33.3% | 72.2% | 66.3% | ≈50% |
| Apache Spark | ≈25% | ≈46.7% | ≈44.4% | 50.6% | ≈38.9% |
| ClickHouse | ≈75% | ≈33.3% | ≈47.2% | 44.6% | ≈55.6% |
| PostgreSQL | ≈25% | ≈40% | ≈44.4% | 39.8% | ≈61.1% |
| DWH | ≈25% | ≈20% | ≈36.1% | 39.8% | ≈50% |
| Apache Hadoop | — | ≈73.3% | ≈27.8% | 33.7% | ≈16.7% |
| Apache Kafka | — | ≈20% | ≈38.9% | 33.7% | ≈33.3% |
| Git | ≈25% | ≈26.7% | ≈38.9% | 28.9% | ≈33.3% |
| Greenplum | ≈50% | ≈33.3% | ≈38.9% | ≈18.1% | ≈38.9% |
| AWS S3 | — | ≈6.7% | ≈27.8% | 25.3% | ≈38.9% |
| Apache Hive | ≈25% | ≈26.7% | ≈19.4% | ≈19.3% | ≈11.1% |
| CI/CD | — | ≈20% | ≈16.7% | ≈16.9% | ≈38.9% |
| MS SQL | ≈25% | — | ≈19.4% | ≈19.3% | ≈11.1% |
| Oracle | ≈25% | ≈6.7% | ≈22.2% | ≈15.7% | ≈5.6% |
| Docker | — | ≈6.7% | ≈30.6% | ≈16.9% | ≈16.7% |
Значение = % вакансий данного уровня, требующих навык. «≈» — оценка (выборка <20 вакансий). «—» — нет данных. Уровень определяется по требованиям вакансии.
Стек по категориям
Навыки сгруппированы по типу технологий. Цифры — частота в вакансиях.
Какие навыки идут в связке
Пары навыков, которые чаще всего встречаются в одной вакансии. Доля — % вакансий инженера данных с обоими навыками.
| Навык A | + | Навык B | Вакансий | Доля |
|---|---|---|---|---|
| SQL | + | Python | 151 | 71.6% |
| SQL | + | ETL | 144 | 68.2% |
| Python | + | ETL | 128 | 60.7% |
| SQL | + | Apache Airflow | 120 | 56.9% |
| Python | + | Apache Airflow | 115 | 54.5% |
| ETL | + | Apache Airflow | 108 | 51.2% |
| SQL | + | Apache Spark | 97 | 46% |
| Python | + | Apache Spark | 90 | 42.7% |
| SQL | + | ClickHouse | 84 | 39.8% |
| ETL | + | Apache Spark | 84 | 39.8% |
| SQL | + | PostgreSQL | 82 | 38.9% |
| Python | + | ClickHouse | 81 | 38.4% |
| Apache Airflow | + | ClickHouse | 80 | 37.9% |
| ETL | + | ClickHouse | 77 | 36.5% |
| Python | + | PostgreSQL | 77 | 36.5% |
На основе 211 вакансий, 23 июня 2026. Показаны пары с ≥10 совместными упоминаниями.
Как мы считаем навыки
Источник данных: 211 вакансий в московском сегменте. Навыки извлечены автоматически из текста каждой вакансии. Все значения рассчитываются на основе реальных данных — без ручной редакции.
Доля (share %): доля вакансий профессии, в которых упомянут навык. Одна вакансия может упоминать несколько навыков — суммарная доля может превышать 100%.
Данные по грейдам: грейд определяется по требованиям каждой вакансии (уровень опыта). Ячейки с «≈» — оценка: выборка менее 20 вакансий. Ячейки «—» — данных нет.
Связки навыков: пары, встречающиеся вместе в ≥10 вакансиях (порог надёжности данных).
Зарплатная премия: разница медианы вакансий с навыком к медиане профессии. Показывается при наличии ≥20 вакансий с зарплатой. «Оценка» — 20–29 вакансий.
Обновлено: 23 июня 2026 · 211 вакансий
Что учить инженеру данных первым
Порядок опирается на частотность навыков по данным вакансий и логику освоения специализации. Список — ориентир, не жёсткое правило.
- 1SQL (86.7%)Основа работы с данными: выборки, агрегации, JOIN, оконные функции.
- 2Python для данных (81.5%)Pandas, NumPy — базовая обработка и трансформация датасетов.
- 3ETL и пайплайны (62.1%)Построение потоков данных, оркестрация: Airflow, dbt.
- 4Хранилища данных (DWH) (45%)Аналитические СУБД и хранилища: PostgreSQL, ClickHouse, BigQuery, Redshift.
- 5Распределённые системы (51.7%)Spark, Kafka — обработка больших объёмов данных и стриминг.
- 6ML-фреймворкиScikit-learn, PyTorch, TensorFlow — для ML/AI-инженеров.
- 7MLOps и деплой моделей (16.6%)Versioning (MLflow), сервинг моделей, мониторинг дрейфа — для ML-инженеров.
- 8Облака и управляемые сервисыAWS/GCP/Azure: managed warehouses, ML-платформы, объектные хранилища.
Курсы для инженера данных
Сопоставили программы с реальным стеком из 211 вакансий — оценка соответствия рассчитана автоматически, это не реклама.