1. Работа с данными и форматами- pandas — основная работа с табличными данными
- numpy — базовые массивы
- scipy — статистика, расстояния
- pyarrow — чтение/запись parquet
- fastparquet — альтернативный движок parquet
- polars — если кто-то захочет ускориться
- tqdm — прогресс-бары
- openpyxl — если вдруг нужно будет читать/писать xlsx
- python-dotenv — если захотите класть конфиги в .env
- joblib — кэширование и сериализация
- category-encoders — кодирование категориальных признаков
- imbalanced-learn — методы балансировки классов в табличных данных (SMOTE, RandomUnderSampler)
2. Работа с временными рядами и сигналами- statsmodels — классические статистические модели и анализ временных рядов (ARIMA, SARIMA, ETS);
- tsfresh — автоматическое извлечение признаков из временных рядов;
- prophet — прогнозирование временных рядов;
- sktime — ML-инструменты для анализа временных рядов;
- ruptures — обнаружение точек изменений в последовательностях.
3. Работа с графами и сетями- networkx — базовые алгоритмы и визуализация графов;
- igraph — быстрые операции над большими графами;
- pyg (или torch-geometric) — библиотека для графовых нейросетей;
- stellargraph — графовые представления и link-prediction.
4. Аудио / видео обработка- librosa — анализ аудио-сигналов и извлечение признаков;
- pydub — базовые преобразования и конвертация форматов;
- soundfile, audioread — чтение и запись звуковых файлов;
- moviepy — обработка и генерация видео;
- imageio[ffmpeg] — чтение и запись кадров;
- torchaudio — модули для аудио в составе PyTorch.
5. NLP / поиск / RAG-компоненты- nltk — токенизация, стемминг, работа со стоп-словами;
- spacy (с базовой английской моделью) — парсинг и нормализация текстов;
- sentencepiece, sacremoses — токенайзеры, необходимые для старых моделей;
- rapidfuzz — быстрые символьные сравнения и расчёт схожести строк;
- rank-bm25 — реализация классического алгоритма поиска BM25;
- sentence-transformers — генерация эмбеддингов для поиска и классификации текстов;
- faiss-cpu, faiss-gpu — хранение и поиск по векторам эмбеддингов;
- huggingface-hub — доступ к локально сохранённым моделям и токенайзерам (режим офлайн);
6. Компьютерное зрение / работа с изображениями- opencv-python — чтение/преобразование изображений
- Pillow (PIL) — базовые операции
- scikit-image — доп. обработка изображений
- albumentations — аугментации
- timm — много готовых визуальных архитектур (если кому-то надо дообучить/доиспользовать)
- torchvision — стандартные датасеты/трансформации
- pyyaml — потому что многие CV-конфиги любят yaml
7. ML / DL стек- PyTorch: torch (с поддержкой CUDA)
- torchvision
- scikit-learn — классика: масштабирование, метрики, модели, train/test split
- xgboost — на случай, если кто-то захочет табличку решить бустингом
- lightgbm — аналогично
- catboost — иногда проще табличное сделать именно им
- optuna или scikit-optimize — если кто-то захочет автотюнить
- mlflow (опционально) — трекинг экспериментов
- bitsandbytes — необходимая оптимизация
- peft (опционально) — оптимизация для дообучения модели
- xformers (опционально) — оптимизация (ускорение инференса/обучения)
- LightAutoML — автоматизированный ML-фреймворк для табличных данных (автотюнинг, кросс-валидация, интерпретация моделей)
8. Метрики и утилиты для соревнований- scikit-learn уже включает много метрик (MAE, MSE, cosine_similarity и т.п.)
- torchmetrics — если участники будут считать метрики на GPU
- pytorch-lightning (опционально) — чтобы быстро собрать тренинг-луп
- matplotlib — графики
- seaborn — EDA
- plotly (опционально) — интерактив, но можно не ставить всем
- phik — анализ корреляций (EDA)
- shap — интерпретация моделей, оценка вклада признаков
- captum — интерпретация моделей на PyTorch (атрибуция важности признаков и слоёв нейросетей)
9. Инженерные утилиты- psutil — мониторинг ресурсов
- uvicorn / fastapi (опционально) — если кто-то хочет локально обернуть модель в сервис
- jinja2 — для генерации html/текстов
- rich — красивый вывод логов
- loguru — удобный логгер
- pytest — чтобы участники могли тесты гонять локально
- ipykernel — ядро Jupyter для работы в VS Code и JupyterLab
10. Системные/внешние зависимости (для образа)- git – только чтение, без пуша
- ffmpeg – если запись/преобразование видео вдруг понадобится
- libgl1 / libglib2.0-0 – чтобы opencv не ругался на Ubuntu
- unzip, zip, 7zip, tar – распаковка архивов
- wget, curl – загрузка локальных файлов по URL (внутри кластера)
- htop — мониторинг нагрузки
- nano, vim — базовые текстовые редакторы в консоли
- tmux — для устойчивой работы с сессиями в терминале при использовании SSH-доступа
- nvtop — мониторинг GPU
- tree — просмотр структуры каталогов
11. Для командного тура- sumolib - Вспомогательная библиотека Python для чтения и модификации файлов SUMO (сетей, маршрутов, логов). Обычно устанавливается вместе с SUMO, но лучше явно включить.
- traci - Основной API для взаимодействия с SUMO из Python: управление трафиком, светофорами, сбор статистики.
- eclipse-sumo - Обёртка для установки SUMO через pip, включает бинарные утилиты и TraCI. Если устанавливается из архива — указать локальный путь в образе.
- xmltodict - Преобразование XML ↔ dict (SUMO использует XML для маршрутов, сетей и сигналов).
- plotly (опционально) - Для визуализации траекторий и временных рядов при защите проекта.
- subprocess (встроенный модуль) - Не требует установки, нужен для запуска SUMO через скрипты.
12. Работа с Retrieval-Augmented Generation (RAG) и локальными моделями- vLLM — GPU-оптимизированный сервер инференса (совместимая версия с CUDA A100);
- SGLang
- llama.cpp — CPU/GPU-fallback для запуска квантованных моделей.
- transformers — базовая библиотека для инференса моделей;
- accelerate — оптимизация вычислений на CPU и GPU;
- datasets — работа с датасетами HF;
- bitsandbytes — 4/8-битная квантизация весов;
- peft — адаптеры LoRA и QLoRA для тонкой настройки моделей;
- triton — ускоренные CUDA-ядра для квантованных моделей;
- trl — инструменты HF для дообучения и RLHF.
- langchain, langchain-core, langchain-community, langchain-text-splitters, langchain-qdrant, chromadb — построение RAG-цепочек и локальных векторных баз.
13. Что запрещено к установкеНе допускается установка или использование пакетов, обращающихся к внешним генеративным сервисам или облачным вычислительным платформам, в том числе:
- openai, google-generativeai, anthropic, groq, mistralai и другие аналогичные клиенты публичных API;
- клиенты облачных сред (colab, runpod, replicate, vercel, paperspace и т.п.);
- любые пакеты или скрипты, создающие исходящие сетевые соединения для инференса или загрузки моделей.