Предустановленные библиотеки на финале

Версия от 14 ноября

1. Работа с данными и форматами
  • pandas — основная работа с табличными данными
  • numpy — базовые массивы
  • scipy — статистика, расстояния
  • pyarrow — чтение/запись parquet
  • fastparquet — альтернативный движок parquet
  • polars — если кто-то захочет ускориться
  • tqdm — прогресс-бары
  • openpyxl — если вдруг нужно будет читать/писать xlsx
  • python-dotenv — если захотите класть конфиги в .env
  • joblib — кэширование и сериализация
  • category-encoders — кодирование категориальных признаков
  • imbalanced-learn — методы балансировки классов в табличных данных (SMOTE, RandomUnderSampler)
2. Работа с временными рядами и сигналами
  • statsmodels — классические статистические модели и анализ временных рядов (ARIMA, SARIMA, ETS);
  • tsfresh — автоматическое извлечение признаков из временных рядов;
  • prophet — прогнозирование временных рядов;
  • sktime — ML-инструменты для анализа временных рядов;
  • ruptures — обнаружение точек изменений в последовательностях.
3. Работа с графами и сетями
  • networkx — базовые алгоритмы и визуализация графов;
  • igraph — быстрые операции над большими графами;
  • pyg (или torch-geometric) — библиотека для графовых нейросетей;
  • stellargraph — графовые представления и link-prediction.
4. Аудио / видео обработка
  • librosa — анализ аудио-сигналов и извлечение признаков;
  • pydub — базовые преобразования и конвертация форматов;
  • soundfile, audioread — чтение и запись звуковых файлов;
  • moviepy — обработка и генерация видео;
  • imageio[ffmpeg] — чтение и запись кадров;
  • torchaudio — модули для аудио в составе PyTorch.
5. NLP / поиск / RAG-компоненты
  • nltk — токенизация, стемминг, работа со стоп-словами;
  • spacy (с базовой английской моделью) — парсинг и нормализация текстов;
  • sentencepiece, sacremoses — токенайзеры, необходимые для старых моделей;
  • rapidfuzz — быстрые символьные сравнения и расчёт схожести строк;
  • rank-bm25 — реализация классического алгоритма поиска BM25;
  • sentence-transformers — генерация эмбеддингов для поиска и классификации текстов;
  • faiss-cpu, faiss-gpu — хранение и поиск по векторам эмбеддингов;
  • huggingface-hub — доступ к локально сохранённым моделям и токенайзерам (режим офлайн);
6. Компьютерное зрение / работа с изображениями
  • opencv-python — чтение/преобразование изображений
  • Pillow (PIL) — базовые операции
  • scikit-image — доп. обработка изображений
  • albumentations — аугментации
  • timm — много готовых визуальных архитектур (если кому-то надо дообучить/доиспользовать)
  • torchvision — стандартные датасеты/трансформации
  • pyyaml — потому что многие CV-конфиги любят yaml
7. ML / DL стек
  • PyTorch: torch (с поддержкой CUDA)
  • torchvision
  • scikit-learn — классика: масштабирование, метрики, модели, train/test split
  • xgboost — на случай, если кто-то захочет табличку решить бустингом
  • lightgbm — аналогично
  • catboost — иногда проще табличное сделать именно им
  • optuna или scikit-optimize — если кто-то захочет автотюнить
  • mlflow (опционально) — трекинг экспериментов
  • bitsandbytes — необходимая оптимизация
  • peft (опционально) — оптимизация для дообучения модели
  • xformers (опционально) — оптимизация (ускорение инференса/обучения)
  • LightAutoML — автоматизированный ML-фреймворк для табличных данных (автотюнинг, кросс-валидация, интерпретация моделей)
8. Метрики и утилиты для соревнований
  • scikit-learn уже включает много метрик (MAE, MSE, cosine_similarity и т.п.)
  • torchmetrics — если участники будут считать метрики на GPU
  • pytorch-lightning (опционально) — чтобы быстро собрать тренинг-луп
  • matplotlib — графики
  • seaborn — EDA
  • plotly (опционально) — интерактив, но можно не ставить всем
  • phik — анализ корреляций (EDA)
  • shap — интерпретация моделей, оценка вклада признаков
  • captum — интерпретация моделей на PyTorch (атрибуция важности признаков и слоёв нейросетей)
9. Инженерные утилиты
  • psutil — мониторинг ресурсов
  • uvicorn / fastapi (опционально) — если кто-то хочет локально обернуть модель в сервис
  • jinja2 — для генерации html/текстов
  • rich — красивый вывод логов
  • loguru — удобный логгер
  • pytest — чтобы участники могли тесты гонять локально
  • ipykernel — ядро Jupyter для работы в VS Code и JupyterLab
10. Системные/внешние зависимости (для образа)
  • git – только чтение, без пуша
  • ffmpeg – если запись/преобразование видео вдруг понадобится
  • libgl1 / libglib2.0-0 – чтобы opencv не ругался на Ubuntu
  • unzip, zip, 7zip, tar – распаковка архивов
  • wget, curl – загрузка локальных файлов по URL (внутри кластера)
  • htop — мониторинг нагрузки
  • nano, vim — базовые текстовые редакторы в консоли
  • tmux — для устойчивой работы с сессиями в терминале при использовании SSH-доступа
  • nvtop — мониторинг GPU
  • tree — просмотр структуры каталогов
11. Для командного тура
  • sumolib - Вспомогательная библиотека Python для чтения и модификации файлов SUMO (сетей, маршрутов, логов). Обычно устанавливается вместе с SUMO, но лучше явно включить.
  • traci - Основной API для взаимодействия с SUMO из Python: управление трафиком, светофорами, сбор статистики.
  • eclipse-sumo - Обёртка для установки SUMO через pip, включает бинарные утилиты и TraCI. Если устанавливается из архива — указать локальный путь в образе.
  • xmltodict - Преобразование XML ↔ dict (SUMO использует XML для маршрутов, сетей и сигналов).
  • plotly (опционально) - Для визуализации траекторий и временных рядов при защите проекта.
  • subprocess (встроенный модуль) - Не требует установки, нужен для запуска SUMO через скрипты.
12. Работа с Retrieval-Augmented Generation (RAG) и локальными моделями
  • vLLM — GPU-оптимизированный сервер инференса (совместимая версия с CUDA A100);
  • SGLang
  • llama.cpp — CPU/GPU-fallback для запуска квантованных моделей.
  • transformers — базовая библиотека для инференса моделей;
  • accelerate — оптимизация вычислений на CPU и GPU;
  • datasets — работа с датасетами HF;
  • bitsandbytes — 4/8-битная квантизация весов;
  • peft — адаптеры LoRA и QLoRA для тонкой настройки моделей;
  • triton — ускоренные CUDA-ядра для квантованных моделей;
  • trl — инструменты HF для дообучения и RLHF.
  • langchain, langchain-core, langchain-community, langchain-text-splitters, langchain-qdrant, chromadb — построение RAG-цепочек и локальных векторных баз.
13. Что запрещено к установке
Не допускается установка или использование пакетов, обращающихся к внешним генеративным сервисам или облачным вычислительным платформам, в том числе:
  • openai, google-generativeai, anthropic, groq, mistralai и другие аналогичные клиенты публичных API;
  • клиенты облачных сред (colab, runpod, replicate, vercel, paperspace и т.п.);
  • любые пакеты или скрипты, создающие исходящие сетевые соединения для инференса или загрузки моделей.