NEXUS: AI-пайплайн обработки видео
> Закрытый репозиторий. Доступен для code review по запросу.
▍ Проблематика
Контент-мейкеры, создающие видео для соцсетей, сталкиваются с бутылочным горлышком производства:
- Стоимость ручного монтажа: $50-200 за видео. При 30+ роликах/месяц — значительная статья расходов.
- Фрагментация форматов: Каждая платформа требует разные соотношения сторон (9:16, 1:1, 16:9).
- Непостоянство качества: Монтажёры выдают разное качество в зависимости от усталости.
- Время производства: Традиционный монтаж занимает часы на одно видео.
▍ Архитектура
ВХОДНОЙ ЭТАП
Декод видео (FFmpeg) → Детекция сцен → Извлечение аудио (Whisper)
↓
ML-ИНФЕРЕНС
Детекция + Трекинг лиц (ONNX, CUDA) | 12,000+ ключ.кадров/видео
↓
ВЫХОДНОЙ ПАЙПЛАЙН
Умный кроп (по лицу) → Адаптация формата (9:16/1:1/16:9) → GPU-кодирование (NVENC)Ключевые компоненты:
- Декодер видео: FFmpeg с аппаратным ускорением (CUVID).
- Детекция и трекинг лиц: ONNX нейросеть с CUDA. 12,000+ ключевых кадров на видео.
- Умный кроп: Кадрирование по лицу с динамической подстройкой.
- Адаптация формата: Автоматическая конвертация (16:9 → 9:16/1:1).
- GPU-кодировщик: NVENC H.264: в 4-10 раз быстрее CPU.
▍ Ключевые инженерные решения
Проблема
CPU-инференс ONNX для трекинга лиц занимает 15+ минут на видео.
Решение
CUDA Execution Provider для ONNX Runtime. Детекция лиц на GPU, ускорение в 4-10 раз. Весь пайплайн на GPU.
Отвергнутая альтернатива
Облачный GPU-инференс — сетевые задержки, стоимость egress, зависимость от вендора.
Проблема
Сырые bounding box детекции покадрово создают дрожащее движение камеры.
Решение
Интерполяция bounding box с экспоненциальным скользящим средним. Кинематографичное плавное панорамирование.
▍ Метрики
~3 мин / 10-мин видео
Скорость обработки
12,000+ / видео
Ключевых кадров лиц
9:16, 1:1, 16:9
Выходные форматы
4-10x vs CPU
GPU-ускорение
Константное (потоковое)
Потребление памяти
~$0 (локальный GPU)
Стоимость за видео
▍ Технологический стек
Ядро
Rust, FFmpeg, ONNX Runtime
GPU
CUDA (NVENC, CUVID, ONNX инференс)
ML
Нейросеть детекции лиц (ONNX)
Аудио
Whisper (speech-to-text для субтитров)
▍ Что демонстрирует этот проект
GPU-пайплайн инженерия
End-to-end GPU-ускоренная обработка видео: декод → инференс → кодирование.
ML-инференс в продакшне
ONNX Runtime с CUDA Execution Provider.
Потоковая архитектура
Обработка произвольно больших видео с константной памятью.
Computer Vision
Детекция лиц, трекинг, интерполяция bounding box, интеллектуальное кадрирование.
Интеграция FFmpeg
Аппаратно-ускоренное декодирование/кодирование и адаптация форматов.