NEXUS: AI-пайплайн обработки видео

> Закрытый репозиторий. Доступен для code review по запросу.

▍ Проблематика

Контент-мейкеры, создающие видео для соцсетей, сталкиваются с бутылочным горлышком производства:

Стоимость ручного монтажа: $50-200 за видео. При 30+ роликах/месяц — значительная статья расходов.
Фрагментация форматов: Каждая платформа требует разные соотношения сторон (9:16, 1:1, 16:9).
Непостоянство качества: Монтажёры выдают разное качество в зависимости от усталости.
Время производства: Традиционный монтаж занимает часы на одно видео.

▍ Архитектура

ВХОДНОЙ ЭТАП
  Декод видео (FFmpeg) → Детекция сцен → Извлечение аудио (Whisper)
          ↓
  ML-ИНФЕРЕНС
  Детекция + Трекинг лиц (ONNX, CUDA) | 12,000+ ключ.кадров/видео
          ↓
  ВЫХОДНОЙ ПАЙПЛАЙН
  Умный кроп (по лицу) → Адаптация формата (9:16/1:1/16:9) → GPU-кодирование (NVENC)

Ключевые компоненты:

Декодер видео: FFmpeg с аппаратным ускорением (CUVID).
Детекция и трекинг лиц: ONNX нейросеть с CUDA. 12,000+ ключевых кадров на видео.
Умный кроп: Кадрирование по лицу с динамической подстройкой.
Адаптация формата: Автоматическая конвертация (16:9 → 9:16/1:1).
GPU-кодировщик: NVENC H.264: в 4-10 раз быстрее CPU.

▍ Ключевые инженерные решения

Проблема

CPU-инференс ONNX для трекинга лиц занимает 15+ минут на видео.

Решение

CUDA Execution Provider для ONNX Runtime. Детекция лиц на GPU, ускорение в 4-10 раз. Весь пайплайн на GPU.

Отвергнутая альтернатива

Облачный GPU-инференс — сетевые задержки, стоимость egress, зависимость от вендора.

Проблема

Сырые bounding box детекции покадрово создают дрожащее движение камеры.

Решение

Интерполяция bounding box с экспоненциальным скользящим средним. Кинематографичное плавное панорамирование.

▍ Метрики

~3 мин / 10-мин видео

Скорость обработки

12,000+ / видео

Ключевых кадров лиц

9:16, 1:1, 16:9

Выходные форматы

4-10x vs CPU

GPU-ускорение

Константное (потоковое)

Потребление памяти

~$0 (локальный GPU)

Стоимость за видео

▍ Технологический стек

Ядро

Rust, FFmpeg, ONNX Runtime

GPU

CUDA (NVENC, CUVID, ONNX инференс)

Нейросеть детекции лиц (ONNX)

Аудио

Whisper (speech-to-text для субтитров)

▍ Что демонстрирует этот проект

GPU-пайплайн инженерия

End-to-end GPU-ускоренная обработка видео: декод → инференс → кодирование.

ML-инференс в продакшне

ONNX Runtime с CUDA Execution Provider.

Потоковая архитектура

Обработка произвольно больших видео с константной памятью.

Computer Vision

Детекция лиц, трекинг, интерполяция bounding box, интеллектуальное кадрирование.

Интеграция FFmpeg

Аппаратно-ускоренное декодирование/кодирование и адаптация форматов.

Готовы построить нечто подобное?

Начать проект