← Назад к проектам

NEXUS: AI-пайплайн обработки видео

> Закрытый репозиторий. Доступен для code review по запросу.

▍ Проблематика

Контент-мейкеры, создающие видео для соцсетей, сталкиваются с бутылочным горлышком производства:

  • Стоимость ручного монтажа: $50-200 за видео. При 30+ роликах/месяц — значительная статья расходов.
  • Фрагментация форматов: Каждая платформа требует разные соотношения сторон (9:16, 1:1, 16:9).
  • Непостоянство качества: Монтажёры выдают разное качество в зависимости от усталости.
  • Время производства: Традиционный монтаж занимает часы на одно видео.

▍ Архитектура

ВХОДНОЙ ЭТАП
  Декод видео (FFmpeg) → Детекция сцен → Извлечение аудио (Whisper)
          ↓
  ML-ИНФЕРЕНС
  Детекция + Трекинг лиц (ONNX, CUDA) | 12,000+ ключ.кадров/видео
          ↓
  ВЫХОДНОЙ ПАЙПЛАЙН
  Умный кроп (по лицу) → Адаптация формата (9:16/1:1/16:9) → GPU-кодирование (NVENC)

Ключевые компоненты:

  • Декодер видео: FFmpeg с аппаратным ускорением (CUVID).
  • Детекция и трекинг лиц: ONNX нейросеть с CUDA. 12,000+ ключевых кадров на видео.
  • Умный кроп: Кадрирование по лицу с динамической подстройкой.
  • Адаптация формата: Автоматическая конвертация (16:9 → 9:16/1:1).
  • GPU-кодировщик: NVENC H.264: в 4-10 раз быстрее CPU.

▍ Ключевые инженерные решения

Проблема
CPU-инференс ONNX для трекинга лиц занимает 15+ минут на видео.
Решение
CUDA Execution Provider для ONNX Runtime. Детекция лиц на GPU, ускорение в 4-10 раз. Весь пайплайн на GPU.
Отвергнутая альтернатива
Облачный GPU-инференс — сетевые задержки, стоимость egress, зависимость от вендора.
Проблема
Сырые bounding box детекции покадрово создают дрожащее движение камеры.
Решение
Интерполяция bounding box с экспоненциальным скользящим средним. Кинематографичное плавное панорамирование.

▍ Метрики

~3 мин / 10-мин видео
Скорость обработки
12,000+ / видео
Ключевых кадров лиц
9:16, 1:1, 16:9
Выходные форматы
4-10x vs CPU
GPU-ускорение
Константное (потоковое)
Потребление памяти
~$0 (локальный GPU)
Стоимость за видео

▍ Технологический стек

Ядро
Rust, FFmpeg, ONNX Runtime
GPU
CUDA (NVENC, CUVID, ONNX инференс)
ML
Нейросеть детекции лиц (ONNX)
Аудио
Whisper (speech-to-text для субтитров)

▍ Что демонстрирует этот проект

GPU-пайплайн инженерия
End-to-end GPU-ускоренная обработка видео: декод → инференс → кодирование.
ML-инференс в продакшне
ONNX Runtime с CUDA Execution Provider.
Потоковая архитектура
Обработка произвольно больших видео с константной памятью.
Computer Vision
Детекция лиц, трекинг, интерполяция bounding box, интеллектуальное кадрирование.
Интеграция FFmpeg
Аппаратно-ускоренное декодирование/кодирование и адаптация форматов.

Готовы построить нечто подобное?

Начать проект