LLM Chain
ComfyUI
Python
Local GPU
TikTok / YouTube Shorts
Локальная AI‑фабрика контента
От парсинга трендов до генерации и публикации видео на локальных мощностях.
Задача
Разработать end-to-end пайплайн, который автоматически превращает пользовательский контент в готовые
короткие видео с персонажем, живой речью и кинематографической обработкой.
Система должна работать с минимальным участием человека, полностью на
локальной инфраструктуре, с возможностью серверного деплоя и оптимизацией под низкозатратные LLM.
Как это работает
Процесс выстроен из 8 этапов, работающих в автоматическом режиме:
- Парсинг Reddit — система собирает топовые истории из выбранных сабреддитов,
фильтруя их по длине, качеству и уникальности
- Многоступенчатая LLM-цепочка — контент проходит последовательную обработку:
сжатие, структурирование, редактирование и преобразование в короткий диалог
- Автоматическая режиссура — финальная LLM-ступень превращает готовый текст в
раскадровку: каждой фразе назначается тип плана от сверхкрупного до общего, поведение персонажа
и движение камеры — монтажный ритм выстраивается автоматически по правилам кинематографа
- Генерация кадров (ComfyUI) — сцены создаются через Flux с использованием Redux
для консистентного персонажа и интеграции в локации
- Анимация и озвучка (ComfyUI) — LTX-Video анимирует статичные кадры и
синтезирует речь непосредственно внутри видео на основе текстового сценария и образца речи
- Сборка видео — сцены автоматически объединяются в единый ролик
- Субтитры — Whisper выполняет точную транскрипцию речи, после чего генерируются
и вшиваются ASS-субтитры
- Постобработка — финальный визуальный проход в Blender с применением линзовых и
кинематографических эффектов
- Автопубликация — готовые видео автоматически публикуются по расписанию через
YouTube Data API v3, TikTok Content Posting API и Meta Graph API (Instagram Reels)
Ключевые решения
Пакетная генерация. Система создает несколько видео за один цикл, снижая
общее время генерации, за счет параллельных процессов.
Многоступенчатая LLM-обработка. Текст проходит через цепочку независимых
стадий, что снимает ограничения моделей по длине и сложности и позволяет стабильно получать
управляемый результат.
Сценарная архитектура видео. Каждый ролик строится по фиксированной
драматургии: хук, развитие, финал — обеспечивая удержание внимания и предсказуемое качество
подачи.
Система персонажей и локаций. Поддержка нескольких персонажей с быстрым
переключением и независимым управлением сценами, что позволяет варьировать визуал без
пересборки пайплайна.
Динамическая длительность. Продолжительность ролика рассчитывается
автоматически на основе объёма текста, исключая обрывы, затянутые паузы и ручную подгонку.
Автономная отказоустойчивость. Каждый этап контролируется системой: при
сбоях пайплайн обходит проблемные задачи и продолжает выполнение без вмешательства.
Контент-адаптивная генерация. Поведение персонажей, интонация озвучки и
визуальный стиль автоматически подстраиваются под конкретную историю, формируя цельное
восприятие без ручной режиссуры.
Результаты и производительность
При использовании одного GPU RTX 4090 система генерирует в среднем
3 видео в час в FHD-разрешении длиной от 20 до 45 секунд. В режиме работы 24/7 это
обеспечивает производственную мощность около 72 готовых роликов в сутки.
На данный момент пайплайн запущен автономно и ежедневно публикует контент через официальные API на
площадках:
Стек
Python
ComfyUI API
LTX-Video (I2V)
Flux Redux (IP-Adapter)
OpenRouter
DeepSeek V3.2
Minimax M2.7
Gemini Flash
Faster-Whisper
ffmpeg
Blender
Reddit JSON API
Meta Graph API (Instagram)
YouTube Data API v3
TikTok Content Posting API