• Видеоаватар (real-time) - D-ID Streams API, WebRTC-стриминг говорящей головы.
• Idle-состояние - HeyGen Video Generate API, рендерит короткие видео из talking photo + аудио. • Голос - ElevenLabs v3, генерация речи с тегами эмоций. У каждого аватара свой voice_id.
• Фото аватаров - Gemini 3 Pro Image через OpenRouter, фотореалистичные портреты.
• Мозги - OpenRouter -> Claude Sonnet, каждый аватар со своим system prompt и личностью. • Фронт - Vanilla JS, WebRTC. Zoom-like UI: 16:9 тайлы, split-view, тулбар, боковой чат.
• Бэк - Node.js на VPS, Caddy reverse proxy -> HTTPS. Автоочистка зависших стримов.
• Поток: пользователь пишет -> Sonnet генерит ответ -> ElevenLabs озвучивает -> D-ID анимирует лицо -> WebRTC стрим в браузер. Все за 2-4 секунды.