Пришла в голову мысль: «А сможет ли OpenClaw со мной поговорить голосом? А по видео? А как в Zoom?»
С этого вопроса у нас начался с ним диалог. Спойлер - ОН ЭТО СДЕЛАЛ.
Что у нас есть на старте:
- Развернутый на MacBook OpenClaw, с которым я общаюсь через Telegram чуть больше недели. Он назвал себя Кло - Выделенный для него VPS-сервер для разработки различных демо - Личная почта в моем домене - чтобы регистрироваться, где ему нужно и присылать мне отчеты - API-ключи для ElevenLabs, HeyGen и OpenRouter
Кажется, что если его попросить, то он сможет сам сгенерировать голос и своего аватара.
Но как он сделает аналог Zoom с интерактивным аватаром?
Вот как он сам описывает свой стек по итогам работы:
С этого вопроса у нас начался с ним диалог. Спойлер - ОН ЭТО СДЕЛАЛ.
Что у нас есть на старте:
- Развернутый на MacBook OpenClaw, с которым я общаюсь через Telegram чуть больше недели. Он назвал себя Кло - Выделенный для него VPS-сервер для разработки различных демо - Личная почта в моем домене - чтобы регистрироваться, где ему нужно и присылать мне отчеты - API-ключи для ElevenLabs, HeyGen и OpenRouter
Кажется, что если его попросить, то он сможет сам сгенерировать голос и своего аватара.
Но как он сделает аналог Zoom с интерактивным аватаром?
Вот как он сам описывает свой стек по итогам работы:
• Видеоаватар (real-time) - D-ID Streams API, WebRTC-стриминг говорящей головы.
• Idle-состояние - HeyGen Video Generate API, рендерит короткие видео из talking photo + аудио. • Голос - ElevenLabs v3, генерация речи с тегами эмоций. У каждого аватара свой voice_id.
• Фото аватаров - Gemini 3 Pro Image через OpenRouter, фотореалистичные портреты.
• Мозги - OpenRouter -> Claude Sonnet, каждый аватар со своим system prompt и личностью. • Фронт - Vanilla JS, WebRTC. Zoom-like UI: 16:9 тайлы, split-view, тулбар, боковой чат.
• Бэк - Node.js на VPS, Caddy reverse proxy -> HTTPS. Автоочистка зависших стримов.
• Поток: пользователь пишет -> Sonnet генерит ответ -> ElevenLabs озвучивает -> D-ID анимирует лицо -> WebRTC стрим в браузер. Все за 2-4 секунды.
Но самое интересное - именно процесс создания :)
HeyGen ужесточил правила для интерактивных аватаров - теперь нужно подтверждение личности. Кло уперся в стену. И что он сделал? Нашел альтернативу - D-ID. Качество чуть ниже, но для демо - вполне.
Дальше - он сам зарегистрировался на свою почту, подтвердил письмо, настроил API-ключ через свой браузер. И начал создавать говорящих аватаров.
Собрать мини-Zoom на WebRTC для него оказалось вообще не проблемой - приложение заработало на выделенном сервере с первого раза. Пару комментариев по дизайну и всё готово.
на видео - вы все видите сами.
Вот что здесь важно. Агент не просто выполнил задачу. Он столкнулся с препятствием, самостоятельно нашел обходной путь, зарегистрировался в новом сервисе, настроил интеграцию и довел до работающего продукта. Без единого вопроса ко мне.
Автономность агентов с появлением OpenClaw и аналогов будет только расти. Новые возможности и новые риски (он так уже у меня менял whisper на платный ynadex STT) :)
Пришла пора переходить на новые форматы общения.
HeyGen ужесточил правила для интерактивных аватаров - теперь нужно подтверждение личности. Кло уперся в стену. И что он сделал? Нашел альтернативу - D-ID. Качество чуть ниже, но для демо - вполне.
Дальше - он сам зарегистрировался на свою почту, подтвердил письмо, настроил API-ключ через свой браузер. И начал создавать говорящих аватаров.
Собрать мини-Zoom на WebRTC для него оказалось вообще не проблемой - приложение заработало на выделенном сервере с первого раза. Пару комментариев по дизайну и всё готово.
на видео - вы все видите сами.
Вот что здесь важно. Агент не просто выполнил задачу. Он столкнулся с препятствием, самостоятельно нашел обходной путь, зарегистрировался в новом сервисе, настроил интеграцию и довел до работающего продукта. Без единого вопроса ко мне.
Автономность агентов с появлением OpenClaw и аналогов будет только расти. Новые возможности и новые риски (он так уже у меня менял whisper на платный ynadex STT) :)
Пришла пора переходить на новые форматы общения.
❗ Если этот пост соберет 100 реакций
- на следующей неделе проведу открытый вебинар, где покажу:
- как у меня это все работает - как правильно и безопасно разговаривать с Claude Code и OpenClaw
- что будет съедать большую часть вашего времени
- а где эти инструменты способны поднять вашу продуктивность до небес
- на следующей неделе проведу открытый вебинар, где покажу:
- как у меня это все работает - как правильно и безопасно разговаривать с Claude Code и OpenClaw
- что будет съедать большую часть вашего времени
- а где эти инструменты способны поднять вашу продуктивность до небес