Собрать прототип агента можно за 5 минут. Но Google утверждает: 80% усилий уходит не на "ум" модели, а на инфраструктуру, безопасность и валидацию.
Если пропустить этот этап, агент может:
- Раздать товары бесплатно (ошибка логики).
- Слить базу данных (ошибка доступа).
- Накрутить огромный счет за облако (зацикливание).
Главный принцип AgentOps - Никакая версия агента не попадает к пользователям, пока не пройдет автоматическую оценку качества.
Традиционные тесты не ловят "галлюцинации". Google предлагает конвейер из трех фаз:
1. Pre-Merge (Проверка кода)
Разработчик меняет промпт. Система автоматически прогоняет "золотой датасет" (тестовые вопросы). Если качество ответов упало - обновление блокируется.
2. Staging (Полигон)
Агент разворачивается в закрытой среде. Здесь проводят нагрузочное тестирование и "dogfooding" (тестирование сотрудниками компании).
3. Production (Безопасный запуск)
Нельзя выкатывать на 100% пользователей сразу. Используйте стратегии "Canary" (канарейку) - дайте доступ 1% пользователей или Blue-Green (мгновенное переключение между версиями), чтобы при ошибке откатиться за секунды. Следите за аномалиями, и только потом масштабируйте.
Агент автономен, поэтому статический мониторинг не работает. Нужен непрерывный цикл:
Observe (Наблюдай)
Нужна "сенсорная система":
- Логи: Факты (что произошло).
- Трейсы: История (почему агент выбрал этот путь).
- Метрики: Здоровье (скорость, стоимость, точность).
Act (Действуй)
Автоматические рефлексы системы. Если агент начал "чудить" - срабатывает автоматический выключатель, который блокирует конкретный инструмент, не роняя всю систему.
Evolve (Эволюционируй)
Стратегическое улучшение. Если 15% пользователей получают ошибку, этот сценарий добавляется в тестовый датасет, промпт правится, и цикл запускается заново.
Агента нужно защищать в три слоя:
1. Конституция (System Instructions): Четкие правила поведения, "зашитые" в промпт.
2. Стражи (Guardrails):
Фильтры на входе и выходе. Они блокируют промпт-инъекции (попытки взлома) и токсичные ответы еще до того, как они попадут к пользователю.
3. Человек в контуре (HITL - Human in the Loop):
Для рискованных операций агент обязан запросить подтверждение у человека.
В больших системах работают десятки агентов. Им нужно общаться. Google разделяет два протокола:
MCP (Model Context Protocol) - Для инструментов.
Когда агенту нужно "взять калькулятор" или "прочитать файл". Это простые команды: "сделай X, верни Y".
A2A (Agent-to-Agent) - Для делегирования целей.
Когда агенту-менеджеру нужно "проанализировать продажи". Он не говорит агенту-аналитику, какие кнопки нажимать. Он ставит цель: "Найди причины падения выручки". Агент-аналитик сам планирует работу, использует свои инструменты (через MCP) и возвращает отчет.