Решение:
Исследователи обучили ИИ-контроллер методом обучения с подкреплением (RL) — тем же, что используется в AlphaGo и других прорывных системах ИИ.
Автомобиль получает "награду" за:
- Снижение расхода топлива (не только своего, но и других участников движения)
- Плавную езду без резких маневров
- Поддержание безопасной дистанции
- Соблюдение норм обычного вождения
Основная стратегия: поддерживать чуть большую дистанцию, чем обычные водители, что позволяет плавно "амортизировать" резкие торможения впереди.