Лаборатория Google DeepMind открыла публичный доступ к Genie 3 — третьему поколению «модели мира», о которой мы уже подробно писали. Теперь любой пользователь может генерировать интерактивные виртуальные среды по текстовому описанию, свободно перемещаться в них и управлять ими в реальном времени.
Практически одновременно компания Waymo, разрабатывающая автопилотное такси, представила Waymo World Model — специализированную версию Genie 3 для симуляции автономного вождения.
Waymo World Model генерирует реалистичные данные с камер и лидаров, воспроизводя то, как автопилот «видит» дорожную ситуацию. Благодаря базовым знаниям Genie 3 о физическом мире система симулирует исключительно редкие события: торнадо, наводнения, встречу со слоном на дороге или неисправный грузовик во встречном направлении.
Модель поддерживает три типа управления: команды вождения (проверка альтернативных маневров), изменение дорожной сцены (расстановка объектов, светофоров) и текстовые запросы (смена времени суток, погоды). Waymo World Model может также преобразовывать видео с обычных регистраторов в мультисенсорную симуляцию.
Почему это важно?
Случай с Waymo демонстрирует одно из ключевых применений «моделей мира» — генерацию обучающих и тестовых данных для роботов и автономных систем. Такие модели могут создавать сотни часов симуляций редких ситуаций, которые сложно собрать в реальности, будь то приготовление еды для обучения роботов или экстремальные дорожные условия для беспилотников.