Google представила DiffusionGemma — новую модель искусственного интеллекта, способную генерировать текст со скоростью более 1 000 токенов в секунду при использовании NVIDIA H100. В отличие от традиционных autoregressive моделей, где текст создаётся посимвольно, DiffusionGemma генерирует целые блоки из 256 токенов одновременно, что обеспечивает вчетверо большую скорость. Модель доступна бесплатно с лицензией Apache 2.0 на Hugging Face.
Технология основывается на текстовой диффузии: генерация начинается с шума, который постепенно уточняется, пока не появится осмысленный текст. Такой подход позволяет обрабатывать зависимые между собой части текста одновременно, обеспечивая двунаправленное внимание и улучшая качество для задач с жёсткими ограничениями — например, автозаполнение кода или структурированный вывод. В демонстрационном задании по решению судоку модель показала 80% точности после дообучения против нуля у базовой версии.
Однако возможности DiffusionGemma пока ограничены из-за отсутствия специального модуля drafter для локального запуска — он необходим для параллельного предсказания блоков токенов. Этот компонент ещё не реализован в популярных фреймворках, что затрудняет использование модели на обычных пользовательских устройствах. Кроме того, модель уже идет с контекстом в 8192 токена, что ниже требований некоторых автономных систем, например Hermes Agent, и требует ручной настройки.
На сегодняшний день DiffusionGemma ориентирована прежде всего на разработчиков с NVIDIA RTX 4090 и 5090, создающих решения для интерактивного редактирования и быстрой генерации. После доработки поддержки модель сможет расширить сферу применения и объяснить новые пути генерации, недоступные классическим архитектурам. Важно, что Google продолжает развивать открытую стратегию, делая технологии доступными для сообщества.
В перспективе, когда экосистема инфраструктуры догонит возможности DiffusionGemma, она может стать основой для гораздо более быстрых и мощных языковых моделей в самых разных областях.
