AIRI показал ELMUR — архитектуру памяти для роботов на базе ИИ

2 мин
AIRI показал ELMUR — архитектуру памяти для роботов на базе ИИ

Ученые института AIRI представили ELMUR — архитектуру управления для роботов и ИИ-агентов, которым нужно принимать решения с учетом событий из далекого прошлого. Это важная задача для робототехники: агент может увидеть полезную информацию задолго до того, как она понадобится для действия.

Обычные трансформеры с этой задачей справляются ограниченно. Если расширять окно внимания, резко растут вычислительные затраты. Если сжимать прошлый опыт, появляется риск потерять важные детали. А внешняя память фиксированного размера не всегда позволяет надежно учитывать давние события при текущем решении.

В ELMUR хранилище встроена прямо в слои модели. Каждый слой содержит фиксированное количество слотов, которые параллельно взаимодействуют с основным потоком данных. Система может читать нужную информацию из этих ячеек и записывать туда новые информация. Если память заполняется, обновляются те слоты, которые использовались реже всего, по принципу LRU — Least Recently Used.

Такой подход даёт возможность агенту хранить важные данные за пределами обычного окна внимания без квадратичного роста вычислений. По словам исследователей, ELMUR может удерживать полезную информацию на протяжении 100 тыс. шагов вне стандартного контекста.

В тестах архитектура показала заметный итог. В синтетическом T-Maze схема смогла удерживать информацию в течение одного миллиона шагов со 100-процентной точностью. На бенчмарке MIKASA-Robo, который оценивает хранилище роботов, ELMUR почти вдвое улучшила базовые показатели и заняла первое место в 21 из 23 задач.

Главная область применения — робототехника и системы управления, где агент получает неполные визуальные сигналы и должен действовать в среде, которая меняется со временем. Например, робот может заметить объект, препятствие или подсказку в начале маршрута, а применять эту информацию только спустя множество шагов.

Следующим этапом исследователи хотят расширить подход на Visual Language Action-модели. Это направление особенно важно для роботов, которые связывают визуальное восприятие, языковые инструкции и физические действия.

Читают сейчас

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

36 минут назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

Microsoft выпустила версию PowerToys 0.100.0

2 часа назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

Апдейт Telegram: форматирование ботов и Markdown-файлы

3 часа назад

Апдейт Telegram: форматирование ботов и Markdown-файлы

Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.

Shutterstock станет «творческой платформой на основе ИИ»

4 часа назад

Shutterstock станет «творческой платформой на основе ИИ»

В Shutterstock анонсировали следующую ступень развития платформы, объединяющую библиотеку созданных людьми медиа с растущим набором инструментов на основе ИИ. Цель состоит в том, чтобы помочь пользова

Версия открытого редактора звука Audacity 3.7.8

7 часов назад

Версия открытого редактора звука Audacity 3.7.8

11 июня 2026 года состоялся выпуск открытого редактора звука Audacity 3.7.8, предоставляющего средства для редактирования звуковых файлов (Ogg Vorbis, FLAC, MP3 и WAV), записи и оцифровки звука, измен