Российские исследователи разработали модели для перевода устных математических формул в LaTeX

2 мин
Российские исследователи разработали модели для перевода устных математических формул в LaTeX

Исследователи из AIRI, Иннополиса, МТУСИ, НИУ ВШЭ и МГУ представили открытый датасет и набор решений для задачи Speech-to-LaTeX — перевода надиктованных математических формул в структурированную запись. Речь идёт о системе, которая позволяет произнести формулу вслух и получить на выходе текст в формате LaTeX, который используется в научных статьях, учебных материалах и редакторах вроде Overleaf.

Проблема здесь сложнее обычного распознавания речи. Математическая речь содержит вложенные конструкции, неоднозначные формулировки и сильно зависит от контекста: одна и та же фраза может соответствовать нескольким разным записям. Разработчики отмечают, что одной из главных проблем в этой области долгое время было отсутствие крупных открытых наборов данных именно с живыми аудиозаписями математической речи.

Для решения этой проблемы исследователи собрали собственный датасет. В него вошли более 66 тысяч человеческих аудиозаписей и приблизительно 571 тысячи синтетических, а также приблизительно 12 тысяч уникальных математических предложений и 10,7 тысячи отдельных уравнений на русском и английском языках. По задумке авторов, сочетание реальной и синтетической речи должно помочь моделям лучше функционировать с разными голосами, акцентами и произношением.

В работе сравнивались два подхода. Начальный — ASR post-correction: сначала аудио превращается в обычный текст системой распознавания речи, а затем языковая схема исправляет итог и переводит его в корректный LaTeX. Второй — end-to-end Audio-LLM, где схема обучается напрямую принимать аудио и сразу выдавать формулу. По данным исследователей, лучшие результаты представил именно end-to-end решение, но он требует гораздо больше вычислительных ресурсов и более крупных моделей.

Следовательно практическим компромиссом авторы считают первый вариант — связку ASR и постобработки языковой моделью примерно на 0,5–1,5 млрд параметров. Такой решение даёт более реалистичный баланс между качеством и стоимостью внедрения. Помимо этого, сами исследователи считают, что их датасет может пригодиться не только для Speech-to-LaTeX, но и для других задач, связанных с анализом речи: от голосовой биометрии до систем защиты от подделки голоса.

На практике такой средство может быть полезен в образовании, научной работе и редакторах технических текстов — везде, где математические записи приходится вводить вручную и где голосовой интерфейс мог бы серьёзно ускорить работу. Для российского AI-сегмента это ещё и редкий пример не абстрактной “модели для всего”, а довольно конкретного исследовательского инструмента с понятной областью применения.

Читают сейчас

13 минут назад

Минцифры разъяснило порядок включения НКО в «белый список»

Редакция портала «Милосердие.ru» направила запрос в Минцифры России с просьбой разъяснить, каким образом некоммерческие организации могут подать заявку на включение своих интернет‑ресурсов в так назыв

Стартап-компания Crosby стартовал проводить собеседования по воскресеньям, чтобы соискателю не нужно было брать выходной

24 минуты назад

Стартап-компания Crosby стартовал проводить собеседования по воскресеньям, чтобы соискателю не нужно было брать выходной

Стартап Crosby стартовал проводить собеседования по воскресеньям, чтобы кандидатам не приходилось брать выходной или тратить отпуск ради поиска работы. Об этом рассказал основатель компании Райан Дэни

Агентство Bloomberg напомнило, каких новинок ждут от Apple под руководством Джона Тернуса

1 час назад

Агентство Bloomberg напомнило, каких новинок ждут от Apple под руководством Джона Тернуса

Спустя почти 15 лет на посту гендиректора Apple Тим Кук заявил об отставке. Его преемником станет Джон Тернус, старший вице‑президент компании по разработке аппаратного обеспечения. Издание Bloomberg

1 час назад

Власти и эксперты оценили влияние ИИ на образование и литературную сферу

Технологии искусственного интеллекта всё активнее внедряются в российскую систему образования и уже используются на разных уровнях — от средней до высшей школы. При этом представители образовательного

И это ваш AGI? DeepSeek V4 допустил мрачную ошибку в задаче про апельсины и нож

1 час назад

И это ваш AGI? DeepSeek V4 допустил мрачную ошибку в задаче про апельсины и нож

В соцсетях разошелся скрин с ответом DeepSeek V4 на простую головоломку: как поровну разделить четыре одинаковых апельсина между четырьмя детьми, если есть только один нож. На скрине схема выбирает са