Новая структура ИИ повышает эффективность LLM-агентов в реальных задачах

3

Исследователи из Университета науки и технологий Китая представили Agent-R1 – новую структуру обучения с подкреплением (RL), разработанную для обучения больших языковых моделей (LLM) сложным агентным задачам, выходящим за рамки простых проблем, таких как математика или программирование. Этот прорыв решает критическое ограничение в текущей разработке ИИ: сложность применения LLM к динамичным, непредсказуемым сценариям реального мира.

Проблема традиционного RL для LLM-агентов

Обучение с подкреплением доказало свою эффективность в обучении LLM в четко определенных областях, где успех легко измерить (например, правильный или неправильный ответ). Однако агентные задачи – те, которые требуют от моделей взаимодействия с изменяющимися средами, управления динамической памятью и реагирования на непредсказуемую обратную связь – представляют собой уникальные проблемы.

Традиционный RL испытывает трудности, потому что:

  • Редкие награды: Агенты часто получают только один сигнал вознаграждения в конце многоступенчатого процесса, что затрудняет обучение на промежуточных действиях.
  • Непредсказуемые среды: Взаимодействия в реальном мире хаотичны и редко следуют четким правилам, что затрудняет обобщение.
  • Многоходовая сложность: Разработка эффективных наград для сложных многоходовых взаимодействий по своей сути сложна.

Переосмысление обучения с подкреплением с расширенными MDP

Чтобы преодолеть эти препятствия, исследователи пересмотрели основную структуру RL, Марковское процесс принятия решений (MDP). Они расширили MDP, чтобы лучше отразить природу LLM-агентов, путем:

  1. Расширения пространства состояний: Включая не только текущий вывод, но и всю историю взаимодействий и обратной связи от окружающей среды.
  2. Определения стохастических переходов: Признавая, что результаты зависят как от прогнозов модели, так и от внешних факторов.
  3. Внедрения гранулированных наград: Представляя процессные награды за успешные промежуточные шаги, обеспечивая более частые и точные указания.

Этот сдвиг позволяет LLM учиться на каждом этапе сложной задачи, а не только по конечному результату. Основная идея проста: разбивайте большую проблему на серию меньших, вознаграждаемых шагов. Это необходимо для задач, где обучение методом проб и ошибок имеет первостепенное значение.

Agent-R1: Гибкая платформа обучения

Agent-R1 построен на этом расширенном определении MDP, предоставляя гибкую и удобную платформу обучения. Структура выделяется благодаря своей обработке многоходовых взаимодействий через два основных модуля:

  • Tool (Инструмент): Выполняет конкретные действия, такие как вызовы API или запросы к базе данных, и сообщает о необработанных результатах.
  • ToolEnv (Среда инструмента): Организует эти действия, интерпретирует их результаты, обновляет состояние агента и вычисляет сигналы вознаграждения.

По сути, Tool сообщает что произошло, а ToolEnv объясняет что это значит. Это разделение позволяет агенту учиться тому, как его действия влияют на окружающую среду, делая его гораздо более адаптивным.

Производительность и последствия

Исследователи протестировали Agent-R1 на многошаговом ответе на вопросы, сложной задаче, требующей сложного рассуждения и поиска информации. Результаты показали, что все обученные RL-агенты значительно превзошли базовые методы (Naive RAG и Base Tool Call), причем GRPO продемонстрировал наилучшую общую производительность.

Это демонстрирует, что Agent-R1 может обучать LLM-агентов решать сложные проблемы с постоянным улучшением по сравнению с традиционными подходами. Последствия существенны, особенно для корпоративных приложений, где ИИ-агентам необходимо работать в динамичных, непредсказуемых условиях.

«Эти выводы могут иметь большое значение для предприятий, где существует сильное стремление к применению RL и рассуждений за пределы четко определенных областей.»

Разработка Agent-R1 представляет собой значительный шаг к созданию LLM-агентов, способных решать реальные проблемы с большей эффективностью и адаптивностью. Эта структура прокладывает путь к новым приложениям в областях, где сложные многоходовые взаимодействия и динамичные среды являются нормой.