Дослідники з Університету науки і технологій Китаю представили Agent-R1, нову структуру навчання з підкріпленням (RL), призначену для навчання великих мовних моделей (LLM) складним завданням на основі агентів, окрім простих завдань, таких як математика чи програмування. Цей прорив усуває критичне обмеження в поточній розробці ШІ: складність застосування LLM до динамічних, непередбачуваних сценаріїв реального світу.
Проблема з традиційним RL для агентів LLM
Навчання з підкріпленням довело ефективність у викладанні LLM у чітко визначених областях, де успіх легко виміряти (наприклад, правильна чи неправильна відповідь). Однак завдання на основі агентів — ті, які вимагають від моделей взаємодії зі змінним середовищем, керування динамічною пам’яттю та реагування на непередбачуваний зворотний зв’язок — представляють унікальні виклики.
Традиційний RL бореться, тому що:
- Рідкісні винагороди: Агенти часто отримують лише один сигнал винагороди в кінці багатоетапного процесу, що ускладнює навчання з проміжних дій.
- Непередбачуване середовище: взаємодії в реальному світі хаотичні й рідко відповідають чітким правилам, що ускладнює узагальнення.
- Багатоходова складність: Розробити ефективні винагороди за складну багатоходову взаємодію за своєю суттю складно.
Переосмислення навчання з підкріпленням із покращеними MDP
Щоб подолати ці перешкоди, дослідники переглянули базову структуру RL, Марковський процес прийняття рішень (MDP). Вони розширили MDP, щоб краще відобразити природу агентів LLM:
- Розширення простору станів: включає не лише поточний вихід, але й всю історію взаємодій і відгуків із середовища.
- Визначення стохастичних переходів: Визнання того, що результати залежать як від передбачень моделі і зовнішніх факторів.
- Запровадження детальних винагород: Представлення процесних винагород за успішні етапи, надання більш частих і точних інструкцій.
Цей зсув дозволяє магістрам навчання навчатися на кожному кроці складного завдання, а не лише на кінцевому результаті. Основна ідея проста: розбийте велику проблему на серію менших, корисних кроків. Це необхідно для завдань, де навчання методом проб і помилок має першочергове значення.
Agent-R1: гнучка навчальна платформа
Agent-R1 базується на цьому розширеному визначенні MDP, надаючи гнучку та зручну навчальну платформу. Фреймворк виділяється завдяки обробці багатосторонніх взаємодій за допомогою двох основних модулів:
- Інструмент: виконує певні дії, такі як виклики API або запити до бази даних, і повідомляє про необроблені результати.
- ToolEnv: організовує ці дії, інтерпретує їхні результати, оновлює стан агента та обчислює сигнали винагороди.
По суті, Інструмент розповідає, що сталося, а ToolEnv пояснює, що це означає. Це розділення дозволяє агенту дізнатися, як його дії впливають на середовище, що робить його набагато більш адаптивним.
Ефективність і наслідки
Дослідники перевірили Agent-R1 на багатоетапну відповідь на запитання, складне завдання, яке вимагає складних міркувань і пошуку інформації. Результати показали, що всі навчені агенти RL значно перевершили базові методи (Naive RAG і Base Tool Call), при цьому GRPO продемонстрував найкращу загальну ефективність.
Це демонструє, що Agent-R1 може навчити агентів LLM вирішувати складні проблеми з постійним вдосконаленням у порівнянні з традиційними підходами. Це має значні наслідки, особливо для корпоративних додатків, де агенти штучного інтелекту повинні працювати в динамічних, непередбачуваних середовищах.
«Ці висновки можуть мати суттєві наслідки для підприємств, де є сильне бажання застосовувати RL та міркування за межами чітко визначених областей».
Розробка Agent-R1 є значним кроком до створення агентів LLM, які можуть вирішувати реальні проблеми з більшою ефективністю та адаптивністю. Цей фреймворк відкриває шлях для нових додатків у сферах, де складні багатошляхові взаємодії та динамічні середовища є нормою.
