додому Різне Нова структура ШІ покращує ефективність агентів LLM у реальних завданнях

Різне

Нова структура ШІ покращує ефективність агентів LLM у реальних завданнях

29.11.2025

Нова структура ШІ покращує ефективність агентів LLM у реальних завданнях

Дослідники з Університету науки і технологій Китаю представили Agent-R1, нову структуру навчання з підкріпленням (RL), призначену для навчання великих мовних моделей (LLM) складним завданням на основі агентів, окрім простих завдань, таких як математика чи програмування. Цей прорив усуває критичне обмеження в поточній розробці ШІ: складність застосування LLM до динамічних, непередбачуваних сценаріїв реального світу.

Проблема з традиційним RL для агентів LLM

Навчання з підкріпленням довело ефективність у викладанні LLM у чітко визначених областях, де успіх легко виміряти (наприклад, правильна чи неправильна відповідь). Однак завдання на основі агентів — ті, які вимагають від моделей взаємодії зі змінним середовищем, керування динамічною пам’яттю та реагування на непередбачуваний зворотний зв’язок — представляють унікальні виклики.

Традиційний RL бореться, тому що:

Рідкісні винагороди: Агенти часто отримують лише один сигнал винагороди в кінці багатоетапного процесу, що ускладнює навчання з проміжних дій.
Непередбачуване середовище: взаємодії в реальному світі хаотичні й рідко відповідають чітким правилам, що ускладнює узагальнення.
Багатоходова складність: Розробити ефективні винагороди за складну багатоходову взаємодію за своєю суттю складно.

Переосмислення навчання з підкріпленням із покращеними MDP

Щоб подолати ці перешкоди, дослідники переглянули базову структуру RL, Марковський процес прийняття рішень (MDP). Вони розширили MDP, щоб краще відобразити природу агентів LLM:

Розширення простору станів: включає не лише поточний вихід, але й всю історію взаємодій і відгуків із середовища.
Визначення стохастичних переходів: Визнання того, що результати залежать як від передбачень моделі і зовнішніх факторів.
Запровадження детальних винагород: Представлення процесних винагород за успішні етапи, надання більш частих і точних інструкцій.

Цей зсув дозволяє магістрам навчання навчатися на кожному кроці складного завдання, а не лише на кінцевому результаті. Основна ідея проста: розбийте велику проблему на серію менших, корисних кроків. Це необхідно для завдань, де навчання методом проб і помилок має першочергове значення.

Agent-R1: гнучка навчальна платформа

Agent-R1 базується на цьому розширеному визначенні MDP, надаючи гнучку та зручну навчальну платформу. Фреймворк виділяється завдяки обробці багатосторонніх взаємодій за допомогою двох основних модулів:

Інструмент: виконує певні дії, такі як виклики API або запити до бази даних, і повідомляє про необроблені результати.
ToolEnv: організовує ці дії, інтерпретує їхні результати, оновлює стан агента та обчислює сигнали винагороди.

По суті, Інструмент розповідає, що сталося, а ToolEnv пояснює, що це означає. Це розділення дозволяє агенту дізнатися, як його дії впливають на середовище, що робить його набагато більш адаптивним.

Ефективність і наслідки

Дослідники перевірили Agent-R1 на багатоетапну відповідь на запитання, складне завдання, яке вимагає складних міркувань і пошуку інформації. Результати показали, що всі навчені агенти RL значно перевершили базові методи (Naive RAG і Base Tool Call), при цьому GRPO продемонстрував найкращу загальну ефективність.

Це демонструє, що Agent-R1 може навчити агентів LLM вирішувати складні проблеми з постійним вдосконаленням у порівнянні з традиційними підходами. Це має значні наслідки, особливо для корпоративних додатків, де агенти штучного інтелекту повинні працювати в динамічних, непередбачуваних середовищах.

«Ці висновки можуть мати суттєві наслідки для підприємств, де є сильне бажання застосовувати RL та міркування за межами чітко визначених областей».

Розробка Agent-R1 є значним кроком до створення агентів LLM, які можуть вирішувати реальні проблеми з більшою ефективністю та адаптивністю. Цей фреймворк відкриває шлях для нових додатків у сферах, де складні багатошляхові взаємодії та динамічні середовища є нормою.

Exit mobile version