Nový rámec umělé inteligence zlepšuje efektivitu agentů LLM v úkolech v reálném světě

20

Výzkumníci z University of Science and Technology of China představili Agent-R1, nový rámec pro výuku posílení (RL) navržený k trénování velkých jazykových modelů (LLM) na komplexních úlohách založených na agentech, které přesahují jednoduché problémy, jako je matematika nebo programování. Tento průlom řeší zásadní omezení současného vývoje umělé inteligence: obtížnost aplikace LLM na dynamické, nepředvídatelné scénáře reálného světa.

Problém s tradičním RL pro agenty LLM

Posílené učení se ukázalo jako účinné při výuce LLM v dobře definovaných oblastech, kde lze úspěch snadno měřit (např. správná nebo nesprávná odpověď). Avšak úlohy založené na agentech – ty, které vyžadují, aby modely interagovaly s měnícím se prostředím, spravovaly dynamickou paměť a reagovaly na nepředvídatelnou zpětnou vazbu – představují jedinečné výzvy.

Tradiční RL bojuje, protože:

  • Nízké odměny: Agenti často obdrží pouze jeden signál odměny na konci vícestupňového procesu, takže je obtížné učit se z mezikroků.
  • Nepředvídatelná prostředí: Interakce v reálném světě jsou chaotické a zřídka se řídí jasnými pravidly, což ztěžuje zobecnění.
  • Obtížnost ve více kolech: Navrhování efektivních odměn za složité interakce ve více kolech je ze své podstaty obtížné.

Znovuobjevení posilovacího učení s vylepšenými MDP

K překonání těchto překážek výzkumníci revidovali základní strukturu RL, Markovův rozhodovací proces (MDP). Rozšířili MDP, aby lépe odrážel povahu agentů LLM:

  1. Rozšíření státního prostoru: Včetně nejen aktuálního výstupu, ale i celé historie interakcí a zpětné vazby z okolí.
  2. Definice stochastických přechodů: Uvědomte si, že výsledky závisí na modelových předpovědích a vnějších faktorech.
  3. Implementujte podrobné odměny: Představujeme procesní odměny za úspěšné milníky, které poskytují častější a přesnější pokyny.

Tento posun umožňuje LLM učit se z každého kroku složitého úkolu, nejen z konečného výsledku. Základní myšlenka je jednoduchá: rozdělte velký problém na řadu menších, přínosných kroků. To je nezbytné pro úkoly, kde má prvořadý význam učení metodou pokusu a omylu.

Agent-R1: Flexibilní výuková platforma

Agent-R1 staví na této rozšířené definici MDP a poskytuje flexibilní a uživatelsky přívětivou výukovou platformu. Rámec vyniká díky zpracování vícesměrných interakcí prostřednictvím dvou hlavních modulů:

  • Nástroj: Provádí specifické akce, jako jsou volání API nebo databázové dotazy, a hlásí nezpracované výsledky.
  • ToolEnv: Organizuje tyto akce, interpretuje jejich výsledky, aktualizuje stav agenta a vypočítává signály odměn.

Tool v podstatě říká, co se stalo, a ToolEnv ​​​​vysvětluje, co to znamená. Toto oddělení umožňuje agentovi zjistit, jak jeho akce ovlivňují prostředí, a tím je mnohem přizpůsobivější.

Výkon a důsledky

Výzkumníci testovali Agent-R1 na vícekrokové zodpovězení otázek, což je složitý úkol vyžadující komplexní uvažování a vyhledávání informací. Výsledky ukázaly, že všichni vyškolení RL agenti výrazně překonali základní metody (Naive RAG a Base Tool Call), přičemž GRPO prokázalo nejlepší celkový výkon.

To ukazuje, že Agent-R1 může školit LLM agenty k řešení složitých problémů s neustálým zlepšováním oproti tradičním přístupům. Důsledky jsou významné, zejména pro podnikové aplikace, kde agenti AI potřebují pracovat v dynamických, nepředvídatelných prostředích.

“Tato zjištění mohou mít významné důsledky pro podniky, kde existuje silná touha aplikovat RL a uvažování mimo dobře definované oblasti.”

Vývoj Agent-R1 představuje významný krok k vytvoření LLM agentů, kteří dokážou řešit skutečné problémy s větší efektivitou a adaptabilitou. Tento rámec připravuje cestu pro nové aplikace v oblastech, kde jsou komplexní vícecestné interakce a dynamická prostředí normou.