Nieuw AI-framework verbetert de prestaties van LLM-agenten bij taken in de echte wereld

25

Onderzoekers van de Universiteit voor Wetenschap en Technologie van China hebben Agent-R1 onthuld, een nieuw raamwerk voor versterkend leren (RL) dat is ontworpen om grote taalmodellen (LLM’s) te trainen voor complexe, agentische taken die verder gaan dan eenvoudige problemen zoals wiskunde of coderen. Deze doorbraak pakt een cruciale beperking in de huidige AI-ontwikkeling aan: de moeilijkheid om LLM’s toe te passen op dynamische, onvoorspelbare scenario’s uit de echte wereld.

Het probleem met traditionele RL voor LLM-agenten

Versterkend leren is effectief gebleken voor het trainen van LLM’s in goed gedefinieerde domeinen, waar succes gemakkelijk kan worden gemeten (bijvoorbeeld correcte versus onjuiste antwoorden). Echter, agentische taken – taken waarbij modellen nodig zijn om te communiceren met evoluerende omgevingen, dynamische herinneringen te beheren en te reageren op onvoorspelbare feedback – brengen unieke uitdagingen met zich mee.

Traditionele RL worstelt omdat:

  • Schaarse beloningen: Agenten ontvangen vaak slechts één beloningssignaal aan het einde van een proces dat uit meerdere stappen bestaat, waardoor het moeilijk is om van tussenliggende acties te leren.
  • Onvoorspelbare omgevingen: Interacties in de echte wereld zijn rommelig en volgen zelden duidelijke regels, wat generalisatie moeilijk maakt.
  • Multi-turn complexiteit: Het ontwerpen van effectieve beloningen voor complexe, multi-turn interacties is inherent moeilijk.

Versterkend leren heroverwegen met uitgebreide MDP’s

Om deze obstakels te overwinnen, hebben de onderzoekers het kernraamwerk van RL, het Markov Decision Process (MDP), opnieuw bekeken. Ze hebben het MDP uitgebreid om de aard van LLM-agenten beter weer te geven door:

  1. Uitbreiding van de staatsruimte: Inclusief niet alleen de huidige output, maar de hele geschiedenis van interacties en omgevingsfeedback.
  2. Stochastische transities definiëren: Erkennend dat de uitkomsten afhangen van zowel de voorspellingen van het model als externe factoren.
  3. Invoering van granulaire beloningen: Introductie van procesbeloningen voor succesvolle tussenstappen, waardoor frequentere en nauwkeurigere begeleiding wordt geboden.

Deze verschuiving stelt LLM’s in staat om van elke fase van een complexe taak te leren, in plaats van alleen van het eindresultaat. Het kernidee is simpel: verdeel een groot probleem in een reeks kleinere, beloonde stappen. Dit is essentieel voor taken waarbij vallen en opstaan ​​leren van het grootste belang is.

Agent-R1: een flexibel trainingsplatform

Agent-R1 bouwt voort op deze uitgebreide MDP-definitie en biedt een flexibel en gebruiksvriendelijk trainingsplatform. Het raamwerk onderscheidt zich door de afhandeling van multi-turn-interacties via twee kernmodules:

  • Tool: Voert specifieke acties uit, zoals API-aanroepen of databasequery’s, en rapporteert onbewerkte resultaten.
  • ToolEnv: Organiseert deze acties, interpreteert de resultaten ervan, werkt de status van de agent bij en berekent beloningssignalen.

In wezen rapporteert Tool wat er is gebeurd, terwijl ToolEnv ​​uitlegt wat het betekent. Door deze scheiding kan de agent leren hoe zijn acties de omgeving beïnvloeden, waardoor hij veel flexibeler wordt.

Prestaties en implicaties

De onderzoekers testten Agent-R1 op het beantwoorden van meerdere vragen, een uitdagende taak die complexe redeneringen en het ophalen van informatie vereist. De resultaten toonden aan dat alle RL-opgeleide agenten aanzienlijk beter presteerden dan de basismethoden (Naive RAG en Base Tool Call), waarbij GRPO de sterkste algehele prestatie leverde.

Dit toont aan dat Agent-R1 LLM-agenten kan trainen om complexe problemen aan te pakken met consistente winst ten opzichte van traditionele benaderingen. De implicaties zijn aanzienlijk, vooral voor bedrijfstoepassingen waarbij AI-agenten in dynamische, onvoorspelbare omgevingen moeten opereren.

“Deze bevindingen kunnen van groot belang zijn voor ondernemingen, waar er een sterke drang is om RL en redeneringen toe te passen buiten welomschreven domeinen.”

De ontwikkeling van Agent-R1 vertegenwoordigt een belangrijke stap in de richting van het bouwen van LLM-agenten die in staat zijn om echte problemen met grotere efficiëntie en aanpassingsvermogen op te lossen. Dit raamwerk maakt de weg vrij voor nieuwe toepassingen in gebieden waar complexe, multi-turn interacties en dynamische omgevingen de norm zijn.