Nowe ramy AI poprawiają wydajność agentów LLM w zadaniach w świecie rzeczywistym

11

Naukowcy z Chińskiego Uniwersytetu Naukowo-Technologicznego zaprezentowali Agent-R1, nową platformę uczenia się przez wzmacnianie (RL), zaprojektowaną do uczenia dużych modeli językowych (LLM) w zakresie złożonych zadań opartych na agentach, wykraczających poza proste problemy, takie jak matematyka czy programowanie. Ten przełom rozwiązuje krytyczne ograniczenie obecnego rozwoju sztucznej inteligencji: trudność w zastosowaniu LLM do dynamicznych, nieprzewidywalnych scenariuszy ze świata rzeczywistego.

Problem z tradycyjnym RL dla agentów LLM

Uczenie się przez wzmacnianie okazało się skuteczne w nauczaniu LLM w dobrze określonych dziedzinach, w których sukces jest łatwy do zmierzenia (np. poprawna lub niepoprawna odpowiedź). Jednak zadania oparte na agentach — te, które wymagają od modeli interakcji ze zmieniającym się środowiskiem, zarządzania pamięcią dynamiczną i reagowania na nieprzewidywalne informacje zwrotne — stwarzają wyjątkowe wyzwania.

Tradycyjny RL walczy, ponieważ:

  • Rzadkie nagrody: Agenci często otrzymują tylko jeden sygnał nagrody na koniec wieloetapowego procesu, co utrudnia uczenie się na podstawie działań pośrednich.
  • Nieprzewidywalne środowiska: Interakcje w prawdziwym świecie są chaotyczne i rzadko podlegają jasnym zasadom, co utrudnia uogólnianie.
  • Trudność wielu tur: Zaprojektowanie skutecznych nagród za złożone interakcje wieloturowe jest z natury trudne.

Nowe podejście do uczenia się przez wzmacnianie dzięki ulepszonym MDP

Aby pokonać te przeszkody, badacze zmienili podstawową strukturę RL, Proces decyzyjny Markowa (MDP). Rozszerzyli MDP, aby lepiej odzwierciedlić naturę agentów LLM poprzez:

  1. Rozszerzenia przestrzeni stanów: Uwzględniające nie tylko bieżący wynik, ale także całą historię interakcji i informacje zwrotne z otoczenia.
  2. Definicje przejść stochastycznych: Uznanie, że wyniki zależą zarówno od przewidywań modelu jak i czynników zewnętrznych.
  3. Wprowadź nagrody szczegółowe: Przedstawiamy nagrody za proces za pomyślne kamienie milowe, zapewniające częstsze i bardziej precyzyjne wskazówki.

Ta zmiana pozwala LLM uczyć się na każdym etapie złożonego zadania, a nie tylko na podstawie wyniku końcowego. Podstawowa idea jest prosta: rozłóż duży problem na serię mniejszych, satysfakcjonujących kroków. Jest to konieczne w przypadku zadań, w których nauka metodą prób i błędów ma ogromne znaczenie.

Agent-R1: Elastyczna platforma edukacyjna

Agent-R1 opiera się na tej rozszerzonej definicji MDP, zapewniając elastyczną i przyjazną dla użytkownika platformę edukacyjną. Framework wyróżnia się obsługą wielokierunkowych interakcji za pośrednictwem dwóch głównych modułów:

  • Narzędzie: Wykonuje określone działania, takie jak wywołania API lub zapytania do bazy danych, i raportuje nieprzetworzone wyniki.
  • ToolEnv: Organizuje te działania, interpretuje ich wyniki, aktualizuje stan agenta i oblicza sygnały nagrody.

Zasadniczo Tool mówi co się wydarzyło, a ToolEnv ​​wyjaśnia co to znaczy. Ta separacja pozwala agentowi dowiedzieć się, jak jego działania wpływają na środowisko, dzięki czemu jest on znacznie bardziej adaptacyjny.

Wydajność i konsekwencje

Naukowcy przetestowali Agenta-R1 pod kątem wieloetapowego odpowiadania na pytania, co było złożonym zadaniem wymagającym złożonego rozumowania i wyszukiwania informacji. Wyniki pokazały, że wszyscy przeszkoleni agenci RL znacznie przewyższali metody podstawowe (Naive RAG i Base Tool Call), przy czym GRPO wykazało najlepszą ogólną wydajność.

To pokazuje, że Agent-R1 może szkolić agentów LLM w rozwiązywaniu złożonych problemów przy ciągłym doskonaleniu w porównaniu z tradycyjnymi podejściami. Konsekwencje są znaczące, szczególnie w przypadku aplikacji korporacyjnych, w których agenci sztucznej inteligencji muszą działać w dynamicznych, nieprzewidywalnych środowiskach.

„Te ustalenia mogą mieć znaczące implikacje dla przedsiębiorstw, w których istnieje silna potrzeba stosowania RL i rozumowania wykraczającego poza dobrze zdefiniowane dziedziny”.

Opracowanie Agenta-R1 stanowi znaczący krok w kierunku stworzenia agentów LLM, którzy mogą rozwiązywać rzeczywiste problemy z większą wydajnością i możliwościami adaptacji. Struktura ta toruje drogę nowym aplikacjom w obszarach, w których normą są złożone interakcje wielościeżkowe i dynamiczne środowiska.