Para peneliti di Universitas Sains dan Teknologi Tiongkok telah meluncurkan Agent-R1, kerangka kerja pembelajaran penguatan (RL) baru yang dirancang untuk melatih model bahasa besar (LLM) untuk tugas-tugas kompleks dan agen yang melampaui masalah sederhana seperti matematika atau pengkodean. Terobosan ini mengatasi keterbatasan penting dalam pengembangan AI saat ini: kesulitan menerapkan LLM pada skenario dunia nyata yang dinamis dan tidak dapat diprediksi.
Masalah RL Tradisional untuk Agen LLM
Pembelajaran penguatan telah terbukti efektif untuk melatih LLM dalam domain yang terdefinisi dengan baik, di mana keberhasilan mudah diukur (misalnya, jawaban benar vs. salah). Namun, tugas agen – yang memerlukan model untuk berinteraksi dengan lingkungan yang terus berkembang, mengelola memori dinamis, dan merespons masukan yang tidak dapat diprediksi – menghadirkan tantangan unik.
RL tradisional kesulitan karena:
- Hadiah Jarang: Agen sering kali hanya menerima satu sinyal hadiah di akhir proses multi-langkah, sehingga sulit untuk belajar dari tindakan perantara.
- Lingkungan yang Tidak Dapat Diprediksi: Interaksi di dunia nyata berantakan dan jarang mengikuti aturan yang jelas, sehingga membuat generalisasi menjadi sulit.
- Kompleksitas Multi-Turn: Merancang imbalan yang efektif untuk interaksi multi-turn yang kompleks pada dasarnya sulit.
Memikirkan Kembali Pembelajaran Penguatan dengan MDP yang Diperluas
Untuk mengatasi kendala tersebut, peneliti meninjau kembali kerangka inti RL, Proses Keputusan Markov (MDP). Mereka memperluas MDP agar lebih mencerminkan sifat agen LLM dengan:
- Memperluas Ruang Negara: Tidak hanya mencakup keluaran saat ini namun seluruh sejarah interaksi dan umpan balik lingkungan.
- Mendefinisikan Transisi Stokastik: Menyadari bahwa hasil bergantung pada prediksi model dan faktor eksternal.
- Menerapkan Imbalan Terperinci: Memperkenalkan penghargaan proses untuk langkah-langkah peralihan yang berhasil, memberikan panduan yang lebih sering dan tepat.
Pergeseran ini memungkinkan LLM untuk belajar dari setiap tahapan tugas yang kompleks, bukan hanya hasil akhir. Ide intinya sederhana: pecahkan masalah besar menjadi serangkaian langkah-langkah kecil yang bermanfaat. Hal ini penting untuk tugas-tugas yang mengutamakan pembelajaran coba-coba.
Agen-R1: Platform Pelatihan Fleksibel
Agent-R1 dibangun berdasarkan definisi MDP yang diperluas ini, menyediakan platform pelatihan yang fleksibel dan ramah pengguna. Kerangka kerja ini membedakan dirinya dengan penanganan interaksi multi-putaran melalui dua modul inti:
- Alat: Menjalankan tindakan tertentu, seperti panggilan API atau kueri database, dan melaporkan hasil mentah.
- ToolEnv: Mengatur tindakan ini, menafsirkan hasilnya, memperbarui status agen, dan menghitung sinyal imbalan.
Intinya, Tool melaporkan apa yang terjadi, sementara ToolEnv menjelaskan apa artinya. Pemisahan ini memungkinkan agen mempelajari bagaimana tindakannya memengaruhi lingkungan, sehingga jauh lebih mudah beradaptasi.
Kinerja dan Implikasinya
Para peneliti menguji Agen-R1 pada menjawab pertanyaan multi-hop, sebuah tugas menantang yang memerlukan penalaran kompleks dan pengambilan informasi. Hasilnya menunjukkan bahwa semua agen yang dilatih RL secara signifikan mengungguli metode dasar (Naive RAG dan Base Tool Call), dengan GRPO memberikan kinerja keseluruhan yang paling kuat.
Hal ini menunjukkan bahwa Agen-R1 dapat melatih agen LLM untuk mengatasi masalah kompleks dengan keunggulan yang konsisten dibandingkan pendekatan tradisional. Implikasinya sangat besar, terutama untuk aplikasi perusahaan di mana agen AI harus beroperasi di lingkungan yang dinamis dan tidak dapat diprediksi.
“Temuan ini dapat menjadi hal yang signifikan bagi perusahaan, karena terdapat dorongan kuat untuk menerapkan RL dan pertimbangan di luar domain yang telah ditentukan dengan baik.”
Pengembangan Agen-R1 merupakan langkah signifikan menuju pembangunan agen LLM yang mampu memecahkan masalah dunia nyata dengan efisiensi dan kemampuan beradaptasi yang lebih besar. Kerangka kerja ini membuka jalan bagi aplikasi baru di area di mana interaksi multi-turn yang kompleks dan lingkungan yang dinamis merupakan hal yang biasa.
