Aprendizaje por refuerzo multiagente

Fundamentos y enfoques modernos

MIT Press, 2024

15 mins. de lectura

8 ideas fundamentales

Audio y Texto

¿De qué se trata?

El aprendizaje por refuerzo multiagente (MARL, por sus siglas en inglés) es un campo de investigación en auge con aplicaciones en el mundo real.

1×

Ingrese para escuchar el resumen en audio.

Clasificación editorial

Cualidades

Analítico
Científico
Aplicable

Reseña

Imaginemos un almacén lleno de mercancías diversas y agentes impulsados por IA encargados de recogerlas y entregarlas en un destino predeterminado. El aprendizaje por refuerzo multiagente (MARL, por sus siglas en inglés) hace que este y otros escenarios más complejos sean viables. Surgido del aprendizaje por refuerzo, el MARL permite que múltiples agentes de IA aprendan enfoques y adopten comportamientos que optimizan el éxito en entornos complicados y cambiantes. Lukas Schäfer, Filippos Christianos y Stefano Albrecht ofrecen una explicación esclarecedora de los fundamentos del MARL, junto con numerosos ejemplos.

Resumen

En un sistema multiagente, varios agentes interactúan con un entorno para alcanzar objetivos.

Consideremos un contexto en el que un conjunto de agentes autónomos impulsados por IA comparten el mismo espacio. Todos ellos son capaces de formular planes, adoptar políticas sobre cómo interactúan con su entorno y con los demás agentes que lo componen, tomar decisiones y actuar. Pueden tener un objetivo colectivo, como, por ejemplo, vaciar un almacén, y pueden tener objetivos individuales, como maximizar el rendimiento de inversiones arriesgadas. Aprenden la mejor manera de alcanzar sus objetivos evaluando sus entornos, coordinándose entre sí y, en última instancia, mediante ensayo y error.

Los agentes autónomos de IA aprenden a formular políticas eficaces y a alcanzar sus objetivos en entornos potencialmente difíciles mediante el aprendizaje por refuerzo multiagente (MARL, por sus siglas en inglés). El MARL surge del aprendizaje por refuerzo, en el que los agentes intentan, y a veces fracasan, alcanzar sus objetivos mediante acciones, y reciben o pierden beneficios en función del éxito de sus acciones.

El aprendizaje por refuerzo para un solo...

Sobre los autores

Lukas Schäfer es investigador de IA en Microsoft Research y su objetivo es crear agentes autónomos que puedan aprender de manera eficiente a resolver tareas complejas de toma de decisiones en el mundo real. Filippos Christianos es un científico investigador especializado en grandes modelos de lenguaje y aprendizaje por refuerzo. La investigación de Stefano Albrecht se centra en las áreas de agentes autónomos, interacción multiagente, aprendizaje por refuerzo y teoría de juegos, con especial atención a la toma de decisiones secuenciales en condiciones de incertidumbre.