¿Cuáles son algunos de los usos más interesantes del aprendizaje de refuerzo?

RL se puede aplicar a cualquier problema donde el agente debe aprender a interactuar secuencialmente de manera óptima con su entorno, a menudo en entornos inciertos y parcialmente observables con señales de recompensa escasas.

Con los desarrollos recientes que combinan las amplias capacidades de ingeniería de características de redes neuronales profundas (Covnet y recurrent / LSTM), hay muchas áreas de aplicación interesantes, te aconsejaría que revises los entornos de Gimnasio OpenAI para ver la variedad de problemas abordados por RL:

Algunos ejemplos son:

  • Juegos : Poker, TD Gammon, Jirafa (Ajedrez), AlphaGo (Go), juegos de Atari, Doom (OpenAI Gym)
  • Programación / Optimización: optimización de la cadena de suministro, distribución de paquetes de red, programación de carga de electricidad de la red inteligente, etc.
  • Robótica : actuación conjunta, caminar con bi-pedal, agarre y manipulación robótica basada en la vista, etc.
  • Trading / Execution : ejecución óptima de órdenes de compra (ejecutando y obteniendo los mejores precios para la orden teniendo en cuenta los cambios dinámicos de precios, spreads, volúmenes, etc.)
  • Ajuste de parámetros: ajuste de hiper parámetros de redes neuronales (OpenAI Gym Scoreboards)
  • Sistema de diálogo : interacciones de diálogo enmarcadas como POMDP (proceso de decisión de Markov parcialmente observable)
  • Sistemas de recomendación (canciones, anuncios, problemas de tarea para resolver, etc.): problemas de bandidos

Por último, algunos puntos sobre las señales de recompensa dispersas y escalado de RL.

La recompensa escasa, o más comúnmente conocido como el problema de asignación de crédito dentro de RL (es decir, cuál de mis 50 movimientos anteriores fueron cruciales para mí para ganar este juego de ajedrez / Go) es trivial, en el sentido de que tenemos métodos para calcular estos (temporal diferencia de aprendizaje, muestreo de Monte carlo, etc.). De hecho, todo el campo de RL se desarrolla específicamente para tratar estos problemas, a saber: 1. Exploración versus explotación (para garantizar que no se asienten en una política óptima local) 2. Problema de asignación de crédito y 3. Generalización / solidez en gran medida diferentes entornos, espacios de estado y de acción (por ejemplo, DQN de Deepmind puede aprender desde cero para jugar en más de 40 juegos de Atari diferentes con la misma configuración de red y parámetros)

La escala de RL ha sido un problema en el pasado, especialmente cuando el espacio de acción del estado se vuelve enormemente grande (piense en toda la configuración de píxeles posible jugando un juego de atari y la acción correspondiente en cada estado). Pero el trabajo reciente que incorpora redes neuronales profundas con RL, que permite el entrenamiento de extremo a extremo realmente ha provocado un trabajo increíble dentro del campo, como ya se mencionó anteriormente (Atari, Alpha Go, gimnasio OpenAi).