Saltar al contenido

Comprensión de los algoritmos para el aprendizaje de refuerzo

Sección Introducción Transcripciones

Resumen del curso

Comprensión de los algoritmos para el aprendizaje de refuerzo
Comprensión de los algoritmos para el aprendizaje de refuerzo

Hola. Me llamo Janani Ravi, y bienvenidos a este curso sobre la comprensión de los algoritmos para el aprendizaje de refuerzo. Un poco sobre mí, tengo una maestría en Ingeniería Eléctrica de Stanford y he trabajado en compañías como Microsoft, Google y Flipkart. En Google, fui uno de los primeros ingenieros que trabajó en la edición colaborativa en tiempo real en Google Docs, y tengo cuatro patentes por sus tecnologías subyacentes. Actualmente trabajo en mi propia empresa, Loonycorn, un estudio de contenido de video de alta calidad. En este curso, aprenderás los principios básicos de los algoritmos de aprendizaje de refuerzo, la taxonomía de RL y las técnicas de búsqueda de políticas específicas como Q-learning y SARSA. Comenzaremos por comprender el objetivo del aprendizaje de refuerzo para encontrar una política óptima, que permita a los agentes tomar las decisiones correctas para maximizar las recompensas a largo plazo. RL tiene una amplia variedad de casos de uso, como la optimización de las rutas de los camiones para conservar el combustible, encontrar los mejores movimientos para vencer a un oponente en el ajedrez. Estudiaremos cómo modelar el entorno usando los procesos de decisión de Markov para que los algoritmos de RL sean computablemente trazables. Luego estudiaremos la programación dinámica, una importante técnica utilizada para memorizar resultados intermedios, que simplifica el cálculo de problemas complejos. Comprenderemos e implementaremos técnicas de búsqueda de políticas como el aprendizaje de la diferencia temporal, también llamado Q-learning, y SARSA, que ayudan a converger hacia una política óptima para nuestro algoritmo de RL. Luego estudiaremos las plataformas de aprendizaje de refuerzo, que nos permiten estudiar el prototipo y desarrollar nuestras políticas. Trabajaremos con las técnicas de Q-learning y SARSA en el OpenAI Gym. Al final de este curso, deberías tener una sólida comprensión de las técnicas de aprendizaje de refuerzo, Q-learning y SARSA, y ser capaz de implementar algoritmos básicos de RL.