openai

Si ni siquiera para nosotros es sencillo, imaginemos como debe serlo para una máquina: hablamos de aprender de nuestros errores, uno de los principales desafíos que enfrenta la inteligencia artificial.

En realidad, dejando aparte la gracieta de que somos el único animal que tropieza dos veces con la misma piedra, lo cierto es que el ser humano está aprendiendo constantemente de sus fallos. Somos capaces de extrapolar un enfoque erróneo aplicado a una tarea determinada a otra en la que sí puede resultar exitoso dicho enfoque. De esta forma, no solo aprendemos lo que no funciona en relación con nuestra meta original, sino que también recopilamos información sobre cómo hemos fracasado para aplicarlo a una meta ligeramente diferente.

Esto hace que seamos muy eficaces a la hora de generalizar lo que aprendemos. Las máquinas, sin embargo, tienen una gran dificultad en este aspecto, aunque se está buscando cambiar esto.

Hace poco, OpenAI, una empresa de investigación de inteligencia artificial con sede en San Francisco, publicó un algoritmo de código abierto que reelabora los fracasos como éxitos para que los robots puedan acercarse al modelo de aprendizaje que empleamos los humanos. Su nombre es Hindsight Experience Replay: HER.

Recompensas escasas y recompensas densas

recompensas-escasas

Para entender como funciona, primero debemos comprender cómo aprende normalmente una máquina. Lo hace mediante técnicas de prueba y error similares a las nuestras, las cuales son reforzadas por medio de recompensas.

Como hemos dicho, los humanos lo hacemos «ligeramente» diferente: estamos aprendiendo siempre. Veamos un ejemplo. Digamos que queremos lanzar un triple en basquet. Nos paramos frente a la cesta y lanzamos la pelota. Entonces, fallamos el primer intento y la bola sale fuera de la cancha. ¿Hemos aprendido algo? Varias cosas: una forma de no marcar un triple y una forma de lanzar la bola fuera de la cancha. Mentalmente, sin darnos cuenta, tomamos nota de esto. Sí, no hemos logrado nuestro triple, pero hemos hecho progresos.

El algoritmo HER busca replicar esta experiencia por medio de lo que los investigadores llaman «recompensas escasas» para guiar el aprendizaje. Las recompensas son lo que se usa para decirle a un robot si lo que hace es bueno o malo dentro del proceso de aprendizaje. Esas recompensas son en realidad números dentro del algoritmo pero, para entendernos, imaginemos que son caramelos, pues al fin y al cabo funcionan igual.

La mayoría de los algoritmos de aprendizaje utilizan las llamadas «recompensas densas», que vendría a ser algo así como que al robot se le dan más caramelos dependiendo de cuán cerca esté de completar una tarea. Estos caramelos animan al robot a medida que avanza, recompensan aspectos individuales de la tarea por separado y ayudan, en cierto sentido, a dirigir al robot para que aprenda de la forma que se desea. Aunque las recompensas densas son efectivas, no siempre son realistas de cara a la aplicación en el mundo real.

Por otro lado, usar «recompensas escasas» significa que el robot solo recibe un único caramelo si tiene éxito y ninguno si no lo tiene. Como ventaja, este sistema es más fácil de medir, de programar y de implementar. Pero, al mismo tiempo, hace que el aprendizaje sea más lento porque el robot no está recibiendo ninguna retroalimentación incremental.

Un algoritmo para todo el quiera utilizarlo

El algoritmo HER toma esta aproximación pero la implementa de manera distinta, haciendo que los robots aprendan por medio de recompensas escasas pero tratando cada intento como un éxito en algo, cambiando la meta que hay que alcanzar y que así la máquina pueda aprender un poco.

Haciendo esta sustitución, el algoritmo de aprendizaje de refuerzo puede obtener una señal, ya que ha logrado algún objetivo, aunque no sea el que se quería conseguir originalmente. Si este proceso se repite, la máquina terminará por aprender a alcanzar metas arbitrarias, incluyendo las que realmente se quieren lograr. Y lo hará por un camino más parecido al humano, parecido a cuando no conseguimos marcar el triple pero hemos aprendido a como no hacerlo y a como lanzar la bola fuera de la cancha.

Lo más interesante es que OpenAI ha puesto HER a disposición de cualquiera por medio de una versión de código abierto. De esta forma, todos los interesados en revisarlo y en probar formas de aplicarlo pueden hacerlo con total libertad.

También han lanzado un conjunto de entornos robóticos simulados basados en plataformas reales de robots, incluyendo una mano y un robot de investigación. Y si eres una persona ambiciosa, OpenAI también ha publicado un conjunto de solicitudes de investigación relacionadas con HER.