Inventan sistema de inteligencia artificial que puede leer los labios mejor que los humanos

Científicos de la Universidad de Oxford, en colaboración con la división de Inteligencia Artificial DeepMind de Google, están trabajando en un sistema de inteligencia artificial que aseguran que puede leer los labios mejor los humanos. El nombre de este sistema es «Watch, Attend and Spell», que puede traducirse como «Ver, Atender y Deletrear (o escribir)».

El sistema ha sido entrenado empleando miles de horas de programas de BBC News y actualmente puede ver a alguien hablando sin sonido e identificar correctamente el 50% de las palabras empleadas. Para poner en contexto que significa esto, hay que decir que cuando los investigadores les proporcionaron el mismo material a lectores profesionales de labios consiguieron identificar bien tan solo un 12% de todas las palabras.

Conseguir la identificación correcta es todo un desafío, tal y como explica Joon Son Chung, un estudiante de doctorado del departamento de ingeniería de Oxford: «Palabras como mat, bat y pat [estera, murciélago y caricia] adoptan formas similares en la boca». Para solucionar este problema usan el contexto en que se encuentra la palabra o, si es necesario, un lector de labios profesional: «Lo que hace el sistema es aprender cosas que van juntas, en este caso la forma de la boca y los caracteres y como serán probablemente los caracteres que vienen a continuación».

La BBC proporcionó a los investigadores con clips de diferentes programas acompañados de subtítulos sincronizados con los movimientos de los labios de los hablantes. Entonces, una red neuronal combinada con lo último en imagen y reconocimiento de voz se puso a trabajar para aprender cómo leer los labios.

Tras haber examinado 118 mil frases, el sistema tiene almacenadas 17.500 palabras. Al estar entrenado en el lenguaje que se emplea en las noticias, es bastante bueno a la hora de identificar ciertas expresiones habituales, siendo capaz de entender que usualmente a «Prime» (Primer) le sigue «Minister» (Ministro) y palabras similares que suelen emplearse unidas de forma frecuente en los noticieros.

Hoy por hoy, el sistema tiene sus limitaciones, como que no funciona muy bien al reconocer palabras que no son leídas por los presentadores o que solo puede operar con frases completas de una grabación. Según dice Joon Son Chung, «Queremos conseguir que funcione en tiempo real. A medida que continúe viendo TV, aprenderá». Además, aclara que lo más difícil ha sido mejorar su precisión, más que conseguir que el sistema funcione.

Ni que decir tiene el potencial que reside en un sistema de estas características, especialmente para la gente con problemas de audición. Pero para Joon, también hay otros usos, como ayudar a la gente a dictar instrucciones a sus teléfonos en ambientes ruidosos o doblar las viejas películas mudas.

Todavía falta bastante para que un sistema de este tipo sea operativo al cien por cien o, por lo menos, que pueda hacerse uso de él contando con una exactitud aceptable, pero resulta impresionante el avance que se ha conseguido y desde luego muy prometedor de cara a mejorar la vida de mucha gente.