Sistema de inteligencia artificial de Google reconocerá voces y ruidos
Investigadores de la empresa estadounidense Google desarrollaron un nuevo modelo de aprendizaje audiovisual para enseñar a la inteligencia artificial a reconocer el habla en medio de otras voces o ruidos.
En un principio, el equipo enseñó a su modelo de una red neuronal a reconocer el habla de personas específicas y luego la entrenó a distinguir sus palabras en medio de otras múltiples voces, creando una especie de ‘fiestas’ virtuales, una mezcla de videos con distintos hablantes. Tras analizar la mímica y las voces de los hablantes, la red neuronal aprendió a reconocerlas y aislarlas de los demás ruidos, generando pistas individuales con las palabras de cada hablante analizado.
Si no le sorprende este avance en el mundo de la inteligencia artificial, intente hablar con un asistente personal de su móvil en una ruidosa fiesta para ver cómo lo entiende y responde. Distinguir lo que dicen los demás en medio de otros sonidos es una tarea sencilla para los humanos (aunque no en cualquier fiesta), pero no lo ha sido en absoluto para los dispositivos inteligentes, que ahora podrán mejorar drásticamente en este aspecto.
Para elaborar su modelo de aprendizaje audiovisual, los investigadores utilizaron 100.000 videos de alta calidad de YouTube con grabaciones de distintas conferencias y discursos. La tecnología puede mejorar el procesamiento del habla durante las videoconferencias o videollamadas, sobre todo en situaciones con varios hablantes.
"Demostramos que nuestro método es aplicable tanto a las tareas clásicas de la separación de voz, como a las situaciones reales durante las acaloradas entrevistas, en bares ruidosos y con niños gritando", señalan los autores del estudio sobre el nuevo modelo. Lo único que se requiere del usuario es especificar la cara de la persona del video cuyo discurso le interesa, agregan.