La finalidad del nuevo grupo Aholab-GTTS es generar avances en las tecnologías de procesamiento del habla que permitan una mejora de la calidad de vida de las personas y en particular de aquéllas que presentan patologías que dificultan su comunicación (disfunciones oral o auditiva). Para lograr estos avances se emplearán técnicas de aprendizaje neuronal profundo en los procesos de tratamiento de audio y voz. Además, contamos con financiación de los agentes sociales interesados: Hospitales y asociaciones de personas con diversidad funcional, el Parlamento Vasco y Mercedes-Benz Vitoria.
Los trabajos de Aholab-GTTS se agrupan en torno a dos líneas de investigación:
Línea 1.- Tecnologías del habla para la diversidad funcional
Según datos del Instituto Nacional de Estadística de 2012 en España hay más de 410 000 personas con discapacidad para Producir mensajes hablados (resultados de Encuesta de Discapacidad, Autonomía Personal y Situaciones de Dependencia 2008 accesible online). A nivel europeo el 0.4% de los habitantes padecen una discapacidad oral según datos de Eurostat. Este tipo de discapacidad produce un aislamiento social de las personas que la sufren, ya que su comunicación con el entorno se ve seriamente afectada de manera que se dificultan sus relaciones personales, además de generar problemas de integración en el entorno laboral. Las discapacidades orales pueden estar causadas por eventos traumáticos (como ictus u operaciones quirúrgicas como la laringuectomía) o también por enfermedades degenerativas que afectan a la movilidad de los órganos fonatorios, como ELA o Parkinson.
Una de las herramientas más utilizadas por las personas con discapacidad oral son los conversores de texto a voz (TTS), integrados habitualmente en aplicaciones de Comunicación Alternativa y Aumentativa. Estos programas facilitan la elaboración rápida de mensajes utilizando símbolos y esquemas, mensajes que son después convertidos en voz por el TTS. Estas voces sintéticas son de muy alta calidad y en general representan una persona joven. Sin embargo, los datos muestran una realidad en la que una gran mayoría de las personas afectadas son personas mayores de 65 años. Estas personas raramente van a sentirse identificadas con la voz sintética que están utilizando. De la misma manera, hay una carencia de voces infantiles, y según los datos el número de niños de entre 6 y 15 años afectados por esta discapacidad es de 32700.Los trabajos del grupo Aholab-GTTS van encaminados a investigar estrategias innovadoras que mejoren la calidad de la comunicación para estas personas.
Línea 2.- Extracción de información a partir de audio y voz (Machine Listening)
Actualmente gran parte de la información se genera, almacena y distribuye en formato multimedia. Al mismo tiempo, el uso de la voz para la interacción con los dispositivos es cada vez más demandada. La extracción automática de la información contenida en el audio está dirigida a la obtención de herramientas básicas que facilitan dicha interacción. Así, disponer de transcripciones enriquecidas con marcas de tiempo que delimitan segmentos y ofrecen distintos tipos de anotaciones es indispensable para aplicaciones como la navegación por voz, la búsqueda de información en documentos multimedia etc. Otro entorno de especial importancia, por su utilidad para personas con discapacidades auditivas, es el área de subtitulado automático. En este campo, además de tener que realizar una transcripción textual es necesario detectar los cambios de turno en los diálogos identificando a los participantes, los cambios de idioma (code-switching) y otros eventos extra-lingüisticos.
Este área, conocida también como 'Machine Listening', puede aplicarse también en entornos industriales, en particular en la fabricación de automóviles, escuchando los sonidos generados por el vehículo para detectar posibles defectos en el proceso de producción.
Engineering & Technology
- Advanced manufacturing
How to arrive
- Extracción de información a partir de voz audio (machine listening)
- Tecnologías del habla y diversidad funcional