•Noticia
Reportaje publicado en la revista Informacions, número 256 (enero-febrero 2013)
Hablando con las máquinas
Las tecnologías de la lengua han evolucionado y han despertado un gran interés en los últimos años, puesto que facilitan la interacción entre las personas y los ordenadores y mejoran la accesibilidad a los sistemas de información. Pero ¿cuál es la ciencia que hay detrás de estas tecnologías? Investigadores del Centro de Tecnologías y Aplicaciones del Lenguaje y el habla de la UPC lo explican aquí.
15/03/2013
Por tecnologías de la lengua se entiende un conjunto de técnicas, conocimientos y recursos necesarios para construir sistemas informáticos capaces de comprender, interpretar y generar todas las formas del lenguaje humano. Se suele distinguir entre las tecnologías centradas en la lengua hablada y las que son propias del tratamiento de la lengua escrita.
En los últimos años, hemos visto como estas tecnologías han dejado de ser prototipos en los centros de investigación y se han incorporado progresivamente a la rutina diaria de millones de personas. Nos beneficiamos de estas tecnologías cuando escribimos documentos con la ayuda de correctores ortográficos y gramaticales integrados en los procesadores de textos; escuchamos el correo electrónico a través del móvil; pedimos información a través de sistemas de diálogo telefónico o dictamos textos que se escriben automáticamente en la pantalla del ordenador. También están presentes cuando traducimos de forma automática textos entre varias lenguas mediante un servicio de traducción en red; utilizamos resumidores automáticos o encontramos información a través de un motor de busca web. Estas aplicaciones y un largo etcétera son cada vez más habituales y no paran de crecer y extenderse.
Algunas de estas innovaciones las desarrollan equipos como por ejemplo el del Centro de Tecnologías y Aplicaciones del Lenguaje y el Habla (TALP), un centro de investigación interdepartamental de la UPC que trabaja en este ámbito tecnológico a través de sus dos grupos: el de Tratamiento del Habla, del Departamento de Teoría de la Señal y Comunicaciones, y el de Procesamiento del Lenguaje Natural, del Departamento de Lenguajes y Sistemas Informáticos.
En cuanto a las tecnologías del habla, se investiga en el reconocimiento del habla, la síntesis de voz, la traducción automática de la lengua oral y el reconocimiento de locutores por características biométricas.
“El reconocimiento del habla hace posible que las máquinas entiendan lo que decimos y ejecuten nuestras órdenes al transformar la voz en texto, sin que haya que tener las manos ocupadas en el teclado o el ratón”, explica Asunción Moreno, profesora del Departamento de Teoría de la Señal y Comunicaciones e investigadora del Grupo de Tratamiento del Habla. Pero hacer que los ordenadores reconozcan nuestras palabras no es una tarea sencilla. Este grupo desarrolla sistemas que se basan en modelos estadísticos que requieren muchos datos. “El secreto es disponer siempre de grandes bases de datos orales para entrenar los sistemas, en que los datos provienen de la grabación de la voz de muchas personas, hombres y mujeres, de edades diversas y de procedencias dialectales distintas, y en diferentes entornos”, añade la investigadora.
Por otro lado, la síntesis de voz permite hacer la función inversa a la del reconocimiento del habla: convertir un texto determinado en voz. En este caso, uno de los retos de la investigación actual es conseguir que el sistema sea capaz de generar una prosodia adecuada. Esto quiere decir que la voz sintética que se genera tiene que ser inteligible y lo más natural posible. Además, el estilo también se tiene que adecuar a la aplicación que se quiera desarrollar, porque no es la misma habla con un niño que con una máquina o que explicar las noticias; son situaciones que requieren registros diferentes.
Uno de los proyectos punteros en el cual ha participado el Grupo de Tratamiento del Habla se denomina Tecnoparla. La iniciativa, financiada por la Secretaría de Política Lingüística de la Generalitat de Catalunya, ha servido para generar recursos lingüísticos y de tecnología del habla en catalán. En el marco del proyecto también se ha desarrollado un sistema de subtitulación y traducción automática diseñado para programas televisivos de noticias o de debate.
“Ha sido un proyecto ambicioso que ha permitido colocar el catalán en una buena posición respecto de otros idiomas europeos en cuanto a la aplicación de esta área tecnológica”, explica el investigador Adrián Rodríguez Fonollosa, del mismo grupo de investigación.
Además, gracias al conocimiento adquirido con Tecnoparla, los investigadores han colaborado con Televisió de Catalunya en el proyecto Buscamedia, “en el cual se ha desarrollado la tecnología necesaria para generar automáticamente la subtitulación en catalán de sus programas tanto en directo como en diferido”, explica Rodríguez Fonollosa.
Una de las razones que explican este renovado interés es que vivimos en un escenario multilingüe. En Europa se hablan cerca de 60 idiomas, 23 de los cuales son oficiales, y para facilitar la comunicación entre personas o el acceso a información en otra lengua hacen falta herramientas eficaces que, por ejemplo, semiautomaticen la traducción de los textos que cada día se generan en las instituciones comunitarias.
Para abordar la traducción automática se puede utilizar un planteamiento estadístico, en el cual el sistema aprende a traducir a partir de corpus bilingües alineados (textos paralelos en dos o más lenguas).
El sistema es capaz de hacer todas las combinaciones posibles y construir la traducción más probable de una frase o de un fragmento de frase. Un enfoque más sofisticado son los sistemas basados en reglas. La idea básica es representar el texto de origen en una lengua intermedia abstracta (lenguaje interlingua) e independiente de las dos lenguas (inicial y final), y posteriormente traducir el texto a la lengua de destino.
“Los sistemas basados en el lenguaje interlingua funcionan muy bien en dominios delimitados, con un vocabulario reducido, pero son incapaces de enfrentarse a la práctica de la lengua de cada día”, afirma el investigador Lluís Màrquez.
Los sistemas entrenados en corpus —asegura el profesor— son capaces de aprender muy rápidamente y de adaptarse a la lengua de los textos reales. “Aun así, los sistemas puramente estadísticos pronto encuentran también su techo. La solución seguramente pasa para desarrollar sistemas híbridos, que exploten el mejor de cada enfoque”, concluye Màrquez.
La traducción automática es precisamente una de las áreas básicas en que investiga el Grupo de Procesamiento del Lenguaje Natural. Uno de los proyectos destacados en que participa es FAUST (Feedback Analysis for User Adaptive Statistical Translation). El objetivo es desarrollar sistemas de traducción automática que se adapten al feedback del usuario en tiempo real. Con los resultados de FAUST se prevé mejorar la web de traducción Reverso.net y dar al usuario la oportunidad de corregir los resultados de la traducción.
Este texto nuevo se usará para ir mejorando el traductor. La sociedad actual pone a nuestro alcance una gran cantidad de información. “Para resolver el problema de la sobresaturación de información y hacer que el acceso a la información sea eficaz, rápido y sencillo, se pueden utilizar técnicas de recuperación, extracción y gestión de información que incorporan elementos del procesamiento del lenguaje natural”, apunta Lluís Padró, investigador y director del TALP.
Esta línea de investigación incluye desarrollar sistemas que permitan procesar grandes cantidades de textos con la finalidad, por ejemplo, de recuperar documentos y pasajes textuales a partir de una clasificación automática según el contenido, o identificar las partes relevantes de un texto para hacer un resumen automático, detectar un acontecimiento o responder una pregunta.
“De ejemplos de posibles aplicaciones hay muchos. Nosotros hemos acumulado especialización al analizar documentos, extraer información, traducirlos, vincularlos y relacionarlos”, concluye Padró.
En los últimos años, hemos visto como estas tecnologías han dejado de ser prototipos en los centros de investigación y se han incorporado progresivamente a la rutina diaria de millones de personas. Nos beneficiamos de estas tecnologías cuando escribimos documentos con la ayuda de correctores ortográficos y gramaticales integrados en los procesadores de textos; escuchamos el correo electrónico a través del móvil; pedimos información a través de sistemas de diálogo telefónico o dictamos textos que se escriben automáticamente en la pantalla del ordenador. También están presentes cuando traducimos de forma automática textos entre varias lenguas mediante un servicio de traducción en red; utilizamos resumidores automáticos o encontramos información a través de un motor de busca web. Estas aplicaciones y un largo etcétera son cada vez más habituales y no paran de crecer y extenderse.
Algunas de estas innovaciones las desarrollan equipos como por ejemplo el del Centro de Tecnologías y Aplicaciones del Lenguaje y el Habla (TALP), un centro de investigación interdepartamental de la UPC que trabaja en este ámbito tecnológico a través de sus dos grupos: el de Tratamiento del Habla, del Departamento de Teoría de la Señal y Comunicaciones, y el de Procesamiento del Lenguaje Natural, del Departamento de Lenguajes y Sistemas Informáticos.
En cuanto a las tecnologías del habla, se investiga en el reconocimiento del habla, la síntesis de voz, la traducción automática de la lengua oral y el reconocimiento de locutores por características biométricas.
“El reconocimiento del habla hace posible que las máquinas entiendan lo que decimos y ejecuten nuestras órdenes al transformar la voz en texto, sin que haya que tener las manos ocupadas en el teclado o el ratón”, explica Asunción Moreno, profesora del Departamento de Teoría de la Señal y Comunicaciones e investigadora del Grupo de Tratamiento del Habla. Pero hacer que los ordenadores reconozcan nuestras palabras no es una tarea sencilla. Este grupo desarrolla sistemas que se basan en modelos estadísticos que requieren muchos datos. “El secreto es disponer siempre de grandes bases de datos orales para entrenar los sistemas, en que los datos provienen de la grabación de la voz de muchas personas, hombres y mujeres, de edades diversas y de procedencias dialectales distintas, y en diferentes entornos”, añade la investigadora.
Por otro lado, la síntesis de voz permite hacer la función inversa a la del reconocimiento del habla: convertir un texto determinado en voz. En este caso, uno de los retos de la investigación actual es conseguir que el sistema sea capaz de generar una prosodia adecuada. Esto quiere decir que la voz sintética que se genera tiene que ser inteligible y lo más natural posible. Además, el estilo también se tiene que adecuar a la aplicación que se quiera desarrollar, porque no es la misma habla con un niño que con una máquina o que explicar las noticias; son situaciones que requieren registros diferentes.
Uno de los proyectos punteros en el cual ha participado el Grupo de Tratamiento del Habla se denomina Tecnoparla. La iniciativa, financiada por la Secretaría de Política Lingüística de la Generalitat de Catalunya, ha servido para generar recursos lingüísticos y de tecnología del habla en catalán. En el marco del proyecto también se ha desarrollado un sistema de subtitulación y traducción automática diseñado para programas televisivos de noticias o de debate.
“Ha sido un proyecto ambicioso que ha permitido colocar el catalán en una buena posición respecto de otros idiomas europeos en cuanto a la aplicación de esta área tecnológica”, explica el investigador Adrián Rodríguez Fonollosa, del mismo grupo de investigación.
Además, gracias al conocimiento adquirido con Tecnoparla, los investigadores han colaborado con Televisió de Catalunya en el proyecto Buscamedia, “en el cual se ha desarrollado la tecnología necesaria para generar automáticamente la subtitulación en catalán de sus programas tanto en directo como en diferido”, explica Rodríguez Fonollosa.
Eliminando las barreras lingüísticas
El sueño de usar ordenadores para hacer traducciones automáticas de una lengua a cualquier otra, con calidad y rapidez, no se ha llegado a cumplir. Sin embargo y después de unas décadas parada, la traducción automática se ha convertido en una área de investigación muy activa. Una de las razones que explican este renovado interés es que vivimos en un escenario multilingüe. En Europa se hablan cerca de 60 idiomas, 23 de los cuales son oficiales, y para facilitar la comunicación entre personas o el acceso a información en otra lengua hacen falta herramientas eficaces que, por ejemplo, semiautomaticen la traducción de los textos que cada día se generan en las instituciones comunitarias.
Para abordar la traducción automática se puede utilizar un planteamiento estadístico, en el cual el sistema aprende a traducir a partir de corpus bilingües alineados (textos paralelos en dos o más lenguas).
El sistema es capaz de hacer todas las combinaciones posibles y construir la traducción más probable de una frase o de un fragmento de frase. Un enfoque más sofisticado son los sistemas basados en reglas. La idea básica es representar el texto de origen en una lengua intermedia abstracta (lenguaje interlingua) e independiente de las dos lenguas (inicial y final), y posteriormente traducir el texto a la lengua de destino.
“Los sistemas basados en el lenguaje interlingua funcionan muy bien en dominios delimitados, con un vocabulario reducido, pero son incapaces de enfrentarse a la práctica de la lengua de cada día”, afirma el investigador Lluís Màrquez.
Los sistemas entrenados en corpus —asegura el profesor— son capaces de aprender muy rápidamente y de adaptarse a la lengua de los textos reales. “Aun así, los sistemas puramente estadísticos pronto encuentran también su techo. La solución seguramente pasa para desarrollar sistemas híbridos, que exploten el mejor de cada enfoque”, concluye Màrquez.
La traducción automática es precisamente una de las áreas básicas en que investiga el Grupo de Procesamiento del Lenguaje Natural. Uno de los proyectos destacados en que participa es FAUST (Feedback Analysis for User Adaptive Statistical Translation). El objetivo es desarrollar sistemas de traducción automática que se adapten al feedback del usuario en tiempo real. Con los resultados de FAUST se prevé mejorar la web de traducción Reverso.net y dar al usuario la oportunidad de corregir los resultados de la traducción.
Este texto nuevo se usará para ir mejorando el traductor. La sociedad actual pone a nuestro alcance una gran cantidad de información. “Para resolver el problema de la sobresaturación de información y hacer que el acceso a la información sea eficaz, rápido y sencillo, se pueden utilizar técnicas de recuperación, extracción y gestión de información que incorporan elementos del procesamiento del lenguaje natural”, apunta Lluís Padró, investigador y director del TALP.
Esta línea de investigación incluye desarrollar sistemas que permitan procesar grandes cantidades de textos con la finalidad, por ejemplo, de recuperar documentos y pasajes textuales a partir de una clasificación automática según el contenido, o identificar las partes relevantes de un texto para hacer un resumen automático, detectar un acontecimiento o responder una pregunta.
“De ejemplos de posibles aplicaciones hay muchos. Nosotros hemos acumulado especialización al analizar documentos, extraer información, traducirlos, vincularlos y relacionarlos”, concluye Padró.
Qué pasa en la sala?
Otras tecnologías complementarias del habla permiten reconocer una persona de forma automática mediante su voz (reconocimiento del locutor), la lengua que habla (reconocimiento de la lengua o el dialecto), su estado emocional (reconocimiento de emociones) y si aquello que escuchamos es voz, música u otro tipo de sonido. El desarrollo de estas tecnologías ha experimentado un creciente interés en los últimos años por las múltiples aplicaciones que tiene, como por ejemplo los controles de acceso, la investigación policial y la indexación de programas de radio y televisión, entre otros.
En este ámbito tecnológico, el Grupo de Tratamiento del Habla desarrolla nuevas metodologías para la identificación y la detección de acontecimientos acústicos y el reconocimiento del habla en un ambiente como es la sala inteligente multimodal de la UPC, situada en el Campus Nord.
Esta sala está proveída de micrófonos, cámaras y sensores. Combinando el audio, el vídeo y la información espacial “podemos identificar o verificar quién habla y determinar donde está esta persona”, explica el investigador Javier Hernando. El equipamiento “también tiene capacidad para detectar otros tipos de sonidos (aplausos, música, portazos). Es decir, monitorizar automáticamente la sala y saber en cada momento qué pasa”, afirma Hernando. Estas nuevas metodologías de identificación, detección y reconocimiento de voz y audio para entornos inteligentes se están diseñando en el marco del proyecto SARAI (Speech and Audio Recognition for Ambient Intelligence).
Otras tecnologías complementarias del habla permiten reconocer una persona de forma automática mediante su voz (reconocimiento del locutor), la lengua que habla (reconocimiento de la lengua o el dialecto), su estado emocional (reconocimiento de emociones) y si aquello que escuchamos es voz, música u otro tipo de sonido. El desarrollo de estas tecnologías ha experimentado un creciente interés en los últimos años por las múltiples aplicaciones que tiene, como por ejemplo los controles de acceso, la investigación policial y la indexación de programas de radio y televisión, entre otros.
En este ámbito tecnológico, el Grupo de Tratamiento del Habla desarrolla nuevas metodologías para la identificación y la detección de acontecimientos acústicos y el reconocimiento del habla en un ambiente como es la sala inteligente multimodal de la UPC, situada en el Campus Nord.
Esta sala está proveída de micrófonos, cámaras y sensores. Combinando el audio, el vídeo y la información espacial “podemos identificar o verificar quién habla y determinar donde está esta persona”, explica el investigador Javier Hernando. El equipamiento “también tiene capacidad para detectar otros tipos de sonidos (aplausos, música, portazos). Es decir, monitorizar automáticamente la sala y saber en cada momento qué pasa”, afirma Hernando. Estas nuevas metodologías de identificación, detección y reconocimiento de voz y audio para entornos inteligentes se están diseñando en el marco del proyecto SARAI (Speech and Audio Recognition for Ambient Intelligence).
Síguenos en Twitter


