•Notícia
Reportatge publicat a la revista Informacions, número 256 (gener-febrer 2013)
Parlant amb les màquines
Les tecnologies de la llengua han evolucionat i han despertat un gran interès els darrers anys, ja que faciliten la interacció entre les persones i els ordinadors i milloren l’accessibilitat als sistemes d’informació. Però, quina és la ciència que hi ha darrere d’aquestes tecnologies? Investigadors del Centre de Tecnologies i Aplicacions del Llenguatge i la Parla de la UPC ho expliquen aquí.
15/03/2013
Per tecnologies de la llengua s’entén un conjunt de tècniques, coneixements i recursos necessaris per construir sistemes informàtics capaços de comprendre, interpretar i generar totes les formes del llenguatge humà. S’acostuma a distingir entre les tecnologies centrades en la llengua parlada i les que són pròpies del tractament de la llengua escrita.
En els darrers anys, hem vist com aquestes tecnologies han deixat de ser prototips als centres de recerca i s’han incorporat progressivament a la rutina diària de milions de persones. Ens beneficiem d’aquestes tecnologies quan escrivim documents amb l’ajut de correctors ortogràfics i gramaticals integrats en els processadors de textos; escoltem el correu electrònic a través del mòbil; demanem informació a través de sistemes de diàleg telefònic o dictem textos que s’escriuen automàticament en la pantalla de l’ordinador. També estan presents quan traduïm de forma automàtica textos entre diverses llengües mitjançant un servei de traducció en xarxa; utilitzem resumidors automàtics o trobem informació a través d’un motor de cerca web. Aquestes aplicacions i un llarg etcètera són cada cop més habituals i no paren de créixer i estendre’s.
Algunes d’aquestes innovacions les desenvolupen equips com ara el del Centre de Tecnologies i Aplicacions del Llenguatge i la Parla (TALP), un centre de recerca interdepartamental de la UPC que treballa en aquest àmbit tecnològic a través dels seus dos grups: el de Tractament de la Parla, del Departament de Teoria del Senyal i Comunicacions, i el de Processament del Llenguatge Natural, del Departament de Llenguatges i Sistemes Informàtics.
Pel que fa a les tecnologies de la parla, s’investiga en el reconeixement de la parla, la síntesi de veu, la traducció automàtica de la llengua oral i el reconeixement de locutors per característiques biomètriques.
“El reconeixement de la parla fa possible que les màquines entenguin el que diem i executin les nostres ordres en transformar la veu en text, sense que calgui tenir les mans ocupades en el teclat o el ratolí”, explica Asunción Moreno, professora del Departament de Teoria del Senyal i Comunicacions i investigadora del Grup de Tractament de la Parla. Però fer que els ordinadors reconeguin les nostres paraules no és una tasca senzilla. Aquest grup desenvolupa sistemes que es basen en models estadístics que requereixen moltes dades. “El secret és disposar sempre de grans bases de dades orals per entrenar els sistemes, en què les dades provenen de l’enregistrament de la veu de moltes persones, homes i dones, d’edats diverses i de procedències dialectals distintes, i en diferents entorns”, afegeix la investigadora.
D’altra banda, la síntesi de veu permet fer la funció inversa a la del reconeixement de la parla: convertir un text determinat en veu. En aquest cas, un dels reptes de la recerca actual és aconseguir que el sistema sigui capaç de generar una prosòdia adequada. Això vol dir que la veu sintètica que es genera ha de ser intel·ligible i el més natural possible. A més a més, l’estil també s’ha d’adequar a l’aplicació que es vulgui desenvolupar, perquè no és el mateix parlar amb un nen que amb una màquina o que explicar les notícies; són situacions que requereixen registres diferents.
Un dels projectes punters en el qual ha participat el Grup de Tractament de la Parla s’anomena Tecnoparla. La iniciativa, finançada per la Secretaria de Política Lingüística de la Generalitat de Catalunya, ha servit per generar recursos lingüístics i de tecnologia de la parla en català. En el marc del projecte també s’ha desenvolupat un sistema de subtitulació i traducció automàtica dissenyat per a programes televisius de notícies o de debat.
“Ha estat un projecte ambiciós que ha permès col·locar el català en una bona posició respecte d’altres idiomes europeus pel que fa a l’aplicació d’aquesta àrea tecnològica”, explica l’investigador Adrián Rodríguez Fonollosa, del mateix grup de recerca.
A més a més, gràcies al coneixement adquirit amb Tecnoparla, els investigadors han col·laborat amb Televisió de Catalunya en el projecte Buscamedia, “en el qual s’ha desenvolupat la tecnologia necessària per generar automàticament la subtitulació en català dels seus programes tant en directe com en diferit”, explica Rodríguez Fonollosa.
Una de les raons que expliquen aquest renovat interès és que vivim en un escenari multilingüe. A Europa es parlen prop de 60 idiomes, 23 dels quals són oficials, i per facilitar la comunicació entre persones o l’accés a informació en una altra llengua calen eines eficaces que, per exemple, semiautomatitzin la traducció dels textos que cada dia es generen a les institucions comunitàries.
Per abordar la traducció automàtica es pot utilitzar un plantejament estadístic, en el qual el sistema aprèn a traduir a partir de corpus bilingües alineats (textos paral·lels en dues o més llengües).
El sistema és capaç de fer totes les combinacions possibles i construir la traducció més probable d’una frase o d’un fragment de frase. Un enfocamentmés sofisticat són els sistemes basats en regles. La idea bàsica és representar el text d’origen en una llengua intermèdia abstracta (llenguatge interlingua) i independent de les dues llengües (inicial i final), i posteriorment traduir el text a la llengua de destí.
“Els sistemes basats en el llenguatge interlingua funcionen molt bé en dominis delimitats, amb un vocabulari reduït, però són incapaços d’enfrontar-se a la pràctica de la llengua de cada dia”, afirma l’investigador Lluís Màrquez.
Els sistemes entrenats en corpus —assegura el professor— són capaços d’aprendre molt ràpidament i d’adaptar-se a la llengua dels textos reals. “Tanmateix, els sistemes purament estadístics aviat troben també el seu sostre. La solució segurament passa per desenvolupar sistemes híbrids, que explotin el millor de cada enfocament”, conclou Màrquez.
La traducció automàtica és precisament una de les àrees bàsiques en què investiga el Grup de Processament del Llenguatge Natural. Un dels projectes destacats en què participa és FAUST (Feedback Analysis for User Adaptive Statistical Translation). L’objectiu és desenvolupar sistemes de traducció automàtica que s’adaptin al feedback de l’usuari en temps real. Amb els resultats de FAUST es preveu millorar el web de traducció Reverso.net i donar a l’usuari l’oportunitat de corregir els resultats de la traducció.
Aquest text nou es farà servir per anar millorant el traductor. La societat actual posa al nostre abast una gran quantitat d’informació. “Per resoldre el problema de la sobresaturació d’informació i fer que l’accés a la informació sigui eficaç, ràpid i senzill, es poden utilitzar tècniques de recuperació, extracció i gestió d’informació que incorporen elements del processament del llenguatge natural”, apunta Lluís Padró, investigador i director del TALP.
Aquesta línia de recerca inclou desenvolupar sistemes que permetin processar grans quantitats de textos amb la finalitat, per exemple, de recuperar documents i passatges textuals a partir d’una classificació automàtica segons el contingut, o identificar les parts rellevants d’un text per fer-ne un resum automàtic, detectar un esdeveniment o respondre una pregunta.
“D’exemples de possibles aplicacions n’hi ha molts. Nosaltres hem acumulat expertesa en analitzar documents, extreure’n informació, traduir-los, vincular-los i relacionar-los”, conclou Padró.
En els darrers anys, hem vist com aquestes tecnologies han deixat de ser prototips als centres de recerca i s’han incorporat progressivament a la rutina diària de milions de persones. Ens beneficiem d’aquestes tecnologies quan escrivim documents amb l’ajut de correctors ortogràfics i gramaticals integrats en els processadors de textos; escoltem el correu electrònic a través del mòbil; demanem informació a través de sistemes de diàleg telefònic o dictem textos que s’escriuen automàticament en la pantalla de l’ordinador. També estan presents quan traduïm de forma automàtica textos entre diverses llengües mitjançant un servei de traducció en xarxa; utilitzem resumidors automàtics o trobem informació a través d’un motor de cerca web. Aquestes aplicacions i un llarg etcètera són cada cop més habituals i no paren de créixer i estendre’s.
Algunes d’aquestes innovacions les desenvolupen equips com ara el del Centre de Tecnologies i Aplicacions del Llenguatge i la Parla (TALP), un centre de recerca interdepartamental de la UPC que treballa en aquest àmbit tecnològic a través dels seus dos grups: el de Tractament de la Parla, del Departament de Teoria del Senyal i Comunicacions, i el de Processament del Llenguatge Natural, del Departament de Llenguatges i Sistemes Informàtics.
Pel que fa a les tecnologies de la parla, s’investiga en el reconeixement de la parla, la síntesi de veu, la traducció automàtica de la llengua oral i el reconeixement de locutors per característiques biomètriques.
“El reconeixement de la parla fa possible que les màquines entenguin el que diem i executin les nostres ordres en transformar la veu en text, sense que calgui tenir les mans ocupades en el teclat o el ratolí”, explica Asunción Moreno, professora del Departament de Teoria del Senyal i Comunicacions i investigadora del Grup de Tractament de la Parla. Però fer que els ordinadors reconeguin les nostres paraules no és una tasca senzilla. Aquest grup desenvolupa sistemes que es basen en models estadístics que requereixen moltes dades. “El secret és disposar sempre de grans bases de dades orals per entrenar els sistemes, en què les dades provenen de l’enregistrament de la veu de moltes persones, homes i dones, d’edats diverses i de procedències dialectals distintes, i en diferents entorns”, afegeix la investigadora.
D’altra banda, la síntesi de veu permet fer la funció inversa a la del reconeixement de la parla: convertir un text determinat en veu. En aquest cas, un dels reptes de la recerca actual és aconseguir que el sistema sigui capaç de generar una prosòdia adequada. Això vol dir que la veu sintètica que es genera ha de ser intel·ligible i el més natural possible. A més a més, l’estil també s’ha d’adequar a l’aplicació que es vulgui desenvolupar, perquè no és el mateix parlar amb un nen que amb una màquina o que explicar les notícies; són situacions que requereixen registres diferents.
Un dels projectes punters en el qual ha participat el Grup de Tractament de la Parla s’anomena Tecnoparla. La iniciativa, finançada per la Secretaria de Política Lingüística de la Generalitat de Catalunya, ha servit per generar recursos lingüístics i de tecnologia de la parla en català. En el marc del projecte també s’ha desenvolupat un sistema de subtitulació i traducció automàtica dissenyat per a programes televisius de notícies o de debat.
“Ha estat un projecte ambiciós que ha permès col·locar el català en una bona posició respecte d’altres idiomes europeus pel que fa a l’aplicació d’aquesta àrea tecnològica”, explica l’investigador Adrián Rodríguez Fonollosa, del mateix grup de recerca.
A més a més, gràcies al coneixement adquirit amb Tecnoparla, els investigadors han col·laborat amb Televisió de Catalunya en el projecte Buscamedia, “en el qual s’ha desenvolupat la tecnologia necessària per generar automàticament la subtitulació en català dels seus programes tant en directe com en diferit”, explica Rodríguez Fonollosa.
Eliminant les barreres lingüístiques
El somni de fer servir ordinadors per fer traduccions automàtiques d’una llengua a qualsevol altra, amb qualitat i rapidesa, no s’ha arribat a complir. No obstant això i després d’unes dècades aturada, la traducció automàtica s’ha convertit en una àrea d’investigació molt activa. Una de les raons que expliquen aquest renovat interès és que vivim en un escenari multilingüe. A Europa es parlen prop de 60 idiomes, 23 dels quals són oficials, i per facilitar la comunicació entre persones o l’accés a informació en una altra llengua calen eines eficaces que, per exemple, semiautomatitzin la traducció dels textos que cada dia es generen a les institucions comunitàries.
Per abordar la traducció automàtica es pot utilitzar un plantejament estadístic, en el qual el sistema aprèn a traduir a partir de corpus bilingües alineats (textos paral·lels en dues o més llengües).
El sistema és capaç de fer totes les combinacions possibles i construir la traducció més probable d’una frase o d’un fragment de frase. Un enfocamentmés sofisticat són els sistemes basats en regles. La idea bàsica és representar el text d’origen en una llengua intermèdia abstracta (llenguatge interlingua) i independent de les dues llengües (inicial i final), i posteriorment traduir el text a la llengua de destí.
“Els sistemes basats en el llenguatge interlingua funcionen molt bé en dominis delimitats, amb un vocabulari reduït, però són incapaços d’enfrontar-se a la pràctica de la llengua de cada dia”, afirma l’investigador Lluís Màrquez.
Els sistemes entrenats en corpus —assegura el professor— són capaços d’aprendre molt ràpidament i d’adaptar-se a la llengua dels textos reals. “Tanmateix, els sistemes purament estadístics aviat troben també el seu sostre. La solució segurament passa per desenvolupar sistemes híbrids, que explotin el millor de cada enfocament”, conclou Màrquez.
La traducció automàtica és precisament una de les àrees bàsiques en què investiga el Grup de Processament del Llenguatge Natural. Un dels projectes destacats en què participa és FAUST (Feedback Analysis for User Adaptive Statistical Translation). L’objectiu és desenvolupar sistemes de traducció automàtica que s’adaptin al feedback de l’usuari en temps real. Amb els resultats de FAUST es preveu millorar el web de traducció Reverso.net i donar a l’usuari l’oportunitat de corregir els resultats de la traducció.
Aquest text nou es farà servir per anar millorant el traductor. La societat actual posa al nostre abast una gran quantitat d’informació. “Per resoldre el problema de la sobresaturació d’informació i fer que l’accés a la informació sigui eficaç, ràpid i senzill, es poden utilitzar tècniques de recuperació, extracció i gestió d’informació que incorporen elements del processament del llenguatge natural”, apunta Lluís Padró, investigador i director del TALP.
Aquesta línia de recerca inclou desenvolupar sistemes que permetin processar grans quantitats de textos amb la finalitat, per exemple, de recuperar documents i passatges textuals a partir d’una classificació automàtica segons el contingut, o identificar les parts rellevants d’un text per fer-ne un resum automàtic, detectar un esdeveniment o respondre una pregunta.
“D’exemples de possibles aplicacions n’hi ha molts. Nosaltres hem acumulat expertesa en analitzar documents, extreure’n informació, traduir-los, vincular-los i relacionar-los”, conclou Padró.
Què passa a la sala?
Altres tecnologies complementàries de la parla permeten reconèixer una persona de forma automàtica mitjançant la seva veu (reconeixement del locutor), la llengua que parla (reconeixement de la llengua o el dialecte), el seu estat emocional (reconeixement d’emocions) i si allò que escoltem és veu, música o un altre tipus de so. El desenvolupament d’aquestes tecnologies ha experimentat un creixent interès en els darrers anys per les múltiples aplicacions que té, com ara els controls d’accés, la investigació policial i la indexació de programes de ràdio i televisió, entre d’altres.
En aquest àmbit tecnològic, el Grup de Tractament de la Parla desenvolupa noves metodologies per a la identificació i la detecció d’esdeveniments acústics i el reconeixement de la parla en un ambient com és la sala intel·ligent multimodal de la UPC, situada al Campus Nord.
Aquesta sala està proveïda de micròfons, càmeres i sensors. Combinant l’àudio, el vídeo i la informació espacial “podem identificar o verificar qui parla i determinar on és aquesta persona”, explica l’investigador Javier Hernando. L’equipament “també té capacitat per detectar altres tipus de sons (aplaudiments, música, cops de porta). És a dir, monitorar automàticament la sala i saber en cada moment què hi passa”, afirma Hernando. Aquestes noves metodologies d’identificació, detecció i reconeixement de veu i àudio per a entorns intel·ligents s’estan dissenyant en el marc del projecte SARAI (Speech and Audio Recognition for Ambient Intelligence).
Altres tecnologies complementàries de la parla permeten reconèixer una persona de forma automàtica mitjançant la seva veu (reconeixement del locutor), la llengua que parla (reconeixement de la llengua o el dialecte), el seu estat emocional (reconeixement d’emocions) i si allò que escoltem és veu, música o un altre tipus de so. El desenvolupament d’aquestes tecnologies ha experimentat un creixent interès en els darrers anys per les múltiples aplicacions que té, com ara els controls d’accés, la investigació policial i la indexació de programes de ràdio i televisió, entre d’altres.
En aquest àmbit tecnològic, el Grup de Tractament de la Parla desenvolupa noves metodologies per a la identificació i la detecció d’esdeveniments acústics i el reconeixement de la parla en un ambient com és la sala intel·ligent multimodal de la UPC, situada al Campus Nord.
Aquesta sala està proveïda de micròfons, càmeres i sensors. Combinant l’àudio, el vídeo i la informació espacial “podem identificar o verificar qui parla i determinar on és aquesta persona”, explica l’investigador Javier Hernando. L’equipament “també té capacitat per detectar altres tipus de sons (aplaudiments, música, cops de porta). És a dir, monitorar automàticament la sala i saber en cada moment què hi passa”, afirma Hernando. Aquestes noves metodologies d’identificació, detecció i reconeixement de veu i àudio per a entorns intel·ligents s’estan dissenyant en el marc del projecte SARAI (Speech and Audio Recognition for Ambient Intelligence).
Segueix-nos a Twitter