Usted está aquí: Inicio > Más noticias > 2006 > La UPC crea la Smart Room, una sala inteligente capaz de comunicarse con el entorno

Noticia

Compartir Share

Un espacio equipado con ordenadores que entienden a las personas

La UPC crea la Smart Room, una sala inteligente capaz de comunicarse con el entorno

Tres grupos de investigación de la UPC, que trabajan conjuntamente en tecnologías de la imagen, la voz y el lenguaje natural en los departamentos de Teoría de la Señal y Comunicaciones y Lenguajes y Sistemas Informáticos, participan en el proyecto europeo CHIL con la construcción de la Smart Room. El responsable del proyecto en la UPC es Josep Ramón Casas del Grupo de Imagen, junto con Climent Nadeu y Jordi Turmo, del Grupo de Voz y del Grupo de Lenguaje Natural integrados en el Centro de Tecnologías y Aplicaciones del Lenguaje y el Habla (TALP).

05/07/2006
La Universitat Politècnica de Catalunya (UPC) ha construido la Smart Room, una sala "inteligente" equipada con múltiples cámaras y micrófonos para investigar la percepción visual y acústica de los sistemas informáticos. El objetivo es que los ordenadores sepan qué pasa a su alrededor para dejar de ser unas herramientas de las que sólo podemos obtener ayuda como reacción a pedidos muy específicos del operador. Si los ordenadores conocen su entorno, podrán adaptarse e interactuar con nosotros de la misma forma que se relacionan las personas. Las tecnologías de la interfaz de percepción deben permitir que, en un futuro muy lejano, los sistemas informáticos nos puedan ayudar mejor a realizar nuestro trabajo de cada día, con sus servicios de información.

La Smart Room es un espacio inteligente diseñado a imagen de una sala de reuniones, con una mesa central y sillas alrededor. Una de las paredes es móvil y permite convertir la sala en un aula con el laboratorio adyacente. Se ha instalado una red de sensores audiovisuales (cámaras y micrófonos), equipos de sincronización y adquisición, una red informática, ordenadores de procesamiento y proyector de vídeo, entre otros dispositivos. La sala inteligente es una instalación imprescindible para los investigadores de la UPC que investigan interfaces multimodales. Las señales audiovisuales adquiridas permiten desarrollar técnicas de análisis de audio y vídeo, así como experimentar con demostradores los servicios que se pueden ofrecer en las dos configuraciones de sala de reuniones y de aula docente.

La Smart Room de la UPC forma parte del proyecto europeo CHIL, Computers in the Human Interaction Loop, un proyecto con 15 socios de diferentes países, universidades y centros de investigación de toda Europa y de los Estados Unidos, que investigan tecnologías de interfaz entre personas y ordenadores. El proyecto CHIL estudia tecnologías de análisis que generan descripciones del entorno y de los acontecimientos que se producen en un espacio inteligente, así como las herramientas imprescindibles para la interacción con las personas.

A largo plazo, el objetivo fundamental de CHIL es cambiar el paradigma de las interfaces informáticas (HCI – Human Computer Interfaces). Actualmente el centro de atención es el ordenador y, en el futuro, se quiere centrar la atención en el usuario y no en la máquina. Los ambientes inteligentes deben disponer de toda la información relativa al quién, qué, cómo, dónde, cuándo y porqué de las personas presentes en este entorno de interacción, para actuar e interaccionar correctamente.

Las señales de los sensores audiovisuales son procesadas por sistemas de computación que están distribuidos en una arquitectura de agentes de diferentes niveles de complejidad. En el nivel inferior está la infraestructura de red y los flujos de señales de audio y vídeo que alimentan los componentes de percepción. En un nivel intermedio, estos componentes de percepción son los elementos básicos que detectan el quién, qué, cómo, dónde, cuándo y porqué. Los modelos particulares del entorno, de las personas y de las relaciones entre ellos permiten inferir la situación que se produce. En el nivel superior, el análisis de la situación detectada faculta al sistema para que tenga la capacidad de decidir como proveer el servicio (de información) adecuado en cada momento.

El CHIL desarrolla prototipos de servicios básicos que actúan como demostradores de la utilidad del análisis del entorno y de las interfaces multimodales. De estos servicios se destacan dos. El ‘Memory Jog', que ayuda a la memoria, proveyendo información pertinente de manera proactiva o reactiva. Por ejemplo, si en una reunión nos encontramos con una persona de la que no recordamos el nombre. El sistema puede proporcionar información de forma automática sobre quien es esta persona. El ‘Conector' es otro servicio que ayuda a poner en contacto a las personas a través del dispositivo adecuado en el momento adecuado. Esto evita la situación de hacer múltiples llamadas infructuosas y, a menudo, inoportunas, para encontrar el momento de comunicarse con un interlocutor.

Análisis de la actividad humana
Los aspectos relacionados con el lenguaje, como el reconocimiento del habla, son fundamentales en el análisis de la actividad humana para la interacción en espacios inteligentes. Actualmente, se investigan reconocedores robustos del habla con micrófonos distantes, de forma que no se estorben a las personas haciéndoles llevar cables y las petacas de los micrófonos. Por otro lado, las tecnologías visuales trabajan en el análisis de presencia, localización y movimientos de las personas, en el reconocimiento de las caras, en la detección de gestos, miradas y posturas, y en la detección de actividades, actitudes e interacciones. Las técnicas de detección, clasificación y reconocimiento basadas en señales de múltiples sensores —como por ejemplo localización visual y acústica, reconocimiento de personas por la voz y la cara, o detección de actividad por el sonido y las imágenes— prometen mejorar la robustez de los sistemas de análisis actuales.

Como ejemplo práctico del análisis acústico de la escena, imaginamos que llegamos tarde a una reunión de trabajo. El sistema de análisis de percepción puede haber reconocido quien ha hablado y lo que se ha dicho en la parte de la reunión que no hemos estado y, en el momento de incorporarnos, informarnos con un resumen de lo que ha pasado mientras no estábamos. Para lograr este objetivo hará falta: 1) localizar los interlocutores, 2) focalizar la sensibilidad acústica de la sala en sus posiciones para tener señales más limpias de ruido y de interferencias en los micrófonos distantes, 3) identificar los intervalos en qué han hablado, 4) procesar la señal con un reconocedor del habla que genere una transcripción de lo que se ha dicho y, finalmente, 5) procesar con un dispositivo el resumen.

Si nos centramos en las tecnologías de análisis visual, reconocer la actividad humana tampoco resulta fácil. Las personas ofrecemos una imagen muy variable a los sensores: nuestro cuerpo es dinámico, articulado y deformable, lo usamos para actuar en el entorno, para expresarnos e interaccionar con los otros, nos gusta cubrirnos con tejidos diferentes y objetos diversos y, a menudo, acostumbramos a aparecer en grupo más que aisladamente, generando oclusiones que dificultan la visión. Todo y los obstáculos mencionados, el procesamiento de las imágenes que “ven” las cámaras situadas en el entorno puede proporcionar al sistema información relevante para “entender” la escena.

Con respecto al análisis visual de la escena, la extracción de datos sobre posición, actitud o gestos de las personas permiten tener información de alto nivel semántico del entorno observado: desde saber si una persona está derecha o sentada, hasta hacer el recuento de votos (a mano alzada) en una votación o detectar la actividad que se está desarrollando en la sala. La Smart Room de la UPC permite generar una reconstrucción virtual 3D de la escena a partir de las imágenes de múltiples cámaras.

El análisis de la reconstrucción 3D permite detectar personas (para diferenciarlas de una silla, por ejemplo) y analizar su estructura ajustando un modelo jerárquico del cuerpo humano. En función de la complejidad del modelo, se puede obtener información detallada sobre la actitud postural de la persona y se puede hacer un análisis semántico más complejo para detectar interacciones entre individuos (detectar dónde se concentra la atención de los asistentes en una reunión según dónde está mira).

La combinación "multimodal" de las tecnologías de análisis acústico y visual aumenta la robustez y la capacidad del sistema para entender el entorno. Aun queda muy lejos que se consiga confundir el comportamiento de una máquina con el de una persona, y el día en qué la máquina nos entienda y se comporte “naturalmente”. Los investigadores trabajan para avanzar en este ámbito con el objetivo de hacernos la vida más fácil y cómoda. Infraestructuras como las salas inteligentes permiten a los investigadores trabajar en tecnologías de interfaces multimodales para los sistemas de interacción natural. Sistemas que procesan las señales que “ven” y “sienten” los sensores, que “entienden” su entorno sin esperar que alguien los diga qué es. Ordenadores-ayudantes que seleccionan adecuadamente las señales que “muestran” y “dicen” a las personas. Sistemas, en definitiva, capaces de gestionar la complejidad de la interacción humana para dar respuesta a nuestras necesidades de información y comunicación.


Departamento de Teoria de la Señal y Comunicaciones
Departamento de Lenguajes y Sistemas Informáticos
2006-07-05

Síguenos en Twitter Abrir el enlace en una nueva ventana
Es noticia
El astrofísico Kip S. Thorne, investido doctor 'honoris causa' por la UPC Kip S. Thorne, doctor 'honoris causa' por la UPC, distinguido con el Premio Nobel de Física El astrofísico estadounidense Kip S. Thorne, doctor ‘honoris causa’ por la Universitat ... [leer +]
'Moonit' acerca al público visitante a tecnología aeroespacial del futuro. La UPC y CosmoCaixa organizan 'Moonit' para descubrir la tecnología aeroespacial del futuro El próximo sábado, 7 de octubre, de 19 a 24 horas, tendrá lugar en el CosmoCaixa de Barcelona la ... [leer +]
El dispositivo sin cables WOMEN-UP que se presenta en el IOT Solutions World Congress. Tecnología avanzada de la UPC, en el IOT Solutions World Congress La Universitat Politècnica de Catalunya (UPC) dará a conocer soluciones avanzadas en diferentes ... [leer +]
Con la colaboración de:
Fundación Española para la Ciencia y la Tecnología Año de la Ciencia 2007 Ministerio de Ciencia e Innovación
Esta web utiliza cookies propias para ofrecerle una mejor experiencia y servicio. Si continúa la navegación, entendemos que acepta nuestra política de cookies Abrir el enlace en una ventana nueva.
Oficina de Mitjans de Comunicació.
C/ Jordi Girona 31, 08034 Barcelona Tel.: +34 93 401 61 43
oficina.mitjans.comunicacio@(upc.edu)
© UPC Abrir el enlace en una nueva ventana. Universitat Politècnica de Catalunya · BarcelonaTech