•Notícia

[+ notícies]

3D, el món vist des de múltiples càmeres

Captar una imatge del món real a través de múltiples càmeres i reconstruir-la en 3D s’insinua com una línia de recerca molt prometedora. Investigadors del Grup de Processament d’Imatge i Vídeo (GPI) de la UPC expliquen en quin moment de desenvolupament es troba aquesta tecnologia.

Josep R. Casas (a la dreta) i Javier Ruiz Hidalgo, investigadors del GPI.

14/04/2011

El món que ens envolta és un espai que té tres dimensions (alçària, llargària i profunditat). No obstant això, quan es capta una escena del món real a través d’una càmera es perd la informació de la profunditat o tercera dimensió. Així, doncs, una fotografia no és res més que una projecció del món tridimensional sobre una superfície bidimensional (el pla de la imatge), en la qual es perd informació espacial existent en l’escena original i hi ha una sèrie de limitacions que els investigadors que treballen en aplicacions d’anàlisi i representació d’imatges coneixen prou bé.

“Les limitacions del procés de formació d’una imatge són clares. La projecció té un efecte d’imatge aparent, perquè no es pot obtenir informació sobre la posició que ocupen els objectes dins l’escena, i té un efecte oclusiu; només es veuen les parts dels objectes que són al davant, que no queden ocultes per altres objectes”, explica Josep R. Casas, investigador del Grup de Processament d’Imatge i Vídeo (GPI).

La solució al problema de no poder analitzar o representar el que no es pot veure és utilitzar múltiples sensors (càmeres). “Si utilitzem moltes càmeres simultàniament, podem capturar una escena des de tots els punts de vista i després podem fer-ne una reconstrucció en tres dimensions. És el que s’anomena vídeo de punt de vista lliure, perquè ens permet disposar d’un punt de vista arbitrari, donar la volta a les coses i triar l’observació de l’escenari”, afegeix Casas.

Les tecnologies de processament d’imatge i vídeo estan en constant desenvolupament, però fa 15 anys la comunitat científica no es plantejava treballar amb diverses càmeres simultàniament. Les prestacions dels ordinadors per captar vídeo eren limitades i només estaven disponibles a les estacions de treball de gamma alta o fins i tot als superordinadors especialitzats. Avui dia, gràcies a l’increment de la capacitat dels ordinadors, s’han obert noves possibilitats i s’han ideat noves aplicacions que abans eren impensables.

Els experts afirmen que ara el repte no és capturar imatges de vídeo, sinó de múltiples càmeres. La investigació tecnològica en aquesta àrea tot just està donant les primeres passes. Javier Ruiz Hidalgo, investigador del GPI, explica que la recerca en la generació de continguts multicàmera té a l’horitzó resoldre problemes com ara les dificultats que suposa gestionar múltiples càmeres, la manera com es presenta eficientment la informació tridimensional (com s’analitzen els fluxos de vídeo per posar-los en comú, com es poden referenciar entre ells i com se n’aconsegueix la reconstrucció tridimensional), així com les diferents maneres d’explotar o utilitzar aquest model en tres dimensions.

El GPI, grup adscrit al Departament de Teoria del Senyal i Comunicacions de la UPC, investiga en aquestes tres direccions. Malgrat que encara no es pot parlar de productes concrets, els investigadors albiren que en el futur aquesta tecnologia pot tenir aplicacions en l’anàlisi i la representació d’imatges.

Pel que fa a l’anàlisi, una reconstrucció tridimensional permet analitzar l’escena o l’objecte representat en dimensions reals veient-ne també la part del darrere, amb la qual cosa l’anàlisi és més rica i té més possibilitats. Això obre nous horitzons en àmbits com ara el de la videovigilància: la utilització de múltiples càmeres per controlar l’accés a un edifici dificultaria l’intent d’una persona d’amagarse darrere d’un objecte per evitar que la detecti una càmera.

També ofereix opcions per desenvolupar interfícies visuals entre usuaris i sistemes informàtics. Per establir una connexió entre un usuari i un sistema, són necessàries interfícies físiques, és a dir, eines que permeten enviar una ordre al sistema perquè aquest hi reaccioni. A més de la navegació amb el teclat, la pantalla i el ratolí, ja és habitual l’ús d’altres interfícies com ara la veu. Però per interaccionar en un entorn computacional també es podrien fer servir gestos que el sistema reconegués, i amb la informació tridimensional és més fàcil reconèixer els gestos de l’usuari, com ho demostra el cas del Kinect de Microsoft, un complement de la consola de joc Xbox que analitza les posicions del cos de l’usuari perquè pugui jugar amb el sistema.

Múltiples càmeres

Quant a la representació, les múltiples càmeres ofereixen la possibilitat de representar una escena o objecte d’una altra manera. Si es disposa de la informació tridimensional de l’objecte, es pot renderitzar (reconstruir) i es pot visualitzar des de qualsevol punt de vista. Això pot arribar a ser una revolució en el món de la creació de continguts cinematogràfics o televisius.

reconstrucció en 3d d’una ballarina

En la televisió o el cinema, el principal avantatge d’aquesta tecnologia és que la càmera es pot situar allà on es vulgui. Si això arriba a assolir-se, els experts pensen q u e canviarà el paradigma de la creació de continguts naturals. Actualment, en un rodatge és molt clar que en un costat hi ha d’haver el set de gravació, els actors, l’escenari i el decorat, i a l’altre, les càmeres, els tècnics, els focus i el director. Però si el que es vol és capturar una escena des de tots els punts de vista, caldrà veure on s’acaba ubicant cada element.

A més, avui dia, tot i que habitualment s’enregistra amb moltes càmeres, el realitzador només en tria una. En el futur, el realitzador també determinarà les possibles ubicacions del punt de vista de la càmera virtual (dispositiu imaginari en què es projecta una escena).

Estudiar els gestos i la manera de moure’s d’una persona, i fer-ne el seguiment per reconèixer que es mou d’una manera diferent a una altra, és l’aportació del GPI en el projecte europeu Unobtrusive Authentication Using ACTIvity Related and Soft BIOmetrics (ACTIBIO), l’objectiu del qual és identificar persones a partir de característiques biomètriques dinàmiques. “Això vol dir que els sistemes d’autenticació reconeixeran l’usuari per la manera de moure’s, caminar, fer un gest o moure la mà. Seran sistemes més robustos que els actuals, més difícils d’enganyar, perquè analitzaran l’usuari de manera contínua”, explica Josep Ramon Casas.

D’altra banda, el GPI també treballa en el disseny de la televisió immersiva i interactiva del futur, una tecnologia molt avançada en la qual se centra un altre projecte europeu, el Format-Agnostic SCript-based INterAcTive Experience (FASCINATE). Concretament, en el marc d’aquest projecte, el GPI desenvoluparà la interfície entre l’usuari i el dispositiu que s’utilitzarà per veure l’emissió, del mòbil a l’ordinador o la televisió. “El que es pretén és que l’usuari controli l’aparell sense el ratolí, el teclat o el comandament a distància, sinó, per exemple, amb gestos”, diu Javier Ruiz Hidalgo.

Si bé aquests dos projectes, finançats per la Comissió Europea en el marc del setè Programa marc d’R+D, són iniciatives d’anàlisi, les aplicacions que se’n derivin poden ser múltiples i ben diferents.

A la foto: Reconstrucció en 3D d’una escena a partir de la imatge d’una ballarina captada per vuit càmeres.

L’estèreo ‘versus’ la reconstrucció en 3D
Quan anem al cinema a veure una pel·lícula com Avatar i ens col·loquem unes ulleres especials, no estem veient una imatge en tres dimensions, sinó una imatge estereoscòpica, que és una il·lusió que simula el procés natural de la nostra visió.

El sistema visual humà és un sistema binocular o estereoscòpic, és a dir, disposem de dos sensors, tots dos ulls, els quals, a causa que estan separats horitzontalment, reben dues imatges d’una mateixa escena amb punts de vista lleugerament diferents. El cervell és l’encarregat de superposar-les i interpretar-les produint la sensació de profunditat o visió tridimensional.

Recentment, la indústria cinematogràfica torna a apostar per enregistrar pel·lícules imitant el procés que fa l’ull humà. Per fer-ho es necessiten dues càmeres paral·leles que capturen les escenes alhora. Durant la projecció, la imatge enregistrada amb la càmera esquerra es visualitza únicament amb l’ull esquerre, mentre que la que es grava amb la càmera dreta només es capta amb l’ull dret.

Tot i que ho sembli, l’estèreo no és una tecnologia nova per captar i visualitzar imatges i construir una història. En canvi, sí que ho és la reconstrucció d’imatges en tres dimensions, perquè aporta com a novetat la possibilitat de canviar de punt de vista, triant-lo arbitràriament després d’enregistrar-les.

Segueix-nos a Twitter