02 de diciembre, 2013
Artículo indiespensable
Indiespensable
Dev Lavde #14 — La televisión (Tercera Parte)

¿Alguien recuerda discutir sobre la tasa de fotogramas de Sonic frente a la de Mario? Antes no nos preocupábamos tanto por esas cosas, pero hace unas semanas parecía que si Forza Motorsport 5 no era capaz de funcionar a 60 FPS se hundiría el futuro de la Xbox One. ¿Por qué ha de importarnos? ¿Por qué no vemos el parpadeo de las pantallas? ¿Qué tiene que ver una corriente de la psicología de principios del siglo XX con la televisión y los videojuegos? Tomad mucho aire y leed, tal vez encontréis respuesta a esas cuestiones aquí. Y si no os complacen, siempre podéis descargar el estrés discutiendo sobre la frecuencia de fotogramas de los juegos next-gen en otros medios más masificados que esta humilde casa.

Habíamos quedado en que las televisiones y pantallas funcionaban componiendo imágenes una detrás de otra a gran velocidad, lo que percibimos con una cierta sensación de continuidad y movimiento. Para tener una medida sobre este efecto se usan los FPS. Por si hay alguien que no sabe lo que significa le ahorraré buscar en la Wikipedia: FPS se refiere a Fotogramas Por SegundoFrames per Second»). Es decir: el número de imágenes que una pantalla muestra por cada segundo de tiempo. Esta cifra de FPS nos dice la frecuencia con la que se alternan las imágenes que componen la animación, por lo que también se puede medir en Hz que es la unidad estándar para la frecuencia (siendo 1 Hz equivalente a 1 FPS). Sabemos que si la frecuencia es baja se notan discontinuidades en la animación, así que, ¿cuál es la frecuencia a partir de la cual el movimiento es perfectamente fluido? Tenemos entendido que cuanto más mejor, pero ¿de qué depende? Por lo pronto, saquemos a la luz algunas cifras.

FPS

Las primeras películas de cine mudo funcionaban a una tasa de entre 15 y 18 FPS. En estas películas se aprecian saltos entre fotogramas, aunque sin llegar a parecer una secuencia de imágenes sueltas. Con la mejora de la tecnología y la inclusión del sonido se estandarizaron los 24 FPS. A esa frecuencia, ya no se percibe ningún salto y, a pesar de que actualmente la tecnología podría permitir muchísimo más, es la que se sigue usando para prácticamente todas las películas. De hecho, a pesar del empeño de Peter Jackson en rodar El Hobbit (2012) a 48 FPS, no ha calado suficiente en Hollywood como para convertirse en la norma por el momento.

Los estándares de televisión suelen ser también de 24 o 25 FPS, debido sobretodo a las restricciones de la señal de vídeo. Si bien el cine se proyectaba desde un rollo de cinta y la decisión de los 24 FPS tenía que ver más con la forma de incluir el sonido que otra cosa, la tecnología televisiva, bastante más compleja, tenía otras restricciones derivadas de la red eléctrica utilizada para componer la señal. Actualmente se anuncian televisiones que refrescan la pantalla a 120, 300 o incluso 600 Hz, lo que no significa que la señal tenga esa frecuencia de fotogramas por segundo. La razón de esas tasas de refresco la encontraremos un poco más adelante.

A los juegos, en cambio, les pedimos más frecuencia que a la televisión o el cine. Como mínimo, 30 FPS, frecuencia a la cual se pueden percibir algunas ralentizaciones o saltos. Es a partir de unos 60 FPS cuando, supuestamente, se dejan de observar esas ralentizaciones. No es de extrañar, por tanto, que las grandes desarrolladoras traten de soportar esta tasa en los últimos juegos para la recentísima generación de consolas, ya veremos si tienen éxito. ¿Es realmente necesario? ¿Por qué en el cine o la televisión se necesitan menos FPS? Como veremos a continuación, hay muchos factores que influyen en la percepción de movimiento fluido en una secuencia de imágenes.

En las imágenes a la derecha de esta sección, podemos ver ejemplos de distintas tasas de fotogramas por segundo para una misma secuencia. Se puede observar, que entre la animación a 25 FPS y la que va a 50 FPS no hay demasiada diferencia, pero se percibe un poco más fluida la de mayor frecuencia.

La vista

Para responder a todas esas preguntas que he planteado y entender lo mejor posible el fenómeno de las frecuencias de actualización de pantalla, quizá debemos empezar por entender algunos aspectos de cómo funciona el sentido de la vista. La cuestión aquí es tener en cuenta que en el fenómeno de la visión intervienen tanto los ojos como el cerebro.

El ojo

El ojo humano es un órgano tan interesante, que ha sido el objeto de mitos, historias, y miles de teorías. Incluso ha sido usado durante años como excusa para intentar negar las maravillas de la evolución: ¿cómo puede ser fruto del azar algo tan complejo?

Dejando a un lado ese debate (y desde un punto de vista científico poco hay que debatir al respecto), el funcionamiento del ojo se debe a unas células especializadas llamadas conos y bastones. Cuando la luz entra en los ojos, transmite energía a éstas células, que son las encargadas de producir impulsos nerviosos que se difunden al cerebro para formar imágenes, o, al menos, darnos esa sensación.

La luz, por aquello de la dualidad onda-corpúsculo, en algunos aspectos se comporta como una onda, lo que significa que una de sus propiedades es la frecuencia. En el sonido, la frecuencia nos permite distinguir entre distintas notas, y en la luz, los distintos colores. El ojo humano posee tres tipos distintos de conos especializados cada uno en un grupo de frecuencias correspondientes, como no podía ser de otra forma, a los colores rojo, verde y azul, lo que nos permite distinguir una determinada y acotada gama de colores. Algunos animales, como aves y reptiles, disponen de más tipos distintos de conos que les permiten diferenciar un espectro más amplio de colores, siendo uno de los animales con la visión más compleja la mantis marina, que posee hasta 12 tipos distintos de esta clase de células.

Los bastones, en cambio no distinguen colores, pero sí son sensibles a los cambios en la luminosidad, por lo que son útiles a la hora de la percepción de movimiento o la visión nocturna.

Todas estas células fotosensibles, además, no están distribuidas uniformemente sobre la superficie de la retina, sino que hay un mayor número de conos en la zona central (la fóvea), siendo más abundantes los bastones en la periferia. Incluso hay una pequeña zona en la que no hay ningún receptor de luz. Es por ello que nuestra visión periférica tiene menor detalle, pero mayor respuesta a los cambios o el movimiento, y existe una zona muerta o punto ciego (esto último se puede comprobar fácilmente siguiendo las instrucciones de la figura).

El cerebro

La información recibida de los ojos es incompleta, sin embargo no lo notamos. Esto es porque el cerebro se encarga de rellenar los huecos, de la misma forma que ocurre con el punto ciego. Nuestro cerebro reconstruye una realidad completa a partir de una cantidad enorme de información que nuestros sentidos recaban. Es por ello que, aunque exista una zona sin receptores de luz y el punto de la figura desaparezca por completo, seguimos viendo una imagen continua, sin agujeros.

El cerebro hace mucho más que simplemente formar una imagen. El cerebro interpreta, reconstruye, completa, y manipula lo que hay delante de nuestros ojos. También ignora y oculta aquello que no es importante o necesario (éste ejercicio es un buen ejemplo de ello). Y además entra en juego el aprendizaje, ya que a lo largo de nuestra vida nos acostumbramos a percibir ciertos patrones como las letras: podemos ver una misma letra escrita de innumerables formas distintas y en nuestra cabeza sigue representando el mismo carácter. No era así a los 2 años de edad.

La persistencia retiniana, la Gestalt y el fenómeno Phi

Se ha especulado muchísimo sobre cómo se produce la percepción de movimiento cuando alternamos distintas imágenes, y la primera teoría que se formuló con mayor o menor acierto es la persistencia retiniana. Según esta teoría, la visión tendría un funcionamiento parecido a una cámara: las imágenes que recibimos tendrían que permanecer un cierto tiempo en la retina (alrededor de cinco-diez milisegundos), para ser captadas correctamente, lo que permitiría que no se observase la discontinuidad en una bombilla que parpadea muy deprisa, o los saltos entre imágenes que se alternan a gran velocidad. Sin embargo, ya que no parece haber ninguna evidencia científica de esta persistencia en la retina, se ha extendido a que es el cerebro el que almacena la imagen durante ese tiempo, pasando a llamarse persistencia en la visión. Aún así, sigue habiendo bastantes detractores de esta teoría que argumentan que no tiene ninguna base científica.

A principios del siglo XX, varios psicólogos realizaron una serie de experimentos sobre la percepción, que llevaron a una serie de principios, iniciando la corriente conocida como Psicología de la Gestalt (o psicología de la forma), de la que la frase «El todo es mayor que la suma de sus partes» es su máxima expresión. Esos principios, describen fenómenos como el reconocimiento de formas independientemente de su posición y rotación o la ambigüedad que producen ciertas imágenes que tienen varias interpretaciones simultáneas, como el tridente imposible o el triángulo de Penrose.

Pero lo que nos interesa de esta corriente psicológica, dado el tema en cuestión, son los experimentos que tienen que ver con la percepción de movimiento aparente que, se supone, iniciaron la corriente. Mediante experimentos en los que se alternaba, a distintas velocidades, una imagen con una línea a la derecha y otra imagen con la misma línea a la izquierda, describieron lo que denominaron el «fenómeno Phi», que produce una sensación de movimiento, cuando los fotogramas se alternaban a suficiente velocidad. Lo interesante de este efecto Phi, es que se observa un movimiento sin que haya nada que se mueva realmente, no hay nada que cambie de posición.

Lo que se dedujo de todos estos experimentos y pruebas, es que la visión no funciona como una cámara. Es mucho más complejo que eso. El cerebro está especializado en dar respuesta a una serie de estímulos visuales, y reacciona a los cambios más que a otra cosa, es capaz de reconstruir lo que no podemos ver, y reconocer ciertas formas y patrones inmediatamente.

FACTORES QUE INFLUYEN EN LA PERCEPCIÓN DE MOVIMIENTO

Lo cierto es que la sensación de movimiento producida cuando se suceden distintas imágenes delante de nuestros ojos depende de muchos factores. Uno de ellos es el llamado «Motion-Blur» o desenfoque de movimiento. Cuando algo se mueve muy deprisa delante de nuestros ojos, lo percibimos emborronado. Por ello, nuestro cerebro suele catalogar inmediatamente algo emborronado como algo que se mueve. Las cámaras, al grabar, también son susceptibles al Motion-Blur al igual que el ojo humano, por lo que el cine o la televisión, normalmente llevan este efecto. Y se incluye también incluso en las imágenes generadas por ordenador. En los juegos, sin embargo, el efecto de desenfoque por movimiento no suele estar suficientemente logrado, y a menudo no se utiliza, por lo que las imágenes suelen tener una definición completa continuadamente. Lo que, sin duda, afecta negativamente a la percepción de movimiento y fluidez.

Otro factor son los parpadeos. Las pantallas, tanto de cine, como televisión, funcionan a base de destellos de muy corta duración. Si la frecuencia de actualización es baja, el efecto de este parpadeo es notable. Es por ello que los proyectores de cine muestran tres veces el mismo fotograma, de esta forma, los parpadeos son de menor duración y resultan imperceptibles. Los televisores de altas frecuencias de actualización (de 120 Hz en adelante) también tienen como objeto reducir el parpadeo. Estas televisiones modernas suelen incluir tecnología para realizar interpolaciones entre fotogramas, con el objetivo de dar una mayor fluidez visual. Encontraremos esta técnica detrás de nombres como «TruMotion» o «MotionFlow», y si bien puede añadir fluidez a las películas o televisión, no se suele poder aplicar en juegos, ya que añade latencia obligatoriamente al necesitar varios fotogramas para poder interpolar.

El funcionamiento del ojo tiene mucho que decir también, ya que no se ven igual de bien los distintos colores, y probablemente la respuesta de los distintos conos a la frecuencia de los destellos sea diferente. Es posible que haya colores para los que se necesite una tasa de fotogramas por segundo mayor para percibir un movimiento totalmente fluido. Además la periferia de la visión tiene una respuesta mucho mayor a los estímulos de movimiento, debido a la mayor concentración de bastones. Por lo que podríamos necesitar una frecuencia mayor en la periferia de las pantallas que la que precisaríamos en el centro.

En resumen

Hay muchísimos factores que influyen en la sensación de movimiento y la fluidez que percibimos en las películas y juegos y tal vez haga falta más estudio de los estímulos visuales para alcanzar una idea más clara de qué es lo que se necesita para ver una imagen totalmente fluida. Por lo que sabemos, tal vez si los juegos tuvieran un Motion-Blur adecuado, no sería necesario superar los 30 FPS. Pudiera ser que una gama nueva de pantallas sin parpadeos, mejorara sustancialmente la fluidez en los movimientos en pantalla. Debido al tipo de juego y lo que muestra en pantalla, además, tal vez no fueran necesarios más de 30 FPS, o, por el contrario, se necesitaran 100 o 1000 FPS. Incluso, a lo mejor podría ser útil bajar la frecuencia del centro de la pantalla a 30 FPS, y aumentar la de la periferia a 60 FPS, reutilizando fotogramas y renderizando sólo una parte de la pantalla… En cualquier caso, lo que está claro es que la directriz actual es que cuanto más FPS mejor.

No conviene confundir los FPS de un juego con la tasa de refresco de una pantalla. Un juego puede ser capaz de renderizar 400 fotogramas por segundo, pero eso no va a hacer que se vea más fluido que otro que compone 200 ya que el límite lo marcará la frecuencia a la que se actualiza la pantalla, que suele ser 60 Hz en el caso más normal. En una pantalla de 60 Hz no se puede mostrar una tasa mayor de 60 FPS.

También hay que tener cuidado con las tasas de refresco de los televisores que se anuncian. El que exista una televisión capaz de funcionar a 600 Hz, no quiere decir esté preparada para recibir una señal de video de 600 FPS. Y aunque lo estuviera, tampoco quiere decir que la consola que está enchufada a ella sea capaz de producirla. Esa frecuencia de refresco tan alta tiene que ver con reducir el parpadeo más que con mayores tasas de FPS. Además también interesa que la pantalla refresque a una frecuencia múltiplo de la tasa de fotogramas por segundo, para que no haya que hacer repeticiones de fotogramas sueltos: Por ejemplo, 120 es múltiplo de 24 (cine), pero también de 30 o 60 (videojuegos). Las frecuencias de refresco elevadas también tienen que ver con la tecnología 3D, pero si algo he aprendido de Lost (2004) es a no dar todas las respuestas de golpe (o no darlas nunca), así que de momento, habréis de esperar. Para amenizar esta tensa espera, podéis echar un vistazo a los anteriores artículos de esta serie:

DEV LAVDE #12 – LA TELEVISIÓN (PRIMERA PARTE)
DEV LAVDE #13 – LA TELEVISIÓN (SEGUNDA PARTE)

Acerca de Enrique Hervás


Humano Nivel 32. Diseñador y Programador de videojuegos Nivel 6. De esos a los que sus padres prohibieron jugar a "las maquinitas" por estar demasiado enganchados. No sabían lo que les esperaba. Actualmente trabajo como Game Designer en Exient, e intento no olvidarme de mi pasado indie de Game Jams y jueguitos con Join2 Games

No hay comentarios