La compresión de video surge de la necesidad de transmitir imágenes a través de un canal que contenga un ancho de banda aceptable. Los métodos de compresión recurren a los procedimientos generales de compresión de datos, aprovechando la redundancia espacial de una imagen, áreas uniformes, la correlación entre puntos cercanos y la menor sensibilidad del ojo a los detalles finos. En las imágenes fijas es el estándar JPEG y en imágenes animadas el MPEG, sacando provecho en este caso también de la redundancia temporal entre imágenes sucesivas.
Cuando las imágenes individuales son comprimidas sin referencia a las demás, el eje del tiempo no entra en el proceso de compresión. Este proceso se denomina codificación intra o codificación espacial. El estándar de compresión ISO (Internacional Standards Organization) JPEG (Joint Photographic Experts Group) está en esta categoría.
Se pueden obtener grandes factores de compresión teniendo en cuenta la redundancia entre imágenes sucesivas si lo aplicamos al movimiento. Esto involucra al eje del tiempo. Este proceso se denomina codificación inter o codificación temporal.
Los datos que se generan al hacer la diferencia entre dos imágenes también se pueden tratar como una nueva imagen, la cual se debe someter al mismo tratamiento de transformadas utilizado en la compresión espacial.
Desafortunadamente existe la posibilidad de transmitir errores si se utiliza una secuencia ilimitada de imágenes previstas. Por esto es mejor utilizar un número limitado de imágenes previstas para de este modo garantizar una mejor transmisión de los datos. En MPEG periódicamente se envía una imágen que no ha sido tratada con algún método de compresión con pérdidas y que a su vez es idéntica a la imagen original, refrescando los datos en la secuencia de transmisión.
El proceso genera una imagen original, llamada imagen I o intra, la cual es enviada entre imágenes que han sido creadas usando una diferencia entre imágenes, llamada imágenes P o previstas. La imagen I requiere grandes cantidades de información, mientras que las imágenes P requieren una cantidad menor. Esto ocasiona que el flujo de transmisión de datos sea variable.
Una secuencia de imágenes que está constituída por una imagen I y las siguientes imágenes P hasta el comienzo de otra imagen I se denomina grupo de imágenes GOP (Group Of Pictures). En el GOP encontramos también las imágenes B, o bidireccionales, consecuencia de la imagen interpolada al analizar la anterior y la posterior. Así encontramos tres tipos de cuadros de imagen: Intra (I), Predictivos (P) y Bidireccionales o interpolados (B). Los cuadros I son codificados sin referencia temporal alguna a cuadros anteriores o posteriores, lo que supone una compresión menos eficiente aunque les confiere la idoneidad de ser puntos de acceso en búsquedas aleatorias. Los cuadros P son codificados más eficientemente empleando predicción por compensación de movimiento sobre un cuadro I o P anterior, pudiendo ser a su vez referencia para futuros cuadros P, predicciones causales. Los cuadros B ostentan la mayor tasa de compresión. Emplean compensación de movimiento sobre cuadros I o P, tanto pasados como futuros, predicción bidireccional o interpolación no causal, no pudiendo ser empleados como referencia. Estas compensaciomes de movimiento se ralizan sobre pequeñas zonas de imagen de 16316 píxeles, macro bloques, buscando dicho patrón en cuadros referencia anteriores o posteriores y proporcionando finalmente los vectores del movimiento detectado. Esta secuencia de imágenes conteniendo un único cuadro I en su origen (IBBPBBP...BBI...) se denomina, como ya se ha comentado anteriormente, grupo de cuadros GOP, el cual puede ser visualizado de forma independiente y aleatoria.
El estándar MPEG se divide en tres partes: audio, video y sistemas, siendo este último el encargado de coordinar los dos anteriores cuando se reproducen conjuntamente. Utiliza mecanismos muy parecidos a la compresión gráfica, pero se necesita un equipo bastante potente para proceder a la compresión.
El algorítmo de compresión MPEG básicamente es el siguiente:
- Se reduce la resolución al binomio 352x240. Posteriormente, se convierte la información del color del sistema RGB al sistema YUV, que divide el color en valores luminescentes y cromáticos.
- Se descartan las 3/4 partes de los valores cromáticos, ya que el ojo humano no es capaz de distinguir estos cambios.
- Se utiliza una función de transformación que traduce cada bloque de 8x8 píxeles en un conjunto de números que describen el nivel de detalle de la imagen..
- Los números obtenidos se dividen por una constante y se redondean. Esto reduce el número de valores semejantes.
- Este es el paso más importante de todos los mencionados: las cadenas de valores repetidos se sustituyen por una única cadena, y el número de veces que se repite. Los valores restantes se comprimen mediante el código Huffman.
- Compresión entre cuadros: si un bloque de píxeles es idéntico al de una imagen anterior, se sustituye por un puntero. Esta operación se realiza con cuadros futuros, mediante complejas técnicas de previsión de datos.
No hay comentarios:
Publicar un comentario