Codificación de video MPEG

From glossaLAB

[gL.edu] Este artículo recoge contribuciones de Diego Villegas Villacreces, Julio Garvía Honrado, José María Díaz Nafría, elaboradas en el contexto de la Clarificación conceptual en torno a los Sistemas de transmisión, bajo la supervisión de J.M. Díaz Nafría.

Observaciones del docente: Este artículo requiere las mejoras indicadas a continuación:
  • Puede aún aumentarse el detalle de la descripción de las técnicas de compresión (codificación de fuente) refiriendo el modo en el que se hace la predicción basada en la detección de vectores de movimiento y desplazamiento de macrobloques.
  • Se han utilizado fuentes de IA de escasa fiabilidad en las secciones de descripción de los formatos básicos y en la sección de ventajas e inconvenientes, como resultado el texto es poco clarificador y redundante. Debería revisarse el texto para asegurar su consistencia y ofrecer fuentes bibliográficas que soporten lo enunciado. Es importante que sólo se indiquen fuentes que hayan sido consultadas y que soporten lo que se indiquen, lo que no es el caso de la mayor parte de las que se habían aportado y se han eliminado
  • Se han empleado imágenes que no estaban libres de derecho de copia y no se ha indicado debidamente la fuente. La mayor parte se han eliminado pero prevalece la tabla que debería reelaborarse en formato tabla.

Definición

En 1988 la Organización Internacional de Normalización (OSI/ISO) formó, en colaboración con la Comisión Electrotécnica Internacional (IEC), el Grupo de Expertos en Imágenes en Movimiento (MPEG por sus siglas en inglés, Moving Picture Experts Group) para desarrollar estándares para la codificación digital de imágenes en movimiento y audio asociado (aunque también abarca datos gráficos y genómicos), el cual ha desarrollado varios formatos de codificación de vídeo identificados por el nombre de dicho grupo de expertos, MPEG. Los formatos de codificación normalizados bajo esta designación recurren a una compleja combinación de técnicas de codificación de fuente que ofrece un alto nivel de compresión de vídeo de diferente intensidad de compresión a la vez que mantiene una calidad visual aceptable, lo que resulta de gran utilidad para el almacenamiento y transmisión video. El desarrollo de las técnicas de codificación involucradas surgió para dar respuesta a las necesidades de transmitir señales de televisión y vídeo por redes digitales, requiriendo el concurso de dispositivos que permitan comprimir y descomprimir las imágenes a gran velocidad. Existe más de una veintena de estándares de codificación MPEG, cada uno con sus propias características y aplicaciones específicas.[1]

Tipos de codificación MPEG

MPEG-1

Figura 1: Tipos de comprensión, de archivos, régimen binario, aplicaciones. etc de los estándares MPEG-1, 2 y 4.

En 1992, el comité MPEG completó su primer estándar internacional, MPEG-1, formalmente ISO/IEC 11172. Como especificación genérica de codificación de vídeo, MPEG-1 soporta múltiples formatos de imagen, incluyendo CIF, SIF y QCIF. Se admiten tamaños de imagen de hasta 4.095 x 4.095. Sin embargo, solo se admiten el escaneo progresivo y el muestreo de color 4:2:0. Aunque MPEG-1 resultó exitoso en la industria del entretenimiento informático, su falta de soporte para el escaneo entrelazado impidió su uso en la televisión digital.

MPEG-2 o UIT-T H.262

En 1995, el comité MPEG comenzó a trabajar en MPEG-2, formalmente conocido como ISO/IEC 13818.9, o UIT-T H.262 por su recomendación por parte de la Unión Internacional de Telecomunicaciones. MPEG-2 es una extensión de MPEG-1 que remedia varias deficiencias importantes de MPEG-1 al agregar soporte para vídeo entrelazado, más formatos de submuestreo de color y otras características avanzadas de codificación. El estándar MPEG-2 mantiene la compatibilidad hacia atrás con MPEG-1. Este estándar ha sido adoptado para su uso por el Comité de Sistemas de Televisión Avanzada (ATSC) como el motor de compresión de vídeo para televisión digital en los Estados Unidos.

MPEG-4 o UIT-T H.264

Este estándar fue desarrollado a finales del 1998 por el mismo comité que desarrollaron las anteriores versiones y revolucionó la compresión de audio y vídeo ya que permitía una compresión eficiente sin sacrificar la calidad, siendo adaptable a diversas velocidades de bits. Su versatilidad permite la transmisión de contenido multimedia interactivo, incluyendo vídeo, audio, gráficos y animaciones. Puede ser implementado en una amplia gama de dispositivos y plataformas, desde televisores digitales hasta dispositivos móviles e internet. Además, soporta la creación de contenido interactivo como juegos y aplicaciones educativas. Esto lo convierte en una opción preferida para una variedad de aplicaciones multimedia, incluyendo transmisiones en tiempo real, almacenamiento de medios de alta calidad y desarrollo de contenido para dispositivos móviles.

Otros formatos MPEG

Entre los formatos del grupo de trabajo MPEG figura más de una veintena de normas, como es el caso de MPEG-7 y MPEG-21.[2] El primero, estandarizado en la norma ISO/IEC 15938 (Multimedia content description interface) ofrece una representación estándar de la información audiovisual para la descripción de contenidos (metadatos) con palabras clave y anotación semántica relativa al origen de las señales de vídeo (quién, qué, cuándo, dónde) y a su estructura (formas, colores, texturas, movimientos, sonidos). El formato MPEG-21, estandarizado en la norma ISO/IEC 21000 (Multimedia framework), define un marco abierto para aplicaciones multimedia, basado en dos conceptos fundamentales: (i) la definición de un objeto digital como unidad de distribución y transacción y (ii) la capacidad de interacción de los usuarios con dicho objeto.

Técnicas de compresión MPEG

En los estándar MPEG, al igual que en otros muchos sistemas de codificación de vídeo en color, la señal de vídeo originalmente compuesta por tres colores básicos (típicamente rojo, verde y azul) es representada mediante la combinación de una señal de luminancia (Y) y otra de crominancia o croma (o de diferencia de color U o CB y V o CR). A estas tres señales se aplica un muestreo diferente correspondiente al ancho de banda que corresponde preservar en función de la diferente sensibilidad espacial de la percepción del color y de la luminancia y de la calidad que deseemos preservar, como veremos más adelante.

Con objeto de captar las variaciones temporales de la imagen, la señal de video –como se hacía en la codificación de vídeo analógica– se muestrea en el tiempo, de modo que la imagen en movimiento se compone de una consecución de imágenes bidimensionales muestreadas a una frecuencia que aprovechando la persistencia retiniana evita que en su reproducción se perciba el carácter discreto de la secuencia de imágenes, percibiéndose así como imágen en movimiento.

Figura 1: Alternancia de tipos de imágenes en codificación MPEG-2.

No obstante, la codificación aprovecha la alta correlación existente entre imágenes consecutivas y, en lugar de ofrecer muestras temporalmente equiespaciadas de las imágenes, construye tres tipos de imágenes que transmite de forma alternada como muestra la fig.1, en la que solo las del primer tipo son necesarias:[3]

  • Imágenes I (intra-codificadas / intraframe-coded): imágenes codificadas de manera independiente y usando el algoritmo JPEG, sin referencia a ninguna otra.
  • Imágenes P (predecible posterior / predictive-coded): imágenes comprimidas como resultado de la codificación de las diferencias entre la imagen predicha y una referencia.
  • Imágenes B (predecible bidireccional / bidirectionally predictive-coded): imágenes comprimidas como resultado de la codificación de las diferencias entre la imagen predicha y una imagen de referencia I o P.

Donde las imágenes de los dos últimos tipos son las que presentan mayor eficiencia, en particular las tipo B, al solo transmitir la señal que no puede predecirse, pero no es posible generar secuencias de imágenes que sólo sean de estos tipos.[4]

Figura 2: Preprocesado de macrobloques y opciones de submuestreo en codificación MPEG.

Para la codificación de las imágenes se emplea el algoritmo JPEG, según el cual se procesa la imagen subdividida en macrobloques constituidos por 4 bloques de 16 muestras (4 x 4) cada uno, cuyas opciones de submuestreo para las señales de luminancia y crominancia son referidas en la fig.2. Estos macrobloques de 8 x 8 muestras no son codificados de forma directa, sino mediante su transformación a través de la Transformada Directa de Coseno (DCT), mediante algoritmos rápidos que permiten su obtención con un coste computacional muy liviano (v. fig.3 y 4). La concentración de los coeficientes de la transformada en las frecuencias espaciales más bajas permite hacer una cuantificación vectorial de gran eficiencia en cuanto a la compresión, la cual es completada mediante una codificación de entropía (o código de longitud variable) como ilustra la fig.4.

Figura 3: Esquema de codificación según la norma MPEG-2 (UIT-R H.262).
Figura 4: Esquema de codificación y decodificación MPEG-2 (UIT-R H.262).

En conjunto, el algoritmo MPEG integra una compleja combinación de las diferentes técnicas de codificación de fuente (a las que nos hemos referido en artículo homónimo) como puede verse en la fig.2:[5]

  • predictiva, de modo que solo se transmite o preserva la diferencia entre el macrobloque original y el que el predictor es capaz de reconstruir (v. fig.3).
  • transformacional, se aplica una transformada directa de coseno (DCT) a los macrobloques para a continuación aplicar un muestreo diferencia en función de la diferente capacidad de percepción y de los patrones de enmascaramiento correspondientes a variaciones de diferente intensidad (v. figs. 2-4).
  • codificación de longitud variable (VLC): En función de la diferente frecuencia estadística de unos valores de las muestras transformadas del macrobloque se atribuyen códigos más breves a los valores más frecuentes.

Como puede verse en las figuras 2 y 3 un control de la memoria de salida controla la precisión de la cuantificación con objeto de evitar la saturación de dicha memoria y poderse adaptar a los requerimientos de transmisión o almacenamiento.

Ventajas y desventajas de de la codificación MPEG

Caben mencionarse las siguientes ventajas:[1]

  • Reducción del tamaño de los archivos:
    • Menos espacio de almacenamiento: Los videos codificados con MPEG requieren menos espacio de almacenamiento que los videos sin comprimir, lo que los hace más fáciles de almacenar en discos duros, unidades flash y otros medios de almacenamiento.
    • Menor ancho de banda para el almacenamiento: Se necesita menos ancho de banda para almacenar videos codificados con MPEG, lo que reduce el costo de almacenar videos en la nube o en servidores.
    • Menos tiempo de carga: Los videos codificados con MPEG se cargan más rápido que los videos sin comprimir, lo que mejora la experiencia del usuario al ver videos en línea.
  • Mejora de la eficiencia de la transmisión:
    • Menos ancho de banda para la transmisión: Los videos codificados con MPEG requieren menos ancho de banda para transmitirse, lo que los hace más adecuados para transmitirse sobre redes de baja velocidad como Internet DSL y conexiones móviles.
    • Más usuarios por red: Se pueden transmitir más videos MPEG sobre la misma red que los videos sin comprimir, lo que permite a los proveedores de servicios de Internet atender a más usuarios.
    • Mejor calidad de transmisión: En algunos casos, la codificación MPEG puede mejorar la calidad de la transmisión de video, especialmente en redes de baja velocidad.
  • Permite la transmisión de video de alta calidad:
    • Video HD y UHD: La codificación MPEG permite la transmisión de video de alta definición (HD) y ultra alta definición (UHD) sobre redes de banda ancha.
    • Realidad virtual: La codificación MPEG también se puede usar para comprimir video para realidad virtual, lo que hace que esta tecnología sea más accesible para los consumidores.
    • Nuevas aplicaciones de video: La codificación MPEG permite el desarrollo de nuevas aplicaciones de video, como la transmisión de video en vivo, la videoconferencia y los juegos en línea.

Por otra parte, también han de mencionarse las siguientes desventajas:[1]

  • Pérdida de calidad:
    • Artefactos de compresión: La compresión con pérdida puede introducir artefactos en la imagen de video, como bloques, bordes irregulares y ruido de mosquito. Estos artefactos son más visibles en áreas de alto detalle y en escenas con movimiento rápido.
    • Reducción de la relación señal-ruido: La compresión también puede reducir la relación señal-ruido (SNR) del video, lo que puede hacer que la imagen se vea más granulada y con menos detalles.
    • Efecto fantasma: En videos con mucho movimiento, la compresión puede causar un efecto fantasma, donde los objetos en movimiento dejan rastros o sombras detrás de ellos.
  • Aumento de la complejidad:
    • Mayores requisitos de procesamiento: La codificación MPEG puede requerir más potencia de procesamiento que otras técnicas de compresión de video, lo que puede hacerlo menos adecuado para dispositivos con recursos limitados.
    • Retraso de codificación: El proceso de codificación MPEG puede introducir un retraso, lo que puede ser un problema para aplicaciones en tiempo real como la videoconferencia.
    • Problemas de compatibilidad: Los diferentes estándares MPEG no siempre son compatibles entre sí, lo que puede dificultar la reproducción de videos codificados con un estándar en un dispositivo que utiliza otro estándar.

Referencias

  1. 1.0 1.1 1.2 OpenAI. (2024). ChatGPT (GPT-4). Retrieved May 22, 2024, from [1]
  2. MPEG Working Group (s.d.). MPEG. Web de MPEG. Consultado el 15/06/2024 de: https://www.mpeg.org/standards/
  3. Molina Robles, F. J. y Polo Ortega, E. (2015). Servicios de red e Internet: (ed.). RA-MA Editorial. recurso en elibro.net
  4. Sklar, B.; Harris, F. (2021). Digital Communications. Fundamentals and Applications. London: Pearson.
  5. Pérez Vega, C. (2012). Fundamentos de televisión analógica y digital: (2 ed.). Editorial de la Universidad de Cantabria. recurso en elibro.net