Parámetros avanzados para la compresión de audio (A3C31B1D06)

Parámetros avanzados de compresión de audio

En el módulo anterior, en el tema de compresión de audio, se presentaron algunos de los aspectos a tener en cuenta a la hora de comprimir archivos de audio. Estos son la tasa de bits, la frecuencia de muestreo, el tipo de codificación y el tipo de compresión. Son conceptos que hay que tener en consideración para que la calidad del audio y el tamaño del archivo estén bajo control en todo momento. A continuación, se profundiza en estos aspectos para poder tener un control total sobre la calidad y el tamaño del audio que requiera cada situación.

Tasa de bits

La tasa de bits (Bitrate) se refiere a la cantidad de bits utilizados para representar el audio por segundo. Como ya se ha comentado, una tasa de bits más alta proporciona una mejor calidad de audio, pero también genera archivos más grandes. Los tipos más comunes son:

Tasa de bits constante (Constant Bitrate - CBR): en este tipo de tasa de bits, se utiliza una tasa de bits fija para todo el archivo de audio. Cada muestra de audio se codifica con la misma cantidad de bits, lo que da como resultado un tamaño de archivo constante. La calidad del audio puede variar dependiendo de la complejidad de la señal, ya que las partes más complejas pueden requerir más bits y las partes más simples pueden desperdiciar bits. El CBR es comúnmente utilizado en formatos de audio como el MP3.
Tasa de bits variable (Variable Bitrate - VBR): en el VBR, la tasa de bits se ajusta dinámicamente en función de la complejidad del audio. Las partes más complejas se codifican con más bits y las partes más simples con menos bits. Esto permite una mejor calidad de audio en general y un tamaño de archivo más eficiente en comparación con el CBR. El VBR es ampliamente utilizado en formatos como el MP3 y el AAC.
Tasa de bits promedio (Average Bitrate - ABR): la tasa de bits promedio es una combinación entre el CBR y el VBR. Aquí, se establece una tasa de bits promedio para todo el archivo, pero el codificador puede variar la tasa de bits dentro de un rango determinado para adaptarse a la complejidad del audio. Esto permite un mejor control sobre la calidad y el tamaño del archivo en comparación con el CBR. Algunos formatos de audio, como el Opus, admiten la opción de tasa de bits promedio.
Tasa de bits de modo dual (Dual Bitrate): esta técnica implica codificar el audio a dos tasas de bits diferentes, generalmente una tasa de bits alta para partes más complejas y una tasa de bits baja para partes más simples. Luego, se selecciona la versión apropiada según la disponibilidad de ancho de banda o los recursos del dispositivo de reproducción. Esta técnica es comúnmente utilizada en servicios de transmisión de audio en línea para adaptarse a diferentes condiciones de red y dispositivos.

Será conveniente elegir un tipo de tasa de bits u otro en función del tamaño del archivo deseado, la calidad del audio requerida y las limitaciones de reproducción o transmisión.

Frecuencia de muestreo

La frecuencia de muestreo (Sampling Rate) determina la cantidad de veces que se toma una muestra del audio por segundo. Se mide en Hercios (Hz) y generalmente se expresa en kilohercios (kHz). Las frecuencias de muestreo más utilizadas en música y audio digital son:

44.1 kHz: esta es la frecuencia de muestreo más comúnmente utilizada en la industria de la música y los formatos de audio digital. Es la frecuencia estándar para los CD de audio y se utiliza ampliamente en la producción musical, la mezcla y la masterización. También es compatible con la mayoría de los reproductores de música y dispositivos de audio.
48 kHz: esta frecuencia de muestreo también es muy utilizada en la producción de audio profesional y en aplicaciones de transmisión de alta calidad, como en el formato de audio para películas y vídeos (por ejemplo, el estándar de DVD y Blu-ray). También se utiliza en sistemas de grabación de alta resolución y en estudios de grabación profesionales.
96 kHz y 192 kHz: estas frecuencias de muestreo se utilizan en aplicaciones de audio de alta resolución y en grabaciones de alta fidelidad. Son frecuencias de muestreo más altas que proporcionan una mayor resolución y capturan más detalles en el audio. Son utilizadas principalmente en contextos de producción de audio de alta gama, como la grabación y mezcla de música de alta resolución y en algunos sistemas de cine en casa de alta gama. Se requiere de equipos de sonido con características especiales para apreciar este nivel de calidad.

La elección de la frecuencia de muestreo depende del tipo de proyecto y de las necesidades específicas. En general, para la mayoría de los casos, una frecuencia de muestreo de 44.1 kHz o 48 kHz es suficiente para obtener una calidad de audio excelente. Las frecuencias más altas, como 96 kHz y 192 kHz, se utilizan cuando se busca una reproducción de alta fidelidad o se necesita capturar más detalles en el audio.

Es importante tener en cuenta que, al trabajar con frecuencias de muestreo más altas, los archivos de audio resultantes ocuparán más espacio de almacenamiento y requerirán un mayor ancho de banda para su reproducción o transmisión. Además, no todos los dispositivos o reproductores de audio son compatibles con frecuencias de muestreo muy altas, por lo que es necesario verificar la compatibilidad antes de utilizarlas. También es importante considerar dónde se reproducirá el contenido multimedia, ya que, a día de hoy, en un elevado porcentaje, la reproducción se lleva a cabo en dispositivos que cuentan con altavoces de baja calidad (teléfonos móviles, ordenadores portátiles, tablets, etc).

Profundidad de bits

La profundidad de bits (Bit Depth) determina la precisión con la que se representa cada muestra de audio. Cuanto mayor sea la profundidad de bits, mayor será la resolución y la calidad del audio. Estos son algunos de los más comunes:

8 bits: la profundidad de bits de 8 bits se utiliza en formatos de audio más antiguos y comprimidos, como el formato de audio de onda (.wav). Aunque proporciona una representación básica del audio, tiene una resolución limitada y puede generar una calidad de audio más baja en comparación con profundidades de bits más altas.
16 bits: la profundidad de bits de 16 bits es el estándar ampliamente utilizado para formatos de audio de alta calidad, como el CD de audio. Proporciona una buena resolución y rango dinámico, lo que permite una reproducción de audio de alta fidelidad y una representación precisa de las sutilezas del sonido.
24 bits: la profundidad de bits de 24 bits es utilizada en aplicaciones de audio de alta resolución y grabaciones profesionales. Ofrece una mayor resolución y rango dinámico en comparación con los 16 bits, lo que permite una mayor precisión en la representación de detalles de audio sutiles. Se utiliza comúnmente en la producción musical y en estudios de grabación de alta gama.
32 bits: la profundidad de bits de 32 bits se utiliza en algunos formatos y sistemas de grabación de audio profesional. Proporciona una resolución aún mayor que los 24 bits, lo que permite una representación extremadamente precisa de señales de baja amplitud y una mayor flexibilidad durante el procesamiento y la mezcla de audio.

En general, una profundidad de bits más alta proporciona una mayor calidad de audio y una mayor capacidad para capturar matices sutiles del sonido. Esto conlleva archivos de audio más grandes y un mayor consumo de recursos de almacenamiento y procesamiento.

Optimización de archivos de audio

En resumen, para optimizar el tamaño de los archivos de audio resultantes de la compresión, existen algunas estrategias y parámetros adicionales que se pueden considerar:

Utilizar tasa de bits variable (Variable Bitrate - VBR): permite mantener una mayor calidad en las secciones más importantes del audio y ahorrar bits en las partes menos críticas. En comparación con una tasa de bits constante (Constant Bitrate - CBR), el VBR puede proporcionar una mejor calidad de audio con un menor tamaño de archivo.
Configurar compresión con pérdida: los parámetros específicos del algoritmo de compresión pueden influir en la calidad y el tamaño del archivo resultante. Estos parámetros pueden incluir la relación de compresión (por ejemplo, la calidad o la compresión alta/media/baja), los ajustes de codificación (como el filtrado, la codificación estéreo o mono) y otros ajustes específicos del formato de compresión utilizado. Experimentar con diferentes configuraciones puede ayudarte a encontrar el equilibrio adecuado entre la calidad de audio y el tamaño del archivo.
Reducir la frecuencia de muestreo: reducir la frecuencia de muestreo puede disminuir significativamente el tamaño del archivo de audio. Por ejemplo, si el audio original tiene una frecuencia de muestreo de 48 kHz, reducirlo a 44.1 kHz puede ahorrar espacio sin una pérdida audible de calidad para muchos oyentes.
Disminuir la profundidad de bits: hace posible reducir el tamaño del archivo sin una pérdida de calidad aparente para la mayoría de oyentes. Por ejemplo, si el audio original es de 24 bits, se puede reducir a 16 bits. Sin embargo, ten en cuenta que esto puede afectar la resolución y la precisión de las muestras de audio, especialmente en señales de baja amplitud y silencios.
Eliminar metadatos y etiquetas innecesarios: los archivos de audio a menudo contienen metadatos y etiquetas adicionales que pueden aumentar el tamaño del archivo. Si no es necesaria esta información adicional, se puede eliminar o reducir su tamaño para optimizar el tamaño del archivo resultante.

Es importante recordar que, al optimizar el tamaño del archivo mediante la compresión, es posible que haya una pérdida de calidad perceptible en el audio. Por lo tanto, se debe encontrar un equilibrio adecuado entre el tamaño del archivo y la calidad de audio que sea aceptable para cada caso de uso específico.

Se debe encontrar un equilibrio adecuado entre el tamaño del archivo y la calidad de audio que sea aceptable para cada caso de uso específico.

Saber más

Si estás interesado en la calidad del sonido y su evolución desde los comienzos de la grabación, puedes leer “El sonido y la perfección” de Greg Milner, donde se detalla toda la historia de la música grabada.