Draft:Entropía relativa
| Clarification activity | Sistemas e información |
| Author(s) | Fernando Pérez García |
| Creation date | 21 dic 2025 |
| Status | 🟢 Necesita mejoras |
| Reviews | Rev.1 |
|
Observaciones de revisión: Este artículo requiere las mejoras indicadas a continuación:
|
Introducción
El término "entropía" fue acuñado por primera vez por el físico alemán Rudolf Clausius[1] en 1850 a partir del griego ἐντροπία (evolución, o transformación), para definir una forma de medir el equilibrio de un sistema termodinámico.
En sistemas de información fue el matemático Claude E. Shannon (1916-2001)[2] el que usó el término para otro objetivo: dilucidar cuanta información contiene una palabra dentro de un texto. Por ejemplo, en la frase "la liebre corre más que la tortuga", 'la', repetida dos veces y 'que', no aportan ninguna información nueva, mientras que 'liebre', 'corre', 'más' y 'tortuga' aportan conocimiento al sistema para entender que la liebre es más rápida. Para encontrar más información sobre la entropía, acudir al apartado correspondiente: Draft:Entropía.
Dentro de la entropía, conseguimos distinguir diversas variantes, como la entropía conjunta, marginal, condicional, y la entropía relativa. En este apartado hablaremos de las entropías conjunta, marginal y relativa, para después entender el concepto de información mutua, que nos ayudará a tener una medida de cantidad de información que contiene una variable aleatoria en relación con otra.
Entropía conjunta y entropía marginal
Antes de entrar en la entropía relativa, tenemos que entender dos conceptos más, la entropía marginal y la entropía conjunta.
- Entropía marginal: Es la cantidad de información que contiene una variable aleatoria por sí sola, y se define por la siguiente fórmula, basada en la distribución de probabilidad marginal:
- Entropía conjunta: La entropía conjunta describe la cantidad de información media que se necesita para describir dos variables aleatorias. Esto es, la entropía de una variable aleatoria bidimensional, en la que entran las dos variables aleatorias del conjunto:
Entropía relativa
La entropía relativa, también conocida como la distancia de Kullback Leibler D(p||q)[4], es la medida de cuanta distancia hay entre dos distribuciones. Se mide cuanta ineficiencia surge al asumir que una distribución es 'q' cuando en realidad es 'p'.
Así, la entropía relativa entre dos distribuciones de probabilidad p(x) y q(x) sería la siguiente:
Es importante aclarar que, como se puede ver con la fórmula descrita, D(p || q) ≠ D(q || p) salvo que la distancia entre las dos sea 0, entonces sí que serían iguales.
A partir de todo lo comentado podemos observar que la entropía relativa es siembre no negativa, y 0 solo si p = q.
Información Mutua
Un concepto muy relacionado en cuanto a sistemas de la información se trata es el concepto de "información mutua", que mide la cantidad de información de una variable aleatoria sobre otra variable aleatoria. Esto quiere decir, a partir del conocimiento disponible de una variable aleatoria, se puede reducir la incertidumbre de la segunda.
Para entender su funcionamiento, lo tratamos con un ejemplo: Sean dos variables X e Y, que tienen una función de probabilidad conjunta de p(X,Y), y unas de probabilidad marginal p(X) y p(Y), la información mutua I(X,Y) es la entropía relativa entre la distribución conjunta y el producto de las distribuciones marginales (p(X)p(Y)):
Es fácil demostrar que, en definitiva, la información mutua no es más que la intersección entre las entropías marginales de las dos variables aleatorias, y podemos calcularlo de la siguiente forma:
Aplicación en entornos reales
La información mutua, y por ende, la entropía relativa, son conceptos muy relevantes en la teoría de la información, y puede usarse en técnicas de Machine Learning, muy relevantes en el mundo actual para la mejora de cualquier modelo de Inteligencia Artificial (IA), haciéndolos más eficientes y capaces de relacionar más conceptos que los definidos por el programador en primera instancia, que pueden quedarse obsoletos o estar incompletos dependiendo de la complejidad del modelo en cuestión.
Un ejemplo claro de uso sería en el aprendizaje profundo supervisado, donde la pérdida de entropía cruzada (directamente relacionada con la entropía relativa) es fundamental para la clasificación del conocimiento. Al minimizar la distancia entre cada variable, las redes neuronales funcionan mejor, optimizando sus búsquedas y el proceso de aprendizaje.[6]
Aunque en primera instancia pueda parecer una abstracción matemática, la entropía relativa es una métrica fundamental para cuantificar y optimizar el "coste" de la discrepancia informativa. Esta capacidad permite a los sistemas de IA modernos ir más allá de la mera acumulación de información: les ofrece un principio matemático para refinar su heurística, optimizar su arquitectura interna y mejorar continuamente sus procesos de razonamiento y toma de decisiones de forma eficiente y automatizada.
Bibliografía
- Fernández Boyero, Y. (2019). Entropía relativa y riesgo de modelo en derivados de renta variable.
- ↑ Clausius, R. J. E. (1982). Über die bewegende Kraft der Wärme und die Gesetze, welche sich daraus für die Wärmelehre selbst ableiten lassen: (1850).
- ↑ Shannon, C. E. (1948). A Mathematical Theory of Communication. En Bell System Technical Journal (Vol. 27, Número 4, pp. 623-656). https://doi.org/10.1002/j.1538-7305.1948.tb00917.x
- ↑ Entropía conjunta
- ↑ Kullback, S.; Leibler, R.A. (1951). «On Information and Sufficiency». Annals of Mathematical Statistics 22 (1): 79-86. MR 39968. doi:https://dx.doi.org/10.1214%2Faoms%2F1177729694
- ↑ Fundamentos de los sistemas de información (CEF-UDIMA). (s. f.). https://drive.google.com/file/d/1XV0J9vGIg97HlmTirJOCfAqf0uFnO4qW/view?usp=sharing
- ↑ Bishop, C. M. (2016). Pattern Recognition and Machine Learning. Springer.