Logaritmos

Estudiando naive bayes me topo con el logaritmo; nunca supe bien qué era. Como todo en matemática, empieza simple y poco a poco, con disimulo, se va volviendo más complejo.

***

Se dice: el logaritmo es la inversa de la exponenciación, ¿pero qué se quiere decir con esto? Por lo pronto agregaría: cuando la incógnita de la exponenciación es el exponente (¿o será redundante esta aclración?). Como sea, supongamos que tenemos:

\[ f_1(x) = b^x = y \]

Donde \(b\) es simplemente una constante. Y tenemos una segunda función que toma el input \(y\) de la función anterior, y se define como:

\[f_2(y) = \log_b(y) \]

Entonces:

\[f_2(y) = x\]

Es decir, si al output de la primera función le aplico la segunda función, obtengo el input de la primera función. O en términos más elegantes: \(f_2(f_1(x)) = x\).

Del mismo modo, la división es la inversa de la multiplicación:

\[f_1(x) = b \times x = y \]

Entonces:

\[f_2(y) = f_2(f_1(x)) = \frac{y}{b} = x\]

Me gusta la notación recursiva, lo vuelve todo más explícito.

***

Pero el concepto de inverso es más difícil de asimilar de lo que parecería. La mejor manera que encontré de entenderlo es decir: tengo \( x ? b = y\) donde \( ? \) es una determinada operación y \( b \) es una constante. Entonces la operación inversa \( ?' \) será aquella que verifique la igualdad \( y ?' b = x \) y que por lo tanto me permita "deshacer" la operación denotada por \( ? \) volviendo al valor original \( x \). Vemos que esto vale para la suma y la resta, y la multiplicación y la división, en ambos sentidos. O sea, yo puedo plantear cualquier resta \(a - b = c\) en los términos de una suma: \(a = c + b\).

La otra forma de definir una operación en función de la otra es decir: la resta es la suma de \(a\) y el inverso aditivo de \(b\), siendo el inverso aditivo de cualquier real \(b\) aquel que verifica: \(b + i = 0\), o sea, \(i = - b\). Entonces: \(a - b = a + (-b) \).

En el caso de la multiplicación se usa el concepto de inverso multiplicativo; en este caso, el número que al ser multiplicado por \(b\) da 1, o sea, \(\frac{1}{b}\). Así pues: \(\frac{a}{b} = a \times \frac{1}{b} \).

***

Algo que me ayudó a desarrollar una mejor intuición acerca de los logaritmos y sus propiedades es esta expresión:

\[ x ^{ \log_x{b}} = b \]

Abstraer el logaritmo y su cortejo de símbolos y pensarlo sólo como un exponente. De este modo un poco redundante y volviendo a lo de la inversa, podemos decir:

\[ \log_b{b^x} = x \]

***

De todas las propiedades de los logaritmos, la que se usa en naive bayes es:

\[ \log{(a \cdot b)} = \log{a}+\log{b} \]

Dado que, si \( a > b \), \( \log{a} > \log{b} \), donde \(a\) y \(b\) vendría a ser la probabilidad condicional de cada documento dada una clase.

La fórmula es útil para evitar la multiplicación de las probabilidades de cada una de las características de un documento, lo que da como resultado un número muy pequeño que genera underflow.

***

Creo que vale la pena consignar la prueba. Tenemos por un lado:

\[x^l = A\]

\[\log_x A = l\]

Y por el otro:

\[x^m = B\]

\[\log_x B = m\]

Y también:

\[x^n = A \cdot B\]

\[\log_x A \cdot B = n\]

Entonces:

\[ x^n = x^l \cdot x^m = x^{l+m} \]

De donde:

\[ n = l+m \]

Y habíamos dicho que \( n = \log_x (A \cdot B) \) y que \( l = log_x A \) y también que \( m = \log_x B \). Por ende:

\[ \log_x (A \cdot B) = \log_x A + \log_x B \]

Search This Blog

Dos desvíos

Logaritmos

Comments

Post a Comment

Popular posts from this blog

Un video para explicar (entender) naive bayes