🇪🇸 Maximum Likelihood Estimation - Parte 1
Si habéis llegado a este artÃculo de forma intencionada es muy posible que las palabras Maximum Likelihood Estimation os digan algo. Este artÃculo va dedicado a aquellas personas a las que esas palabras les dicen algo, pero algo que no entienden.
En esta primera parte voy a explicar de forma sencilla y visual el conocido concepto de Maximum Likelihood Estimation, a menudo abreviado con las siglas MLE. En español el término es traducido como Estimación por Máxima Verosimilitud (EMV), pero prefiero referirme a él con el término inglés debido a que es como se puede encontrar en la gran mayorÃa de las publicaciones cientÃficas.
En la segunda parte veremos un ejemplo de aplicación del MLE.
Monedas
Cuando uno empieza a estudiar estadÃstica, en lo primero que repara es en lo importante que son las monedas. No creo que haya nadie que haya estudiado estadÃstica sin encontrarse con algún ejemplo o ejercicio en el que se lancen monedas. En esta explicación nos apoyaremos nuevamente en ellas.
Una moneda normal y corriente (que no está trucada), al ser lanzada existe la misma probabilidad de que caiga cara o de que caiga cruz. Eso lo expresaremos matemáticamente como:
\(P(\)\() = P(\)\() = 0.5\)
Sin embargo, existen otras monedas en las que la probabilidad de que caiga cara es diferente a la probabilidad de que caiga cruz. Hablamos entonces de monedas trucadas. En estos casos vamos a designar a la probabilidad de que la moneda caiga cara con la letra \(p\). Por lo tanto, la probabilidad de que salga cruz es \(1 - p\) (si no es cara, entonces es cruz).
\(P(\)\() = p\)
\(P(\)\() = 1 - p\)
La expresión de encima de estas lÃneas funciona para cualquiera que sea el valor de \(p \in [0, 1]\). Como seguro os habréis dado cuenta, cuando \(p = 0.5\) nos encontramos ante una moneda normal o no trucada. Este hecho hace de esta expresión una expresión mucho más general, es decir, sirve para cualquier tipo de moneda.
Independencia de sucesos
Es imprescindible darse cuenta de que si hacemos varios lanzamientos de monedas, son todos sucesos independientes entre sÃ. Si lanzas una moneda y cae cara ¿condiciona ese hecho a que en el siguiente lanzamiento vuelva a salir cara? La respuesta es no. Veamos ahora unos ejemplos de cómo se calcula la probabilidad de varios lanzamientos.
¿Cuál es la probabilidad de obtener , tras 2 lanzamientos con una moneda normal?
Al tratarse de sucesos independientes entre sÃ, tenemos que
\(P(\) , \() = P(\)\() \cdot P(\)\() = 0.5 \cdot 0.5 = 0.25\).
Es interesante darse cuenta que en este tipo de ejercicios no nos importa el orden de las monedas, puesto que:
\(P(\), \() = P(\)\() \cdot P(\)\() = P(\)\() \cdot P(\)\() = P(\), \()\).
¿Cuál es la probabilidad de obtener esa misma secuencia sea cual sea la moneda utilizada?
Tanto si consideramos que la moneda está trucada como que no, obtenemos que
\(P(\) , \() = P(\) \() \cdot P(\)\() = (1 - p) \cdot p.\)
Si sustituimos \(p\) por \(0.5\) obtenemos exáctamente el mismo valor de antes, el valor para una moneda normal: \((1 - 0.5) \cdot 0.5 = 0.5 \cdot 0.5 = 0.25\).
¿Cuál es la probabilidad de obtener , , si \(p = 0.1\)?
\(P(\), , \() = P(\)\() \cdot P(\)\() \cdot P(\)\() = P(\)\()^3 = 0.1^3 = 0.001\)
¿Cuál es la probabilidad de obtener , , si \(p = 0.9\)?
\(P(\), , \() = P(\)\()^3 = 0.9^3 = 0.729\)
Sé lo que estáis pensando, "¡qué preguntas más tontas me está haciendo!". Pues sÃ, son ejercicios muy fáciles, pero quiero que os fijéis bien en las dos últimas preguntas y me digáis qué valor de \(p\) consigue una probabilidad más alta. Con \(p = 0.1\) se consigue \(0.001\) y con \(p = 0.9\) se consigue \(0.729\). ¿Hay algún otro valor de \(p\) que consiga un valor más alto de probabilidad para obtener 3 caras? La respuesta es sÃ, con \(p = 1\) se consigue una probabilidad de \(1\).
Si calculamos la probabilidad de obtener 3 caras en función del parámetro \(p\) obtenemos
\(P(\) , , \() = P(\)\()^3 = p^3\).
Ahora que tenemos esa expresión, vamos a representarla en una gráfica. Puesto que \(p\) es una probabilidad, el valor de ese parámetro se encuentra dentro del intervalo \(p \in [0, 1]\). Sobre la lÃnea he marcado 3 puntos, los valores de \(p\) que ya hemos calculado. Comprobamos claramente que el valor de probabilidad más alto se obtiene cuando \(p = 1\), lo que confirma nuestro anterior cálculo. Por comentar algo más de la gráfica, diremos que según ella no es posible obtener 3 caras cuando \(p = 0\) puesto que la función vale 0 al inicio. Esto tiene mucho sentido puesto que no es posible obtener 3 caras al lanzar 3 veces una moneda en la que nunca sale cara.
Otro ejemplo
Vamos a observar otro ejemplo distinto en el que tras tirar 10 veces una misma moneda obtenemos 8 caras y 2 cruces (recuerda que el orden no nos importa en absoluto, cualquier combinación con 8 caras y 2 cruces tiene el mismo valor de probabilidad). A diferencia de antes, ahora en los resultados obtenidos encontramos tanto caras como cruces. ¿Cuál dirÃas que es el valor de \(p\) de dicha moneda? Posiblemente hayas realizado el cálculo \(p = \frac{8 \text{ caras}}{10 \text{ lanzamientos}} = 0.8\). Pues lo cierto es que entre cualquier posible valor de \(p\), el \(0.8\) es el valor más creÃble, más verosÃmil, más plausible, más likelihood... llámalo como quieras.
Si volvemos a representar la probabilidad en función de \(p\) obtenemos la siguiente gráfica:
El valor \(p = 0.8\) es el más verosÃmil, pero al fin y al cabo, en 10 lanzamientos de una moneda normal (\(p = 0.5\)) puede pasar que nos salgan 8 caras. Es raro, pero puede pasar. Digamos que cambiamos el número de lanzamientos por 100 y obtenemos 80 caras y 20 cruces, ¿cuál dirÃas que es el valor de \(p\) ahora? Al igual que antes, \(p = \frac{80}{100} = 0.8\). Si representamos gráficamente la probabilidad en función de \(p\) obtenemos algo muy similar a la última gráfica, solo que ahora el pico es mucho más estrecho, lo que podemos interpretar como que es menos probable que tirando una moneda normal se obtengan esos resultados. Antes decÃamos que era raro obtener 8 caras de 10 lanzamientos con una moneda normal, ahora decimos que es muy muy muy muy raro, por no decir imposible, obtener 80 caras de 100 lanzamientos con una moneda normal (comprueba la altura de la curva de la siguiente gráfica en \(p = 0.5\) con la de la gráfica anterior).
Como habéis podido observar, el valor de \(p\) que consigue la probabilidad más alta de una secuencia de lanzamientos se puede obtener con
¿De dónde sale esa fórmula? Esa división que puede resultar muy natural y que usamos a menudo sin plantearnos de dónde ha salido, se obtiene gracias al MLE (en la segunda parte de este artÃculo veremos cómo se llega a ella). Por lo tanto, MLE nos permite obtener el valor de un parámetro (en nuestro caso \(p\)) para que tengan lugar de forma más probable un conjunto de observaciones (resultados de los lanzamientos de una moneda). Muchos problemas de estadÃstica nos dicen: tenemos una moneda con \(P(\)\() = p\), ¿cuál es la probabilidad de obtener \(X\) secuencia de lanzamientos con ella?. MLE se utiliza para dar respuesta a otra pregunta ligeramente distinta: teniendo una secuencia de lanzamientos \(X\), ¿cuál es el valor de \(p\) que maximiza la probabilidad de obtener dicha secuencia?
Pruébalo tú mismo
Os he preparado un pequeño gráfico interactivo que os ayudará a comprender las likelihood functions. En la parte superior del gráfico hay un par de barras deslizantes que puedes cambiar a tu antojo. La primera de ellas corresponde al número de veces que la moneda lanzada ha caÃdo cara y la segunda de ellas al número de veces que ha caÃdo cruz. La función representada no es más que la probabilidad en función de \(p\) de obtener una serie de lanzamientos con ese número de caras y cruces. Un punto rojo indica el máximo de la curva.
Algunas observaciones
Antes de terminar me gustarÃa aclarar algunas cosas que quizás respondan a dudas que te hayan surgido conforme leÃas el artÃculo. Puede que estés pensando si el área que se encuentra bajo la curva (integral) de la función likelihood debe de sumar 1. Eso no ocurre prácticamente nunca. En el ejemplo interactivo, parece que la función siempre tenga su máximo a la misma altura, eso es debido a que se ha llevado a cabo un proceso de normalización con la idea de poder observar perfectamente la curva entera sin tener que hacer zoom en la figura. Cuanto mayor es el número de lanzamientos, la altura máxima de la curva disminuye a valores realmente bajos (con 10 caras y 10 cruces el máximo es del orden de \(10^{-6}\)). En la práctica, el valor de la función no importa, sólo nos importa dónde se encuentra el máximo. Es por dicha razón por las que no se muestran las unidades del eje \(y\).
¿Has jugado ya con el ejemplo interactivo? Si no lo has hecho te recomiendo por lo menos llevar a cabo alguna de estas pruebas.
-
Pon a 0 las dos barras deslizantes. Después selecciona una de ellas y ve aumentándola poco a poco. ¿Qué observas?
-
Pon a 0 las dos barras deslizantes. Después incrementa al mismo tiempo ambas barras. ¿Qué observas?
-
FÃjate también en el valor de probabilidad del punto máximo (la coordenada \(y\) del punto rojo) ¿Qué le pasa conforme aumenta el número total de lanzamientos?
Para saber más
Creo que con lo visto en este artÃculo ha quedado claro cuál es el cometido del MLE. Para explicarlo no hemos hecho uso de expresiones matemáticas complejas, solo estadÃstica básica. En la segunda parte de este artÃculo introduciremos notación matemática y veremos en acción esta técnica de estimación de parámetros. El ejemplo será la derivación matemática necesaria para llegar a obtener porqué el valor de \(p\) que más probabilidad consigue en cualquier secuencia de lanzamientos es \(\frac{\text{# caras}}{\text{# lanzamientos}}\). ¡Nos vemos en la segunda parte!
Créditos
-
Las imágenes de las monedas son una modificación propia de varios ficheros descargados desde Freepik.
-
Las gráficas interactivas han sido hechas con la ayuda de la librerÃa JSXGraph.