🇪🇸 Maximum Likelihood Estimation - Parte 1

Si habéis llegado a este artículo de forma intencionada es muy posible que las palabras Maximum Likelihood Estimation os digan algo. Este artículo va dedicado a aquellas personas a las que esas palabras les dicen algo, pero algo que no entienden.

En esta primera parte voy a explicar de forma sencilla y visual el conocido concepto de Maximum Likelihood Estimation, a menudo abreviado con las siglas MLE. En español el término es traducido como Estimación por Máxima Verosimilitud (EMV), pero prefiero referirme a él con el término inglés debido a que es como se puede encontrar en la gran mayoría de las publicaciones científicas.

En la segunda parte veremos un ejemplo de aplicación del MLE.

Monedas

Cuando uno empieza a estudiar estadística, en lo primero que repara es en lo importante que son las monedas. No creo que haya nadie que haya estudiado estadística sin encontrarse con algún ejemplo o ejercicio en el que se lancen monedas. En esta explicación nos apoyaremos nuevamente en ellas.

Una moneda normal y corriente (que no está trucada), al ser lanzada existe la misma probabilidad de que caiga cara o de que caiga cruz. Eso lo expresaremos matemáticamente como:

\(P(\)\() = P(\)\() = 0.5\)

Sin embargo, existen otras monedas en las que la probabilidad de que caiga cara es diferente a la probabilidad de que caiga cruz. Hablamos entonces de monedas trucadas. En estos casos vamos a designar a la probabilidad de que la moneda caiga cara con la letra \(p\). Por lo tanto, la probabilidad de que salga cruz es \(1 - p\) (si no es cara, entonces es cruz).

\(P(\)\() = p\)
\(P(\)\() = 1 - p\)

La expresión de encima de estas líneas funciona para cualquiera que sea el valor de \(p \in [0, 1]\). Como seguro os habréis dado cuenta, cuando \(p = 0.5\) nos encontramos ante una moneda normal o no trucada. Este hecho hace de esta expresión una expresión mucho más general, es decir, sirve para cualquier tipo de moneda.

Independencia de sucesos

Es imprescindible darse cuenta de que si hacemos varios lanzamientos de monedas, son todos sucesos independientes entre sí. Si lanzas una moneda y cae cara ¿condiciona ese hecho a que en el siguiente lanzamiento vuelva a salir cara? La respuesta es no. Veamos ahora unos ejemplos de cómo se calcula la probabilidad de varios lanzamientos.

¿Cuál es la probabilidad de obtener , tras 2 lanzamientos con una moneda normal?

Al tratarse de sucesos independientes entre sí, tenemos que

\(P(\) , \() = P(\)\() \cdot P(\)\() = 0.5 \cdot 0.5 = 0.25\).

Es interesante darse cuenta que en este tipo de ejercicios no nos importa el orden de las monedas, puesto que:

\(P(\), \() = P(\)\() \cdot P(\)\() = P(\)\() \cdot P(\)\() = P(\), \()\).

¿Cuál es la probabilidad de obtener esa misma secuencia sea cual sea la moneda utilizada?

Tanto si consideramos que la moneda está trucada como que no, obtenemos que

\(P(\) , \() = P(\) \() \cdot P(\)\() = (1 - p) \cdot p.\)

Si sustituimos \(p\) por \(0.5\) obtenemos exáctamente el mismo valor de antes, el valor para una moneda normal: \((1 - 0.5) \cdot 0.5 = 0.5 \cdot 0.5 = 0.25\).

¿Cuál es la probabilidad de obtener , , si \(p = 0.1\)?

\(P(\), , \() = P(\)\() \cdot P(\)\() \cdot P(\)\() = P(\)\()^3 = 0.1^3 = 0.001\)

¿Cuál es la probabilidad de obtener , , si \(p = 0.9\)?

\(P(\), , \() = P(\)\()^3 = 0.9^3 = 0.729\)

Sé lo que estáis pensando, "¡qué preguntas más tontas me está haciendo!". Pues sí, son ejercicios muy fáciles, pero quiero que os fijéis bien en las dos últimas preguntas y me digáis qué valor de \(p\) consigue una probabilidad más alta. Con \(p = 0.1\) se consigue \(0.001\) y con \(p = 0.9\) se consigue \(0.729\). ¿Hay algún otro valor de \(p\) que consiga un valor más alto de probabilidad para obtener 3 caras? La respuesta es sí, con \(p = 1\) se consigue una probabilidad de \(1\).

Si calculamos la probabilidad de obtener 3 caras en función del parámetro \(p\) obtenemos

\(P(\) , , \() = P(\)\()^3 = p^3\).

Ahora que tenemos esa expresión, vamos a representarla en una gráfica. Puesto que \(p\) es una probabilidad, el valor de ese parámetro se encuentra dentro del intervalo \(p \in [0, 1]\). Sobre la línea he marcado 3 puntos, los valores de \(p\) que ya hemos calculado. Comprobamos claramente que el valor de probabilidad más alto se obtiene cuando \(p = 1\), lo que confirma nuestro anterior cálculo. Por comentar algo más de la gráfica, diremos que según ella no es posible obtener 3 caras cuando \(p = 0\) puesto que la función vale 0 al inicio. Esto tiene mucho sentido puesto que no es posible obtener 3 caras al lanzar 3 veces una moneda en la que nunca sale cara.

Otro ejemplo

Vamos a observar otro ejemplo distinto en el que tras tirar 10 veces una misma moneda obtenemos 8 caras y 2 cruces (recuerda que el orden no nos importa en absoluto, cualquier combinación con 8 caras y 2 cruces tiene el mismo valor de probabilidad). A diferencia de antes, ahora en los resultados obtenidos encontramos tanto caras como cruces. ¿Cuál dirías que es el valor de \(p\) de dicha moneda? Posiblemente hayas realizado el cálculo \(p = \frac{8 \text{ caras}}{10 \text{ lanzamientos}} = 0.8\). Pues lo cierto es que entre cualquier posible valor de \(p\), el \(0.8\) es el valor más creíble, más verosímil, más plausible, más likelihood... llámalo como quieras.

Si volvemos a representar la probabilidad en función de \(p\) obtenemos la siguiente gráfica:

El valor \(p = 0.8\) es el más verosímil, pero al fin y al cabo, en 10 lanzamientos de una moneda normal (\(p = 0.5\)) puede pasar que nos salgan 8 caras. Es raro, pero puede pasar. Digamos que cambiamos el número de lanzamientos por 100 y obtenemos 80 caras y 20 cruces, ¿cuál dirías que es el valor de \(p\) ahora? Al igual que antes, \(p = \frac{80}{100} = 0.8\). Si representamos gráficamente la probabilidad en función de \(p\) obtenemos algo muy similar a la última gráfica, solo que ahora el pico es mucho más estrecho, lo que podemos interpretar como que es menos probable que tirando una moneda normal se obtengan esos resultados. Antes decíamos que era raro obtener 8 caras de 10 lanzamientos con una moneda normal, ahora decimos que es muy muy muy muy raro, por no decir imposible, obtener 80 caras de 100 lanzamientos con una moneda normal (comprueba la altura de la curva de la siguiente gráfica en \(p = 0.5\) con la de la gráfica anterior).

Como habéis podido observar, el valor de \(p\) que consigue la probabilidad más alta de una secuencia de lanzamientos se puede obtener con

\[\dfrac{\text{# caras}}{\text{# lanzamientos}}\]

¿De dónde sale esa fórmula? Esa división que puede resultar muy natural y que usamos a menudo sin plantearnos de dónde ha salido, se obtiene gracias al MLE (en la segunda parte de este artículo veremos cómo se llega a ella). Por lo tanto, MLE nos permite obtener el valor de un parámetro (en nuestro caso \(p\)) para que tengan lugar de forma más probable un conjunto de observaciones (resultados de los lanzamientos de una moneda). Muchos problemas de estadística nos dicen: tenemos una moneda con \(P(\)\() = p\), ¿cuál es la probabilidad de obtener \(X\) secuencia de lanzamientos con ella?. MLE se utiliza para dar respuesta a otra pregunta ligeramente distinta: teniendo una secuencia de lanzamientos \(X\), ¿cuál es el valor de \(p\) que maximiza la probabilidad de obtener dicha secuencia?

Pruébalo tú mismo

Os he preparado un pequeño gráfico interactivo que os ayudará a comprender las likelihood functions. En la parte superior del gráfico hay un par de barras deslizantes que puedes cambiar a tu antojo. La primera de ellas corresponde al número de veces que la moneda lanzada ha caído cara y la segunda de ellas al número de veces que ha caído cruz. La función representada no es más que la probabilidad en función de \(p\) de obtener una serie de lanzamientos con ese número de caras y cruces. Un punto rojo indica el máximo de la curva.

Algunas observaciones

Antes de terminar me gustaría aclarar algunas cosas que quizás respondan a dudas que te hayan surgido conforme leías el artículo. Puede que estés pensando si el área que se encuentra bajo la curva (integral) de la función likelihood debe de sumar 1. Eso no ocurre prácticamente nunca. En el ejemplo interactivo, parece que la función siempre tenga su máximo a la misma altura, eso es debido a que se ha llevado a cabo un proceso de normalización con la idea de poder observar perfectamente la curva entera sin tener que hacer zoom en la figura. Cuanto mayor es el número de lanzamientos, la altura máxima de la curva disminuye a valores realmente bajos (con 10 caras y 10 cruces el máximo es del orden de \(10^{-6}\)). En la práctica, el valor de la función no importa, sólo nos importa dónde se encuentra el máximo. Es por dicha razón por las que no se muestran las unidades del eje \(y\).

¿Has jugado ya con el ejemplo interactivo? Si no lo has hecho te recomiendo por lo menos llevar a cabo alguna de estas pruebas.

Pon a 0 las dos barras deslizantes. Después selecciona una de ellas y ve aumentándola poco a poco. ¿Qué observas?
Pon a 0 las dos barras deslizantes. Después incrementa al mismo tiempo ambas barras. ¿Qué observas?
Fíjate también en el valor de probabilidad del punto máximo (la coordenada \(y\) del punto rojo) ¿Qué le pasa conforme aumenta el número total de lanzamientos?

Para saber más

Creo que con lo visto en este artículo ha quedado claro cuál es el cometido del MLE. Para explicarlo no hemos hecho uso de expresiones matemáticas complejas, solo estadística básica. En la segunda parte de este artículo introduciremos notación matemática y veremos en acción esta técnica de estimación de parámetros. El ejemplo será la derivación matemática necesaria para llegar a obtener porqué el valor de \(p\) que más probabilidad consigue en cualquier secuencia de lanzamientos es \(\frac{\text{# caras}}{\text{# lanzamientos}}\). ¡Nos vemos en la segunda parte!

Créditos

Las imágenes de las monedas son una modificación propia de varios ficheros descargados desde Freepik.
Las gráficas interactivas han sido hechas con la ayuda de la librería JSXGraph.