Métricas de Evaluación

Evaluación de un modelo¶

La evaluación de un modelo es uno de los pasos más importantes en el proceso de Machine Learning, ya que nos va a permitir saber cómo de bueno es nuestro modelo, cuánto ha aprendido de la muestra de entrenamiento (train) y cómo procederá para datos nunca vistos o nuevos (test y/o validación).

Para evaluar un modelo existen ciertos conjuntos de métricas, que se distinguen según si un modelo permite clasificar o realizar una regresión.

Métricas para modelos de clasificación¶

Un modelo de clasificación se utiliza para predecir una categoría o la clase de una observación. Por ejemplo, podríamos tener un modelo que predijese si un correo electrónico es spam (1) o no spam (0), o si una imagen contiene un perro, un gato o un pájaro. Los modelos de clasificación son útiles cuando la variable de salida es categórica.

Las métricas que se pueden aplicar a este tipo de modelos son las siguientes:

Precisión (accuracy). Mide el porcentaje de predicciones que el modelo acertó con respecto al total que hizo. Por ejemplo, cuántos correos electrónicos el modelo ha conseguido clasificar bien.
Sensibilidad (recall). Mide la proporción de positivos reales que el modelo fue capaz de identificar. Por ejemplo, cuántos correos electrónicos que son spam reales el algoritmo ha conseguido identificar bien, quitando los que no son spam y que ha clasificado mal.
Puntaje F1 (F1 score): Es la media de la precisión y la sensibilidad. Es útil cuando las clases están desbalanceadas.
Área Bajo la Curva (AUC): Describe la probabilidad de que un modelo clasifique una instancia positiva elegida al azar más alta que una negativa elegida al azar.

Métricas para modelos de regresión¶

Un modelo de regresión se utiliza para predecir un valor continuo. Por ejemplo, podríamos tener un modelo de regresión que prediga el precio de una casa basado en características como su tamaño, el número de habitaciones y su ubicación. Los modelos de regresión son útiles cuando la variable de salida es continua y numérica.

Las métricas que se pueden aplicar a este tipo de modelos son las siguientes:

Error absoluto medio (Mean Absolute Error, MAE). Media de la diferencia absoluta entre las predicciones y los valores reales.
Error cuadrático medio (Mean Squared Error, MSE). Similar al anterior, pero eleva al cuadrado las diferencias antes de realizar la división.
Error cuadrático medio de la raíz (Root Mean Squared Error, RMSE). Es la raíz cuadrada del MSE.
Coeficiente de determinación ( $R^2$ ). Proporción de variación en el objetivo que es predecible a partir de las características.

El paquete scikit-learn permite fácilmente aplicar estas funciones a los modelos. La documentación está accesible aquí.