Ir al contenido principal

Diagrama de temas

    • Puntuación F1

      Como ha visto, la precisión y la recuperación son más útiles en conjuntos de datos desequilibrados, pero vienen con una compensación. Normalmente, cuando se hace hincapié en uno, se hace a expensas de restar énfasis al otro. A veces, como en el ejemplo del diagnóstico de cáncer, está relativamente claro cuál es más útil. Sin embargo, no siempre es así. Considere una tarea de aprendizaje automático en la que desea determinar si una novela está o no en el género de ciencia ficción, dada una breve muestra de texto. Un falso positivo (por ejemplo, clasificar una novela como ciencia ficción cuando no lo es) es tan indeseable como un falso negativo (por ejemplo, no clasificar una novela como ciencia ficción aunque lo sea); ninguno de los dos es particularmente peor. Entonces, ¿cuál es la mejor manera de medir el rendimiento en este caso?

      La puntuación F₁ ayuda a encontrar una combinación óptima de precisión y recuperación. La puntuación F1 esencialmente solo toma un promedio ponderado de precisión y recuperación. La media ponderada reduce el efecto de los valores extremos. La puntuación F1 se puede expresar como:

      Supongamos que 143 novelas se clasificaron correctamente como ciencia ficción y 21 novelas se clasificaron incorrectamente como ciencia ficción. La precisión es de ~87 %. Si 38 novelas no se clasificaran como ciencia ficción a pesar de que lo son, entonces la recuperación sería de ~79 %. Conecte estos valores en la fórmula de la siguiente manera:


      La puntuación F1 resultante es ~0,828 o alrededor del 83 %.

      Para reiterar, se prefiere la puntuación F1 cuando los valores de etiqueta del conjunto de datos no se distribuyen uniformemente y ni la precisión ni la recuperación son más útiles que la otra.

      Métricas de clasificación adicionales

      Además de las métricas fundamentales que se acaban de analizar, hay varias otras métricas que puede usar para evaluar un clasificador. Por ejemplo, una curva de característica de funcionamiento del receptor (ROC) se utiliza para trazar visualmente la relación entre la tasa de verdaderos positivos (recuperación) y la tasa de falsos positivos. Para obtener una lista más completa de las métricas de clasificación, consulte este sitio.