Etiqueta real (correcta) | Etiqueta estimada | Resultado del modelo | Evaluación |
---|---|---|---|
Sí | Sí | Correcto | Verdadero positivo (VP) |
No | No | Correcto | Verdadero negativo (VN) |
No | Sí | Error | Falso positivo (FP) |
Sí | No | Error | Falso negativo (FN) |
17 / 17 + 8
, o 68 %. Esto es más útil que la exactitud, porque tiene en cuenta la naturaleza desequilibrada del conjunto de datos con respecto a la etiqueta. Sin embargo, el problema con la precisión en este caso es que no aborda los casos en los que un paciente tiene cáncer, pero el modelo no indica que lo haga (es decir, falsos negativos). Dado lo grave que es el cáncer de páncreas, si el modelo no identifica ni siquiera a un solo paciente que tiene la enfermedad, el modelo puede considerarse un fracaso. Incluso si usted decide tolerar más de un caso perdido de cáncer, la precisión aún se queda corta en la evaluación del rendimiento de este modelo.17 / 17 + 4
, o alrededor del 81 %. Ahora, tiene una mejor idea de qué tan bien funciona su modelo con respecto a su propósito final: minimizar el número de personas con cáncer de páncreas que no se diagnostican. Esto se debe a que la recuperación se centra en los falsos negativos. Técnicamente, el modelo podría mejorar su memoria al predecir que todos los pacientes tienen cáncer, lo que llevaría a una recuperación del 100 %, pero esto haría que el modelo fuera inútil para establecer prioridades sobre el diagnóstico y el tratamiento manuales. Además, la recuperación no minimiza los falsos positivos, así como lo hace la precisión.513 / 513 + 8
, o alrededor del 98 %. Sin embargo, la especificidad es útil para cuando se necesita maximizar la cantidad de negativos verdaderos que produce el modelo. Además, al igual que la precisión, no funciona tan bien cuando la etiqueta del conjunto de datos está desequilibrada. Por lo tanto, el ejemplo de detección de cáncer no es realmente un buen candidato para la especificidad.F1
esencialmente solo toma un promedio ponderado de precisión y recuperación. La media ponderada reduce el efecto de los valores extremos. La puntuación F1
se puede expresar como:F1
resultante es ~0,828 o alrededor del 83 %.F1
cuando los valores de etiqueta del conjunto de datos no se distribuyen uniformemente y ni la precisión ni la recuperación son más útiles que la otra./home/student/ITSAI/Classification/data/newdata.csv
Antes de empezar
Classification-Boston.ipynb está abierto en Jupyter Notebook.
Nota: Si cerró Jupyter Notebook desde que completó la actividad anterior, deberá reiniciar Jupyter Notebook y volver a abrir el archivo. Para asegurarse de que todos los objetos y la salida de Python están en el estado correcto para comenzar esta actividad:
-------------------------------------------------------------------------------------------------------------------------------------------------------------
k
-NN tiene una puntuación comparativamente baja.k
-NN vuelve a tener la puntuación más baja.F1
de los cuatro modelos.F1
se muestra para cada modelo. El modelo de bosque aleatorio tiene la puntuación más alta, pero el modelo de árbol de decisión y el modelo de regresión logística están empatados en segundo lugar. El modelo k
-NN tiene la puntuación más baja.Los resultados pueden interpretarse de la siguiente manera:
False
reales (por ejemplo, los pasajeros que perecieron) eran False
. Estos son los verdaderos valores negativos.False
reales eran True
. Estos son los falsos positivos.True
reales (por ejemplo, los pasajeros que sobrevivieron) eran False
. Estos son los falsos negativos.True
reales eran True
. Estos son los verdaderos valores positivos.DataFrame
.ActualSurvival
). Usted no conoce el destino de estos pasajeros. El modelo de aprendizaje automático está diseñado para hacer predicciones para este tipo de datos.------------------------------------------------------------------------------------------------------------------------------------------------------------------------