Ir al contenido principal

Diagrama de temas

    • Imputación de Valores Faltantes

      Imputación de valores faltantes

      Aunque las herramientas de datos pueden controlar los valores que faltan por sí solas, es mejor si decide exactamente cómo tratar los datos que faltan. Si simplemente no lo tiene en cuenta, el algoritmo puede hacer frente a los datos que faltan, pero el modelo resultante puede no funcionar también. Al preparar los datos, puede quitar registros con valores que faltan, pero eso también puede ser una mala opción, dependiendo de cuántos registros tenga que eliminar y qué otros datos contengan. Demasiados registros eliminados pueden limitar la eficacia del modelo, especialmente si los datos que faltan solo constituyen un pequeño porcentaje de las características generales.

      En algunos casos, el mejor enfoque puede ser imputar los valores faltantes. Imputación significa proporcionar su mejor estimación para completar los valores que faltan. Hay numerosas estrategias para hacer esto. Algunos ejemplos se describen aquí.

      Método de imputación Descripción
      Imputación de media o modo Calcule la media o el modo de todos los elementos que no faltan en esa columna y, a continuación, utilice el resultado para rellenar los valores que faltan. Por ejemplo, para completar la calificación de estudiante que falta, solo tomaría la media de todas las calificaciones de los estudiantes menos los valores que faltan. Este enfoque es simple, ya que conserva el valor de la media/modo y el tamaño de la muestra. Sin embargo, puede que no sea tan bueno como otros métodos enumerados aquí.
      Sustitución Utilizar datos a partir de un nuevo registro que aún no está en la muestra. Por ejemplo, es posible que encuentre otra fuente de calificaciones de estudiantes con la que puede sustituir la que falta.
      Imputación Hot Deck Busque registros en el ejemplo que tengan valores similares en todos los demás elementos de datos que el que falta y copie el valor que falta de uno de los registros similares. Si hay más de un registro similar, seleccione aleatoriamente el que copia. Por ejemplo, si faltaba la calificación de un estudiante para una sola asignatura (por ejemplo, clase de Historia), podría encontrar a otro estudiante con calificaciones similares en las asignaturas restantes y, a continuación, reutilizar la puntuación de Historia de ese alumno como la puntuación de Historia para el alumno con el valor que falta.
      Imputación Cold Deck Similar a la imputación de hot deck, pero en lugar de extraer de la misma muestra en la que se encuentra el valor que falta, se extrae de una muestra externa. Por ejemplo, es posible que se haya registrado una muestra diferente de estudiantes en el pasado reciente, por lo que intentará encontrar un estudiante similar en esa muestra.


      Información adicional

      Para obtener más información acerca de la imputación de valores faltantes, consulte este sitio.