Ir al contenido principal

Diagrama de temas

    • Sesgo en los datos


      Los datos pueden estar sesgados cuando no representan con precisión la población o el problema para el que se utilizan. Muchos conjuntos de datos, e incluso la mayoría de estos, sufren de algún tipo de sesgo. Si usa datos sesgados en la creación de un modelo de aprendizaje automático, el modelo resultante estará sesgado y sus resultados serán defectuosos. De hecho, podrían producirse resultados discriminatorios o perjudiciales para los seres humanos. Para mitigar el impacto del sesgo en los datos, debe examinar los datos en busca de sesgo como parte del proceso de modelado. Al hacerlo, busque estos tipos de sesgo:

      - Sesgo de selección: El sesgo de selección se produce cuando el conjunto de datos de entrenamiento no representa realmente la población a la que se aplicará el modelo. Por ejemplo, supongamos que desarrolla un modelo para predecir los costos de calefacción de un edificio. La selección de los datos de entrenamiento podría sesgar los resultados si cubre solo dos meses de un año o si proviene de un año que fue inusualmente frío.
      - Sesgo de respuesta. Esto también se llama sesgo de actividad y ocurre cuando las personas responden a las preguntas de la encuesta de manera falsa. Esto puede suceder en revisiones en línea, en publicaciones de redes sociales y en otras áreas. Normalmente, es probable que solo un pequeño porcentaje de personas haga esto, por lo que el impacto del sesgo de respuesta depende del tamaño del conjunto de datos.
      - Sesgo de informe. El sesgo de informe se produce cuando a los datos de entrenamiento les faltan observaciones no informadas. Por ejemplo, algunos tipos de delitos pueden tener más probabilidades de denunciarse que otros. El uso de datos con un sesgo de informe para entrenar un modelo de aprendizaje automático puede sesgar el resultado.
      - Sesgo de desgaste. El sesgo de desgaste se produce cuando los datos de entrenamiento excluyen a los participantes que abandonaron con el tiempo. Por ejemplo, se podría desarrollar un modelo para predecir la tasa de éxito de un tratamiento médico en particular a lo largo del tiempo. Algunos participantes podrían abandonar el tratamiento y un analista de datos bien intencionado podría eliminar sus datos del conjunto de datos de entrenamiento bajo la lógica de que los resultados de los participantes que abandonan sesgarían los resultados. Sin embargo, el hecho de que algunos participantes no completen el programa de tratamiento es una parte importante de las predicciones que el modelo debe hacer.
      - Sesgo de desvío. El sesgo de desvío es similar a la idea de desviación del concepto que vio anteriormente en el curso. Si entrena un algoritmo de aprendizaje automático en un conjunto de datos con características específicas y el sistema que genera los datos cambia sustancialmente, los datos procedentes de ese sistema pueden cambiar e invalidar la utilidad del algoritmo.
      - Sesgo de variable omitida. El sesgo de variable omitida se produce cuando faltan características de datos críticas para producir resultados precisos. Es posible que falten características porque esos datos no se recopilaron o no se entiende la importancia de estos.
      - Sesgo social. El sesgo social es otro tipo de sesgo creado por los seres humanos, generalmente debido a los estereotipos que afectan a los datos que se capturan o ingresan.

      Los profesionales de IA también deben tener cuidado de no introducir ningún sesgo en los datos a medida que preparan y refinan los conjuntos de datos para su procesamiento.

      Información adicional


      Para obtener más información sobre el sesgo de respuesta, visite este sitio.
      Para obtener más información sobre el sesgo social, visite este sitio.