Ir al contenido principal

Diagrama de temas

    • Desduplicación


      La desduplicación es el proceso de identificar y eliminar entradas duplicadas de un conjunto de datos. Las entradas duplicadas pueden generar dificultades en la interpretación de los datos y pueden afectar a la capacidad de un modelo para aprender patrones de esos datos. Por lo tanto, debe buscarlos y abordarlos dondequiera que existan en el conjunto de datos.

      En los casos más comunes, los datos duplicados hacen referencia a filas de una tabla que aparecen más de una vez cuando no deberían. Esto puede ocurrir por varias razones, pero normalmente se debe a algún error al registrar los datos o consolidar datos de varios orígenes. La indicación más obvia de ello es cuando dos o más filas comparten los mismos valores exactos para cada columna, de este modo: style="border:1px solid #000000; padding:1%;"
      ID del cliente Apellido Nombre País Género
      1056 Williams Emily CA F
      1056 Williams Emily CA F
      1056 Williams Emily CA F

      La mayoría de los lenguajes de programación tienen bibliotecas con funciones que pueden reconocer automáticamente las filas totalmente duplicadas y quitarlas todas excepto una.

      Sin embargo, es posible que existan algunos duplicados donde solo uno o dos valores son iguales en varias filas. Si al menos uno de esos valores repetidos resulta ser la clave principal, que es un identificador único con un valor diferente para cada fila, sabrá que existe un duplicado. Las discrepancias con el resto de las columnas probablemente se deban a un error de registro. Puede que no esté claro cuál fila es la "correcta" y cuál no, por lo que podría ser más seguro quitar ambas filas, dependiendo de la frecuencia con la que aparecen y el tamaño del conjunto de datos. Esto se puede ver en el siguiente ejemplo, donde el verdadero nombre y género del cliente no está claro:
      ID del cliente Apellido Nombre País Género
      1056 Williams Emily CA F
      1056 Williams Marta CA F
      1056 Williams Zachary CA M

      Ciertas pruebas de duplicación pueden ser engañosas. Consulte la siguiente tabla:
      ID del cliente Precio de venta Impuesto Cantidad Producto
      1056 799.99 63.99 1 Televisor
      1056 78.99 6.32 2 Altavoces
      1056 199.99 15.99 1 Subwoofer

      En este ejemplo de transacciones de ventas, Customer ID no es la clave principal. El mismo cliente puede iniciar varias transacciones. Por lo tanto, aquí no existen duplicados. Si hubiera una columna llamada Transaction ID que tuviera los mismos valores en varias filas, serían duplicados, ya que esa característica actuaría como la clave principal. En ausencia de cualquier tipo de clave común, puede quedar aún menos claro que es un error de grabación y qué es una observación legítima. Esta es la razón por la que es importante tener una comprensión profunda del conjunto de datos; es posible que deba resolver problemas como este manualmente, ya que las bibliotecas de programación automatizadas no siempre sabrán qué hacer.

      La duplicación de datos también puede hacer referencia a columnas, no solo a filas. Una columna podría aparecer literalmente dos veces y contener, por ejemplo, los mismos valores para cada fila. O bien, dos columnas pueden contener valores diferentes sin procesar y continuar siendo redundantes.

      Nombre Lugar Tiempo en minutos Tiempo en horas
      Romano 2 176 2.93
      Alvarez 3 201 3.35
      Matthews 1 168 2.80

      En este ejemplo, la columna Time in Hours es redundante con la columna Time in Minutes ya que en ambas se mide lo mismo, solo que en escalas diferentes. Por lo tanto, el proceso de desduplicación podría implicar la eliminación de una de estas columnas. Una vez más, el conocimiento de los datos es un factor importante para determinar qué columnas están duplicadas y se pueden eliminar.