ID del cliente | Apellido | Nombre | País | Género |
---|---|---|---|---|
1056 | Williams | Emily | CA | F |
1056 | Williams | Emily | CA | F |
1056 | Williams | Emily | CA | F |
ID del cliente | Apellido | Nombre | País | Género |
---|---|---|---|---|
1056 | Williams | Emily | CA | F |
1056 | Williams | Marta | CA | F |
1056 | Williams | Zachary | CA | M |
ID del cliente | Precio de venta | Impuesto | Cantidad | Producto |
---|---|---|---|---|
1056 | 799.99 | 63.99 | 1 | Televisor |
1056 | 78.99 | 6.32 | 2 | Altavoces |
1056 | 199.99 | 15.99 | 1 | Subwoofer |
Customer ID
no es la clave principal. El mismo cliente puede iniciar varias transacciones. Por lo tanto, aquí no existen duplicados. Si hubiera una columna llamada Transaction ID
que tuviera los mismos valores en varias filas, serían duplicados, ya que esa característica actuaría como la clave principal. En ausencia de cualquier tipo de clave común, puede quedar aún menos claro que es un error de grabación y qué es una observación legítima. Esta es la razón por la que es importante tener una comprensión profunda del conjunto de datos; es posible que deba resolver problemas como este manualmente, ya que las bibliotecas de programación automatizadas no siempre sabrán qué hacer.Nombre | Lugar | Tiempo en minutos | Tiempo en horas |
---|---|---|---|
Romano | 2 | 176 | 2.93 |
Alvarez | 3 | 201 | 3.35 |
Matthews | 1 | 168 | 2.80 |
Time in Hours
es redundante con la columna Time in Minutes
ya que en ambas se mide lo mismo, solo que en escalas diferentes. Por lo tanto, el proceso de desduplicación podría implicar la eliminación de una de estas columnas. Una vez más, el conocimiento de los datos es un factor importante para determinar qué columnas están duplicadas y se pueden eliminar.