Preparación y limpieza de datos
Hay varios motivos por los que es posible que desee transformar los datos, pero los dos más frecuentes tienen que ver con la preparación de los datos y su limpieza.
La preparación de datos es el proceso de modificar dichos datos para que respalden de manera más eficaz las tareas de IA y AA, en particular el análisis y el desarrollo de modelos. Debido a que estas tareas son tan vitales para cumplir con las metas del proyecto, la preparación de datos es un componente necesario para lograr el éxito. Hay muchas tareas individuales que pueden formar parte de la preparación de datos, varias de las cuales aprenderá en este curso. En general, la finalidad de la preparación de datos es corregir todos los problemas que pueda identificar antes de cargar los datos en su destino final. Estos problemas pueden ser a nivel macro (por ejemplo, datos no estructurados de una fuente que no encajan bien en un formato estructurado), o pueden estar en un nivel micro (por ejemplo, los valores de los datos individuales son incorrectos).
La limpieza de datos es en realidad un subconjunto de la preparación y solo se refiere a abordar inexactitudes y otros problemas con dichos datos. Esto puede incluir datos duplicados, datos con el tipo de datos o el formato incorrectos, datos dañados, datos faltantes, etc. En realidad, "limpiar" los datos podría significar cambiar los datos ofensivos o simplemente eliminarlos. Cada uno tiene sus beneficios y uno puede ser más recomendable o práctico que el otro en ciertas situaciones. Por ejemplo, si muchos registros tienen el mismo valor erróneo en la misma columna, podría ser fácil corregir ese valor. Quitar demasiados registros podría perjudicar el conjunto de datos. Por otro lado, si solo unos pocos registros tienen valores problemáticos, pero esos valores no siguen ningún patrón identificable, puede ser difícil corregirlos. Por lo tanto, puede optar por quitar esos registros en cambio. La elección se reduce a qué acción cree que será la más factible de tomar, mientras se minimizan todos los efectos negativos que puedan aparecer más adelante.
Todo el proceso de preparación de datos puede ser tedioso y puede llevar mucho tiempo en un proyecto de IA/AA. A modo de reflejo de la dificultad de la tarea, a veces se conoce como disputa de datos u organización de datos, en particular cuando se realiza de forma manual o fuera de procesos formales y repetibles. Sin embargo, varias bibliotecas de software proporcionan funciones que permiten automatizar el proceso de preparación de datos. Esto es valioso sobre todo cuando debe repetir el proceso de limpieza en otros conjuntos de datos o cuando se agregan nuevos datos a lo largo del tiempo.
Nota: Siempre que realice operaciones en datos, considere la posibilidad de crear una copia de seguridad para poder volver al conjunto de datos original si algo sale mal.