Ir al contenido principal

Diagrama de temas

    • Validación de Datos para Tareas de IA

      Validación de datos para tareas de IA


      Antes de comenzar a extraer datos, debería considerar realizar alguna validación de datos por adelantado para facilitar las cosas cuando inicie la fase de transformación. En este punto, no es necesario dedicar tiempo a corregir errores individuales o pequeños grupos de errores. Eso puede realizarse en el futuro. Sin embargo, todavía puede centrarse en los datos no válidos de forma integral. Por ejemplo, si extrae datos de varios archivos, uno de esos archivos podría estar dañado en su mayoría o por completo. Todos los valores de datos pueden estar codificados o simplemente ser incomprensibles. Ese es un problema que puede identificar fácilmente, ya sea manual o automáticamente. Luego, podría evitar incluir ese origen de datos durante el proceso de extracción. 

      Algunos problemas son un poco más sutiles, como los datos que están muy desactualizados. Tal vez trata de proyectar las ventas de productos en el futuro inmediato. Si uno de sus orígenes de datos tiene datos de ventas de hace 20 años, probablemente no valga la pena agregarlos al conjunto de datos. Por lo tanto, si puede validar la antigüedad de los datos, le será más fácil eliminar lo que no desea incluir. 

      La validación rápida al inicio del proceso de ETL puede ahorrarle tiempo y esfuerzo en el futuro. Las personas del equipo del proyecto con conocimiento de dominio sobre los datos pueden ayudarle en estos esfuerzos.