Repositorio de datos en DataFrame
No todos los proyectos requieren una arquitectura de base de datos para cargar datos. De hecho, es posible que la mejor opción sea mantener los datos en un formato que se integre por completo con su entorno de programación. No es necesario emitir consultas y enviar datos a través de la red a un servidor de bases de datos, debido a que todos los datos ya están en un formato aceptable. Por ejemplo, en un entorno Python, puede hacer una gran cantidad de limpieza y uso de los datos durante el proceso ETL con la biblioteca pandas en una memoria llamada objeto DataFrame
. Puede mantener los datos en ese formato de objeto si se adapta a sus necesidades.
Deberá evitar mantener esos datos solo en la memoria. De lo contrario, los errores del sistema o los cortes de energía pueden hacer que se pierdan los datos. Afortunadamente, las bibliotecas como pandas le permiten guardar su objeto DataFrame
como un archivo binario. Por ejemplo, Python tiene un formato de archivo binario llamado archivo pickle. Puede alojar el archivo en la unidad local o trasladarlo a alguna otra ubicación de almacenamiento.
Cuando esté listo para trabajar con los datos de nuevo, simplemente cargue el archivo binario en su entorno de programación y DataFrame
aparecerá exactamente como lo dejó. Esa es en realidad una de las ventajas que tiene un archivo binario sobre un archivo de texto simple: es una representación exacta del DataFrame
en el momento de guardado. No es necesario analizar los datos ni hacer nada más para que vuelvan al estado deseado.
Por supuesto, cargar datos en DataFrame
también tiene sus desventajas. En comparación con una base de datos, la dificultad es que los datos están fracturados y son difíciles de administrar. Si comparte los archivos binarios con otros miembros del equipo, no necesariamente habrá una fuente autorizada de datos como la habría al conectarse a un servidor de base de datos. Los archivos binarios como los archivos pickle también pueden suponer un riesgo para la seguridad si provienen de una fuente no confiable, por lo que debe tener cuidado con los archivos que abre. Además, no existen mecanismos centralizados de autenticación o autorización para evitar que los usuarios no deseados accedan a un archivo binario.
En comparación con los archivos de texto, los archivos binarios presentan problemas de compatibilidad. Por ejemplo, un objeto binario creado a partir DataFrame
de pandas en Python no se abrirá en un entorno de programación diferente sin cierto esfuerzo adicional. Los archivos de texto, por otro lado, son extremadamente portátiles y casi cualquier herramienta de ciencia de datos puede leerlos.