Consideraciones sobre la carga de datos
La carga de datos en este contexto no solo significa insertar datos sin procesar en un entorno de trabajo. Se refiere a poner los datos limpios en un destino final donde el resto del proceso de análisis y modelado puede realizarse. En otras palabras, este es el conjunto de datos preparado que usará para analizar su problema de IA y desarrollar modelos para abordar dicho problema.
Antes de comenzar a cargar datos en un destino, debe tener en cuenta algunas cosas, como las siguientes:
- Elección del formato de datos. El conjunto de datos debe almacenarse de alguna forma, ya sea un archivo, un servidor de bases de datos o algún otro repositorio. La elección del formato depende de las herramientas que tenga disponibles, las tecnologías de base de datos con las que está familiarizado y las soluciones que ya están en uso en su entorno.
- Capacidad de almacenamiento. Los grandes conjuntos de datos, en especial los que califican como big data, deben cargarse en un destino que tenga una alta capacidad de almacenamiento. También debe tener en cuenta que sus necesidades de almacenamiento pueden ser flexibles, lo que significa que se reducen o crecen con el tiempo. Por ejemplo, si agrega datos adicionales al conjunto de datos con posterioridad, necesitará más capacidad de almacenamiento.
- Capacidad de memoria. Al igual que cualquier otra operación de computador, el análisis y modelado de datos tiene lugar dentro de la memoria de la máquina. Sin embargo, estas tareas tienden a consumir mucha memoria y pueden usar rápidamente toda la memoria disponible en un computador o grupo de estos. Debe asegurarse de que tiene suficiente memoria para ajustarse al conjunto de datos. Esto incluye memoria como RAM que se accede directamente por la CPU, pero también puede incluir memoria de GPU, que es un cuello de botella común al entrenar modelos de aprendizaje automático. Es posible que pueda evitar errores de memoria insuficiente en conjuntos de datos grandes dividiendo los datos generales en fragmentos más pequeños que cargue y analice de manera individual.
- Integración de canalizaciones. Si tiene una canalización que le ayuda a automatizar las tareas de datos, debe asegurarse de que el conjunto de datos de destino sea compatible con esa canalización. Debe poder cargar datos en el formato deseado sin una gran cantidad de orientación manual.
- Colaboración. Como miembro de un equipo de proyecto, debe poder compartir datos entre varios miembros del mismo equipo. Aunque puede sentirse cómodo con un determinado proceso de carga de datos, es posible que sus colegas no. Necesita trabajar con su equipo para desarrollar una solución que beneficie a todos, no solo a usted.
Almacenamiento en la nube frente a almacenamiento local
Elegir entre almacenar datos en servidores locales o en la nube no siempre es una tarea fácil. Hay algunos factores importantes que el equipo del proyecto debe tener en cuenta al tomar esta decisión. Si eligen servidores locales, la organización es responsable del costo de instalar y mantener sus propios recursos de hardware. En la nube, la organización no es responsable del costo de mantenimiento del hardware; solo del costo del espacio de almacenamiento flexible que puede aumentar o disminuir en un momento dado. Aun así, en una configuración de almacenamiento local, los miembros del equipo pueden acceder a los datos de la red local sin necesidad de conectividad a Internet. Si por cualquier razón la conectividad a Internet no está disponible cuando sus datos están en la nube, los miembros de su equipo no podrán acceder a los datos que necesitan.