Ir al contenido principal

Diagrama de temas

    • Extraer, Transformar y Cargar (ETL)

      Extraer, transformar y cargar (ETL)


      Extraer, transformar y cargar (ETL) es el proceso de combinar datos de varias fuentes, prepararlos y cargar el resultado en un destino. Es la primera fase importante de cualquier proceso de un proyecto de IA o AA que implica un trabajo práctico con los datos. El objetivo general del proceso ETL es básicamente hacerse cargo de un desorden y ordenarlo. No es recomendable ingresar en la fase de modelado con datos de varias fuentes dispares; tampoco desea modelar datos que son incoherentes o tienen muchos problemas. Esto perjudicará en gran medida el desempeño del modelo, desacelerará el proyecto y pondrá en peligro un resultado correcto. Incluso si cree que sus datos están limpios, o si solo provienen de una única fuente, debe pasarlos a través del proceso ETL para asegurarse de que estén en el mejor estado posible.


      ETL es en realidad una de las tareas que más tiempo consumen en el proceso de AA cuando se trata de esfuerzo humano directo. Esto es cierto sobre todo si está trabajando con grandes volúmenes de datos, incluidos los big data. ETL demanda un enfoque cuidadoso y metódico para el control de datos porque cada conjunto de datos y cada aplicación de dicho conjunto de datos a un problema es diferente. No hay una forma segura de obtener siempre sus datos en el estado perfecto, pero existen prácticas recomendadas generales que comenzará a aprender en breve.


      A continuación, encontrará una descripción somera de cada paso del proceso de ETL:

      - Extraer: extrae todos o algunos de los datos de varias fuentes, que pueden tener estructuras de datos similares o diferentes.
      - Transformar: convierte los datos en un formato o estructura de almacenamiento adecuado y uniforme.
      - Cargar: inserta los datos en el destino donde se almacenarán para su posterior análisis y modelado.


      Python y Jupyter Notebook

      Hay muchos lenguajes de programación y herramientas que pueden realizar el proceso ETL. Uno de los lenguajes de programación más utilizados es Python y una de las herramientas basadas en Python más útiles es Jupyter Notebook.