Ir al contenido principal

Diagrama de temas

    • Consolidación de Datos

      Consolidación de datos


      Aparte de adquirir datos y llevarlos a un entorno de IA o ML, la otra parte importante de la fase de extracción de ETL es consolidar los datos. En otras palabras, combinar datos similares en una forma más simplificada que sea más propicia para transformarse y cargarse.

      La consolidación puede referirse a un par de cosas diferentes, dependiendo del contexto. Una forma de ver la consolidación es considerar los datos desde una perspectiva granular, es decir, hasta los propios valores de los datos. Por ejemplo, una fuente de datos que rastrea los electrodomésticos de cocina puede tener una columna llamada weight_lbs y otra fuente de datos que rastrea de los cubiertos tiene una columna llamada weight_ounces. Ambos valores hacen referencia a la misma característica: el peso del producto. Si desea combinar estos orígenes en un único conjunto de datos, puede que esté bien que tenga dos columnas de peso diferentes. Pero también es posible que desee optimizar los datos mediante la consolidación de los pesos en una columna, ya sea peso en libras, peso en onzas o algo más. Puede convertir los datos en la unidad de medida elegida. En última instancia, será más fácil administrar el conjunto de datos.

      Otra forma de realizar la consolidación es cambiar la estructura de los datos en su conjunto. Supongamos que tiene dos fuentes de datos que rastrean los electrodomésticos de cocina. El primer origen de datos tiene muchas columnas diferentes que describen cada dispositivo, incluidos weightpriceunits_sold y mucho más. La segunda fuente enumera algunos de los mismos productos exactos, pero con una columna que no está en la primera fuente color. El segundo origen también incluye algunas filas de productos que ni siquiera están en el primer origen. Para consolidar los datos de estos dos orígenes en un único conjunto de datos que contenga la información que desee, puede utilizar un proceso llamado combinación para crear un nuevo conjunto de datos a partir de otros orígenes de datos.