Ir al contenido principal

Diagrama de temas

    • Corrección de Formatos de Datos

      Corrección de formatos de datos


      Los elementos de datos se pueden representar de forma diferente en los distintos orígenes de los que se obtienen los datos. Los diferentes sistemas de bases de datos y almacenes de datos admiten diferentes tipos de datos y pueden almacenar valores con diferentes niveles de precisión. Por ejemplo, una característica aparentemente sencilla, como Color podría almacenarse como una cadena, un entero o incluso un flotante. Cuando se combinan valores similares de varios orígenes, deben usar un tipo de datos coherente, uno que sea compatible con el entorno de trabajo que está utilizando, así como la base de datos en la que planea cargar esos datos. Estos valores también deben estar en un formato que admita el análisis y el modelado de datos más adelante.

      Como parte del proceso de limpieza de datos, deberá inspeccionar el conjunto de datos para identificar las características cuyos tipos de datos deben cambiar. Un analizador de datos puede intentar determinar el tipo de datos óptimo que se va a utilizar para una columna y puede verse obligado a utilizar un tipo de datos inesperado o no deseado si solo un valor se desvía de la norma. Incluso si todos los valores siguen el mismo patrón, es posible que el tipo de datos no sea el que desea. Por ejemplo, es una práctica común usar un tipo de datos decimal en lugar de un flotante cuando se trata de dinero. Los decimales tienen el nivel más alto de precisión y no introducirán errores de redondeo. Sin embargo, muchas herramientas analizarán automáticamente cualquier número con un separador decimal como un flotante. Por lo tanto, deberá convertir estos valores a decimal.

      Otro ejemplo es convertir un valor categórico de una cadena en un número. Los valores de una columna Color pueden ser incoherentes o incluir errores (por ejemplo, "Blue" y "bleu"), por lo que es posible que desee convertirlos en números donde el número 1 es azul, el número 2 es rojo, etc.

      Afortunadamente, la mayoría de los entornos de IA y AA proporcionan funciones de programación para convertir fácilmente datos de un tipo a otro. Sin embargo, tenga en cuenta que no todas las conversiones van a funcionar. Puede convertir la cadena '1.34' en flotador 1.34 porque la cadena contiene un número y solo un número. Pero, si intenta convertir la cadena 'two' en un entero, probablemente no va a funcionar. Sin embargo, puede convertir cualquier valor en una cadena.