Ir al contenido principal

Diagrama de temas

    • Extracción de Datos de Archivos

      Extracción de datos de archivos


      Los archivos de texto, también conocidos como archivos de valores separados por comas (CSV), contienen datos en formato de texto donde cada valor está separado por un carácter de coma (,). Este carácter de separación también se denomina delimitador. El delimitador ayuda a los programas que toman el archivo como entrada y analizan los datos dentro del archivo, a menudo como una tabla con filas y columnas. Al examinar el delimitador, el programa puede determinar qué texto es una fila, qué texto es una etiqueta de columna y qué texto es un valor para una columna específica.

      Nota: Las comas no son el único delimitador posible en un archivo de texto, simplemente tienden a ser las más comunes. Algunos otros delimitadores incluyen tabulaciones, canalizaciones (|), dos puntos (:) y punto y coma (;).
      Los archivos de texto contienen solo texto, no se compilan como un archivo ejecutable u otro archivo binario y se pueden abrir en cualquier editor de texto para ver su contenido. En la siguiente ilustración, puede ver el contenido de un archivo CSV tal como aparece en un editor de texto simple.

      Figura 1. Un archivo CSV que contiene datos meteorológicos.

      Si un archivo CSV contiene los datos que necesita, querrá leerlo para que aparezca como una tabla, lo que facilita a los humanos su comprensión y trabajo con él. Una manera fácil de hacerlo es abrirlo en un programa de hoja de cálculo como Microsoft® Excel®.

      Figura 2. Archivo CSV en Microsoft Excel.

      Muchos lenguajes de programación como Python tienen bibliotecas con funciones que pueden leer un archivo CSV y abrir los datos en el entorno de programación para que pueda trabajar con él. La forma en que se hace esto difiere con cada lenguaje de programación, pero la mayoría le dan opciones para especificar cosas como:


      Qué tipo de datos se debe utilizar para almacenar los valores en cada columna. Un tipo de datos define cómo se va a tratar un valor cuando se ejecuta el código.
      Qué fila debe usarse para determinar el encabezado de las columnas.
      Qué columna se debe utilizar como índice para las filas. Un índice es una columna que se puede utilizar para optimizar la búsqueda y la ordenación de datos.
      Qué carácter indica el inicio de un comentario y debe omitir el analizador.
      Qué carácter utilizar como delimitador, si no es una coma.


      En algunos casos, el lenguaje de programación puede hacer suposiciones basadas en los datos. Por ejemplo, la función pandas read_csv() en Python convertirá automáticamente el texto 'Joe' en un tipo de datos de cadena porque está entre comillas. Una cadena es un tipo de datos utilizado por los lenguajes de programación para almacenar datos de texto. Esa misma función utilizará la primera fila del archivo de texto como encabezados de columna. Al leer archivos CSV en un entorno de programación, es importante comprobar que todo se leyó como esperaba. No desea que los encabezados de columna se conviertan en valores de datos reales, por ejemplo.

      Los archivos CSV son algunas de las formas más simples de almacenar datos y, por lo tanto, son un formato común para compartir conjuntos de datos abiertos.