Ir al contenido principal

Diagrama de temas

    • Extracción y Evaluación de Datos

      Extracción y evaluación de datos


      Archivos de datos


      /home/student/ITSAI/ETL/Accessing and Managing Data for AI.ipynb
      /home/student/ITSAI/ETL/data/kc_house_data.csv
      /home/student/ITSAI/ETL/data/kc_house_data.db


      Escenario

      Deberá cargar el archivo de texto kc_house_data.csv y revisará brevemente los datos para asegurarse de que sea utilizable y determinará cuántos registros hay. Se le dio acceso a un archivo de base de datos que contiene más datos de viviendas. Deberá cargar la base de datos kc_house_data.db y revisar esos datos para ver si los dos orígenes de datos pueden combinarse. Luego, deberá combinar los dos orígenes de datos en una única tabla.

      Nota: Todo el código de las actividades de este curso ya fue escrito para usted. Simplemente deberá ejecutar el código y ver los resultados.

      Nota: Recuerde que si se le pide en cualquier momento que inicie sesión, el nombre de la cuenta es student y la contraseña es Pa22w0rd.


      -----------------------------------------------------------------------------------------------------------------------------------------------------------------------
      1. Inicie Jupyter Notebook.
      1. En el escritorio, haga doble clic en el icono de Jupyter para iniciar el servidor de Jupyter Notebook y abrir un explorador web.


      El servidor se inicia primero en una ventana de terminal (un programa que acepta comandos de texto) y, luego, el explorador web se inicia para proporcionar la interfaz de usuario de Jupyter Notebook.
      El explorador web muestra una lista de directorios en el equipo.
      Puede usar esta lista para desplazarse a las carpetas que contienen cuadernos que desea abrir.

      2. Seleccione ITSAI.
      Nota: Seleccione el texto "ITSAI", no el icono de carpeta junto a él.
      El directorio ITSAI contiene subdirectorios para diferentes cuadernos y conjuntos de datos.
      3. Seleccione ETL.
      El subdirectorio ETL contiene un subdirectorio denominado datos y dos archivos de cuaderno: Accessing and Managing Data for AI.ipynb y Handling Textual Data.ipynb.


      -------------------------------------------------------------------------------------------------------------------------------------------------------------

      2. Ejecute código para importar las bibliotecas de software relevantes.
      1. Seleccione la etiqueta del cuaderno Accessing and Managing Data for AI.ipynb.
      Se abrirá el cuaderno Accessing and Managing Data for AI en Jupyter Notebook.
      2. Examine el código Python debajo del título Importar bibliotecas de software.
      Desplácese, si es necesario, para ver la lista de código completa.
      Nota: Si los números de línea no se muestran a lo largo del lado izquierdo de la lista de código, seleccione Ver→Activar números de línea para agregarlos. Aunque los números de línea no son necesarios para ejecutar el código, facilitarán la discusión del código en clase.


      Este código importa las varias bibliotecas de software que se utilizarán en este programa y, luego, muestra los nombres de las diferentes bibliotecas, junto con el número de versión instalado en el computador.


      3. Seleccione la celda que contiene la lista de código.


      Se agregará un borde alrededor de la celda que contiene la lista de código, lo cual indica que la celda que contiene el código está ahora seleccionada.

      4. Seleccione el botón Ejecutar para ejecutar el código en la celda seleccionada.


      5. Observe el resultado del código que acaba de ejecutar.
      Se enumeran las bibliotecas utilizadas en el proyecto, junto con sus números de versión.
      Es importante documentar qué herramientas y versiones está utilizando para que pueda reconstruir el entorno correcto más adelante, si es necesario. Las configuraciones y los valores predeterminados también pueden cambiar con el tiempo, lo cual podría afectar los resultados.

      -------------------------------------------------------------------------------------------------------------------------------------------------------------

      3. Cargue los datos de texto de la casa.
      1. Desplácese hacia abajo para ver la celda titulada Cargar los datos de texto y examine la lista de código debajo de ella.

      Este código identifica la ubicación del directorio que contiene el conjunto de datos y, luego, muestra una lista de archivos en el directorio de datos. Luego, cargará el archivo de datos CSV desde la ubicación vista anteriormente.
      2. Seleccione la celda que contiene la lista de código y luego seleccione Ejecutar.
      3. Observe los resultados.

      Se cargaron 18.769 registros desde el archivo kc_house_data.csv.
      Estos registros ahora se cargan en data_raw, desde donde se pueden mostrar o manipular a través del código Python.

      4. En la siguiente celda de código, examine el código.

      Este código mostrará las primeras cinco filas de los datos.


      5. Seleccione la celda que contiene la lista de código y luego seleccione Ejecutar.


      6. Observe los resultados.

      Son los mismos datos que vio en el tema anterior. Cada fila es una casa que se vendió.
      7. En la siguiente celda de código, examine el código.

      Este código mostrará la dimensionalidad de los datos (el número de filas y columnas).

      8. Seleccione la celda que contiene la lista de código y luego seleccione Ejecutar.

      9. Observe los resultados.

      Esta tabla tiene 18.769 filas y 22 columnas.

      -------------------------------------------------------------------------------------------------------------------------------------------------------------

      4. Cree una conexión a la base de datos SQLite.
      1. Desplácese hacia abajo para ver la celda titulada Crear una conexión a la base de datos SQLite y examine la lista de código debajo de ella.

      Este código utiliza la biblioteca sqlite3 para conectarse al archivo de base de datos kc_house_data.db.


      2. Seleccione la celda que contiene la lista de código y luego seleccione Ejecutar.

      3. Se está conectando a una base de datos SQLite, la cual es solo un archivo en el sistema de archivos local.
      Examine el resultado.

      El objeto conn estableció una conexión con la base de datos.

      -------------------------------------------------------------------------------------------------------------------------------------------------------------
      5. Lea los datos de houses.
      1. Desplácese hacia abajo para ver la celda titulada Lea los datos de houses y examine la lista de código debajo de ella.

      Este código contiene una consulta que seleccionará todos los registros de la tabla casas en el archivo de base de datos kc_house_data.db.

      2. Seleccione la celda que contiene la lista de código y luego seleccione Ejecutar.

      3. En la siguiente celda de código, examine el código.

      Este código lee el archivo de base de datos mediante la consulta que definió en el bloque de código anterior y lo almacena en el DataFrame llamado houses. Luego, muestra las primeras cinco filas de datos del archivo DataFrame.

      4. Seleccione la celda que contiene la lista de código y luego seleccione Ejecutar.


      5. Examine el resultado.

      Los datos de la base de datos tienen las mismas columnas que los datos del archivo de texto.

      6. En la siguiente celda de código, examine el código.

      Este código mostrará el número de filas y columnas de este conjunto de datos.

      7. Seleccione la celda que contiene la lista de código y luego seleccione Ejecutar.

      8. Examine el resultado.

      Esta tabla tiene 2849 filas y 22 columnas.


      -------------------------------------------------------------------------------------------------------------------------------------------------------------
      6. Combine los datos de texto con los datos de la base de datos.
      1. Desplácese hacia abajo para ver la celda titulada Combinar ambas fuentes de datos y examine la lista de código debajo de ella.

      Este código agrega los datos de houses de la base de datos a los datos de data_raw del archivo de texto. Los datos combinados están contenidos en house_data.

      2. Seleccione la celda que contiene la lista de código y luego seleccione Ejecutar.

      3. En la siguiente celda de código, examine el código.

      Este código muestra las primeras cinco filas de house_data.

      4. Seleccione la celda que contiene la lista de código y luego seleccione Ejecutar.

      5. Examine el resultado.

      Estas son las mismas cinco filas que vio en el archivo de texto. Las filas de la base de datos se agregaron al final.

      6. En la siguiente celda de código, examine el código.

      Este código mostrará el número de filas y columnas de este conjunto de datos. Esto mostrará el número total de filas para los datos combinados.

      7. Seleccione la celda que contiene la lista de código y luego seleccione Ejecutar.

      8. Examine el resultado.

      21.618 registros se combinaron en house_data. Hubo 18.769 registros del archivo de texto y 2849 en el archivo de base de datos.