Ir al contenido principal

Diagrama de temas

    • Protección y Carga de Datos

      Protección y carga de datos


      Antes de empezar

      Se abrirá Accessing and Managing Data for AI.ipynbI en Jupyter Notebook.
      Nota: Si cerró Jupyter Notebook desde que completó la actividad anterior, deberá reiniciar Jupyter Notebook y volver a abrir el archivo. Para asegurarse de que todos los objetos y la salida de Python están en el estado correcto para comenzar esta actividad:

      1. Seleccione Kernel→Reiniciar & y Borrar salida.
      2. Seleccione Reiniciar y borrar todas las salidas.
      3. Desplácese hacia abajo y seleccione la celda con la etiqueta Cargar datos en una base de datos SQL.
      4. Seleccione Celda→ Ejecutar todo lo anterior.


      Escenario

      Ahora que los datos de vivienda están en un estado relativamente limpio, usted desea comenzar a empaquetarlos para las próximas tareas de análisis y modelado. Hay muchos formatos en los que puede cargar estos datos. En lugar de elegir solo uno, probará varios formatos para tener una idea de cómo difieren en términos de almacenamiento e integración.


      -------------------------------------------------------------------------------------------------------------------------------------------------------------

      1. Cargar datos en una base de datos SQL.
      1. Desplácese hacia abajo y vea la celda titulada Cargar datos a una base de datos SQL y examine la lista de código debajo de ella.

      Este código crea un archivo de base de datos SQLite y guarda los datos de houses_cleaned_final en el archivo de base de datos abierto.

      2. Ejecute la celda de código.

      -------------------------------------------------------------------------------------------------------------------------------------------------------------
      2.Confirme que los datos se cargaron en la base de datos.
      1. Desplácese hacia abajo y vea la celda titulada Confirmar que los datos se cargaron en la base de datos y examine la lista de código debajo de ella.

      Este código leerá los datos que acaba de guardar en el archivo de base de datos y mostrará las primeras 5 filas.


      2. Ejecute la celda de código.

      3. Examine el resultado.

      Aparecerán las primeras filas del conjunto de datos limpiado, lo que indica que los datos se cargaron correctamente en la base de datos SQLite.

      ------------------------------------------------------------------------------------------------------------------------------------------------------------------------
      3.Cierre la conexión a la base de datos.
      1.Desplácese hacia abajo y vea la celda titulada Cerrar la conexión a la base de datos y examine la lista de código debajo de ella.

      Este código cierra la conexión al archivo de base de datos houses_data_cleaned.db.

      2. Ejecute la celda de código.

      ------------------------------------------------------------------------------------------------------------------------------------------------------------------------
      4. Escriba el DataFrame como un archivo pickle.
      1. Desplácese hacia abajo y vea la celda titulada Escribir el DataFrame como un archivo pickle y examine la lista de código debajo de ella.

      Este código guardará los datos de houses_cleaned_final en el archivo houses_data_cleaned.pickle.


      2. Ejecute la celda de código.

      Los archivos pickle están en un formato binario y conservan el contenido y la estructura de un archivo de DataFrame.


      -------------------------------------------------------------------------------------------------------------------------------------------------------------
      5. Confirme que los datos se escribieron en el archivo pickle.
      1. Desplácese hacia abajo y vea la celda titulada Confirmar que los datos se escribieron en el archivo pickle y examine la lista de código debajo de ella.

      Este código leerá los datos que acaba de guardar en el archivo pickle y mostrará las primeras 5 filas.


      2. Ejecute la celda de código.


      3. Examine el resultado.
      Como era de esperar, el DataFrame se cargó desde el archivo pickle con su estructura intacta.


      4. En la siguiente celda de código, examine el código.

      Este código mostrará todas las columnas y sus tipos de datos para el archivo houses_data_cleaned.pickle.


      5. Ejecute la celda de código.


      6. Examine el resultado.

      Como puede ver, la columna date todavía está en formato datetime. No es necesario realizar análisis o consultas adicionales cuando se carga un archivo de DataFrame directamente desde un archivo pickle.

      ------------------------------------------------------------------------------------------------------------------------------------------------------------------------
      6. Escribir los datos en un archivo CSV.
      1. Desplácese hacia abajo y vea la celda titulada Escribir los datos en un archivo CSV y examine la lista de código debajo de ella.

      Este código guardará los datos de houses_cleaned_final en el archivo houses_data_cleaned.csv.


      2. Ejecute la celda de código.


      -------------------------------------------------------------------------------------------------------------------------------------------------------------
      7. Confirme que los datos se escribieron en un archivo CSV.
      1. Desplácese hacia abajo y vea la celda titulada Confirmar que los datos se escribieron en un archivo CSV y examine la lista de código debajo de ella.

      Este código leerá los datos que acaba de guardar en el archivo CSV y mostrará las primeras 5 filas.


      2. Ejecute la celda de código.


      3. Examine el resultado.

      La estructura del DataFrame parece estar intacta, a pesar de cargarse desde un archivo de texto. Sin embargo, puede haber algunos cambios más sutiles que requerirán que analice los datos para ponerlos en un estado ideal.


      4. En la siguiente celda de código, examine el código.
      Este código mostrará todas las columnas y sus tipos de datos para el archivo houses_data_cleaned.csv.


      5. Ejecute la celda de código.


      6. Examine el resultado.

      Como puede ver, la columna date está ahora en un formato de objeto en lugar de datetime. Tenga en cuenta que los archivos de texto pueden requerir análisis adicionales al volver a cargarlos en el entorno de programación.


      ------------------------------------------------------------------------------------------------------------------------------------------------------------------------
      8. Confirme que los archivos de base de datos, pickle y CSV se guardaron en la unidad local.
      1.En Firefox, seleccione la pestaña ITSAI/ETL/ para ver la estructura de archivos.
      2. Compruebe que los siguientes archivos están presentes:
      - houses_data_cleaned.csv
      - houses_data_cleaned.db
      - houses_data_cleaned.pickle


      ------------------------------------------------------------------------------------------------------------------------------------------------------------------------
      9.Cierre este kernel de Jupyter Notebook y la máquina virtual.
      1.En Firefox, seleccione la pestaña Accessing and Managing Data for AI.ipynb.
      2. En el menú, seleccione Kernel→Cerrar.
      3. En el cuadro de diálogo ¿Cerrar kernel?, seleccione Cerrar.
      4. Cierre Firefox.
      5. Cierre la ventana Terminal que ejecuta el programa Jupyter Notebook.
      6. En el menú VirtualBox VM en la parte superior de la pantalla, seleccione Equipo→Apagar ACPI y, si es necesario, seleccione Apagar. Compruebe que la ventana de la VM se cierre.
      7. Cierre la ventana Oracle VM VirtualBox Manager.