Ir al contenido principal

Diagrama de temas

    • Evaluación de Datos

      Evaluación de datos


      Archivos de datos
      Para empezar esta actividad, necesitará una máquina virtual de VirtualBox VM y archivos de datos que se puedan descargar desde aquí. Consulte las instrucciones del apéndice C para aprender a configurar la máquina virtual de VirtualBox.

      /home/student/ITSAI/ETL/data/home_loan_complaints.csv
      /home/student/ITSAI/ETL/data/kc_house_data.csv

      Escenario

      Utilizará datos de bienes raíces para predecir un precio de venta apropiado para las casas. Encontró un conjunto de datos que puede usar para entrenar el modelo de aprendizaje automático. Es un archivo de texto que contiene más de 18.000 transacciones de bienes raíces realizadas en el Condado de King, Washington. También tiene más de 2.000 transacciones de bienes raíces en un archivo de base de datos. Además, tiene un archivo de texto que contiene quejas registradas por los usuarios relacionadas con el proceso de préstamos hipotecarios.

      Lo primero que deberá hacer es mirar el conjunto de datos directamente. Más adelante, evaluará los datos de maneras más interesantes mediante la ejecución de código.


      Nota
      : Si se le pide en cualquier momento que inicie sesión, el nombre de la cuenta es student y la contraseña es Pa22w0rd.

      Nota
      : Las actividades pueden variar ligeramente si el proveedor de software publicó actualizaciones digitales. Su instructor le notificará de cualquier cambio.


      -------------------------------------------------------------------------------------------------------------------------------------------------------------

      1. Inicie el entorno de actividad.

      1. En el escritorio, haga doble clic en la aplicación Oracle VM VirtualBox para iniciarla.

      2. En Oracle VM VirtualBox Manager, en la lista de la izquierda, seleccione ITSAI y, a continuación, seleccione Computador→Inicio→Inicio normal.

      3. Espere a que se inicie el sistema operativo.



      -------------------------------------------------------------------------------------------------------------------------------------------------------------

      2. Abra el Administrador de archivos y navegue hasta los archivos de datos de esta lección.

      1. En el escritorio, haga doble clic en el icono de Sistema de archivos para abrir la ventana Sistema de archivos - Administrador de archivos.

      2. En el panel izquierdo, en LUGARES, seleccione alumno.


      3. En el panel derecho, haga doble clic en la carpeta ITSAI.

      4. En el panel derecho, haga doble clic en la carpeta ETL.

      5. En el panel derecho, haga doble clic en la carpeta datos.


      -------------------------------------------------------------------------------------------------------------------------------------------------------------

      3. Examine el conjunto de datos.

      1. Observe los tres archivos de datos de esta lección.

      El subdirectorio de datos contiene tres archivos: home_loan_complaints.csvkc_house_data.csv y kc_house_data.db.

      2. Haga doble clic en el archivo home_loan_complaints.csv.

      3. En el cuadro de diálogo Importación de texto - [home_loan_complaints.csv], seleccione Aceptar.

      Puede utilizar la configuración de importación predeterminada para el archivo de texto.

      4. En la ventana home_loan_complaints.csv - LibreOffice Calc, examine los datos del archivo de texto.


      Se muestra el contenido del archivo. Estos son algunos de los datos que usará para entrenar y probar modelos de aprendizaje automático. Deberá desplazarse hacia la derecha para ver todas las columnas.

      5. Examine las etiquetas de columna de la primera fila.

      Entre ellas se incluyen:
      - user_id: cadena aleatoria de números y texto que identifica de forma única al usuario.
      - Fecha de recepción: la fecha en que la organización recibió la queja.
      - Problema: el tipo de problema sobre el que se trata la queja.
      - Narrativa de quejas del consumidor: el texto de cualquier queja por escrito. Este campo es opcional para que el emisor de la queja lo complete.
      - Estado: el estado de los EE. UU. en el que reside el usuario.
      - Código postal: el código postal de los EE. UU. en el que reside el usuario.
      - Enviado a través de: el método que el usuario utilizó para presentar la queja.
      - Fecha de envío a la empresa: la fecha en que el usuario envió la queja.
      - Respuesta de la empresa al consumidor: la forma en la que la organización trató la denuncia.
      - ¿Respuesta oportuna?: si la respuesta de la organización se dio o no dentro de un período de tiempo aceptable, según una métrica.
      - ¿Consumidor en conflicto?: si el usuario disputó o no la acción que la organización tomó en respuesta a la queja.
      - Id. de queja: un identificador único para la queja en sí.
      6. Cierre la ventana home_loan_complaints.csv - LibreOffice Calc.
      7. Haga doble clic en el archivo kc_house_data.csv.
      8. En el cuadro de diálogo Importación de texto - [kc_house_data.csv], seleccione Aceptar.
      También, puede utilizar la configuración de importación predeterminada para este archivo de texto.
      9. En la ventana kc_house_data.csv - LibreOffice Calc, examine los datos del archivo de texto.
      Se muestra el contenido del archivo. Estos son algunos de los datos que usará para entrenar y probar modelos de aprendizaje automático. Deberá desplazarse hacia la derecha para ver todas las columnas.


      10. Examine las etiquetas de columna de la primera fila.
      Entre ellas se incluyen:
      - id: un identificador único para cada casa vendida.
      - date: la fecha de la venta más reciente de la casa.
      - price: el precio por el que se vendió la casa más recientemente.
      - bedrooms: el número de dormitorios de la casa.
      - bathrooms: el número de baños. Una habitación con inodoro pero sin ducha se cuenta como 0,5.
      - sqft_living: los pies cuadrados del espacio habitable en el interior de la casa.
      - sqft_lot: los pies cuadrados del lote en el que se encuentra la casa.
      - floors: el número de pisos en la casa.
      - waterfront: si la propiedad limita o contiene un cuerpo de agua.
      - view: un índice de 0 a 4 que representa la calidad subjetiva de la vista de la propiedad. Cuanto mayor sea el número, mejor será la vista.
      - condition: un índice de 1 a 5 que representa la condición subjetiva de la propiedad. Cuanto mayor sea el número, mejor será la condición.
      - grade: un índice de 0 a 14 que representa la calidad de la construcción y el diseño del edificio. Cuanto mayor sea el número, mejor será la clasificación.
      - sqft_above: los pies cuadrados del espacio de la vivienda interior que está por encima del nivel del suelo.
      - sqft_basement: los pies cuadrados del espacio de la vivienda interior que está por debajo del nivel del suelo.
      - yr_built: el año en que se construyó inicialmente la casa.
      - yr_renovated: el año de la última remodelación de la casa.
      - zipcode: en qué área de código postal se encuentra la casa.
      - lat: la latitud de la ubicación de la casa.
      - long: la longitud de la ubicación de la casa.
      - sqft_living15: los pies cuadrados del espacio habitable de la vivienda interior para los 15 vecinos más cercanos.
      - sqft_lot15: los pies cuadrados de los lotes de tierra de los 15 vecinos más cercanos.
      - roof_type: el tipo de techo de la casa: Asfalto, arcilla o metal.

      Nota: El archivo de base de datos kc_house_data.db incluye más de estos datos de la casa almacenados en un archivo de base de datos. Lo verá en el tema siguiente.

      11. Cierre la ventana kc_house_data.csv - LibreOffice Calc.

      12. Cierre la ventana Datos - Administrador de archivos.