Ir al contenido principal

Diagrama de temas

    • Corrección de Formatos de Datos

      Corrección de formatos de datos


      Antes de empezar

      Se abrirá Accessing and Managing Data for AI.ipynbI en Jupyter Notebook.
      Nota: Si cerró Jupyter Notebook desde que completó la actividad anterior, deberá reiniciar Jupyter Notebook y volver a abrir el archivo. Para asegurarse de que todos los objetos y la salida de Python están en el estado correcto para comenzar esta actividad:

      1. Seleccione Kernel→Reiniciar & y Borrar salida.

      2.Seleccione Reiniciar y borrar todas las salidas.

      3. Desplácese hacia abajo y seleccione la celda con la etiqueta Identificar tipos de datos que necesitan corrección.

      4. Seleccione Celda→ Ejecutar todo lo anterior.

      Escenario

      Afortunadamente, parece que la mayoría de los tipos de datos del conjunto de datos se establecieron correctamente. Sin embargo, la columna waterfront debe ser un valor booleano True o False. Además, las fechas y horas a menudo pueden causar problemas cuando se introducen en un entorno de programación, especialmente porque suelen establecerse como cadenas estándar. Aunque esto no es necesariamente un problema, es mucho más fácil trabajar con fechas y horas cuando se establecen como objetos datetime.


      -------------------------------------------------------------------------------------------------------------------------------------------------------------

      1. Identifique los tipos de datos que necesitan corrección.
      1. Desplácese hacia abajo y vea la celda titulada Identificar los tipos de datos que necesitan corrección y examine la lista de código debajo de ella.

      Este código mostrará una lista de todas las columnas y sus tipos de datos.

      2. Ejecute la celda de código.

      3. Examine el resultado.

      Puede ver que el campo date tiene un tipo de datos de object (una cadena) en lugar de datetime64 (un formato datetime). Un formato datetime hará que sea más fácil trabajar con la columna. Además, la columna waterfront debe ser de tipo booleano, en función de sus valores "Yes" y "No".

      Notaprice debe ser un entero (un número entero), pero debido a que faltan valores, el valor predeterminado es un número flotante (un número con separadores decimales).

      4. En la siguiente celda de código, examine el código.

      Este código mostrará los valores de la columna waterfront y sus frecuencias.

      5. Ejecute la celda de código.

      6. Examine el resultado.

      La variable waterfront solo tiene valores "Yes" o "No" en forma de objeto de cadena. Hay 21.447 valores "No" y 164 valores "Yes". Sería mejor si esta variable fuera de tipo booleano.


      -------------------------------------------------------------------------------------------------------------------------------------------------------------
      2.Convierta las variables relevantes a un tipo booleano.
      1. Desplácese hacia abajo y vea la celda titulada Convertir las variables relevantes a un tipo booleano y examine la lista de código debajo de ella.

      Este código hará la conversión de la variable waterfront y pondrá todo en houses_cleaned_3.

      2. Ejecute la celda de código.


      3. Examine el resultado.

      Los valores que eran "Yes" y "No" ahora son True y False para la columna waterfront.


      4. En la siguiente celda de código, examine el código.

      Este código mostrará una lista de todas las columnas y sus tipos de datos.


      5. Ejecute la celda de código.


      6. Examine el resultado.

      Como puede ver, la columna waterfront es ahora del tipo de datos booleano (bool).

      ------------------------------------------------------------------------------------------------------------------------------------------------------------------------

      3. Convierta date a un formato datetime.
      1. Desplácese hacia abajo y vea la celda titulada Convertir date un formato datetime y examine la lista de código debajo de ella.

      Este código convertirá la columna date para que siga el formato AAAA-MM-DD, que coincide con la forma en que figuraba cuando era un objeto de cadena.


      2. Ejecute la celda de código.

      3. En la siguiente celda de código, examine el código.

      Este código mostrará una lista de todas las columnas y sus tipos de datos.

      4. Ejecute la celda de código.


      5. Examine el resultado.

      La columna date está ahora en un formato datetime.