Ir al contenido principal

Diagrama de temas

    • Limpieza y Preparación de Datos

      Limpieza y preparación de datos


      Antes de empezar

      Se abrirá Accessing and Managing Data for AI.ipynbI en Jupyter Notebook.
      Nota: Si cerró Jupyter Notebook desde que completó la actividad anterior, deberá reiniciar Jupyter Notebook y volver a abrir el archivo. Para asegurarse de que todos los objetos y la salida de Python están en el estado correcto para comenzar esta actividad:

      1. Seleccione Kernel→Reiniciar & y Borrar salida.
      2. Seleccione Reiniciar y borrar todas las salidas.
      3. Desplácese hacia abajo y seleccione la celda con la etiqueta Identificar datos donde yr_built sea mayor que 2040.
      4. Seleccione Celda→ Ejecutar todo lo anterior.

      Escenario

      Los datos de vivienda tienen miles de registros y es poco probable que estén en un estado inmaculado. Existe la posibilidad de que incluyan al menos algunos datos corruptos o defectuosos, ya sea como resultado de errores de entrada de datos o algo más. En cualquier caso, deberá identificar cualquier dato inutilizable y abordar el problema para que no cause problemas en el futuro. Usted sospecha que algunos de los números establecidos durante los años anteriores se registraron incorrectamente, por lo que buscará pruebas y tomará las medidas apropiadas, si es necesario.

      Otro problema que afecta a los conjuntos de datos relativamente grandes es la presencia de duplicados y los datos de vivienda no son diferentes. Deberá identificar las filas potencialmente duplicadas y luego las quitará del conjunto de datos. De este modo, el análisis y el modelado que realice no estarán sesgados por los datos repetidos.


      -------------------------------------------------------------------------------------------------------------------------------------------------------------

      1. Identificar los datos donde yr_built es mayor que 2040.

      1. Desplácese hacia abajo y vea la celda titulada Identificar datos donde yr_built es mayor que 2040 y examine el listado de código debajo de esta.



      Este código mostrará las casas que tengan yr_built mayor que 2040.

      2. Ejecute la celda de código.
      3. Examine el resultado.

      Hay cuatro casas que tienen un yr_built mayor que 2040, lo que sugiere que los datos están dañados. Por lo tanto, deberá quitar estas filas del conjunto de datos.

      Nota: Puede que deba desplazarse hacia la derecha para ver la columna yr_built.


      -------------------------------------------------------------------------------------------------------------------------------------------------------------

      2. Quite los datos incorrectos.

      1. Desplácese hacia abajo y vea la celda titulada Quitar datos incorrectos y examine la lista de código debajo de ella.

      Este código mueve todos los registros con un valor de yr_built menor o igual a 2040 a houses_cleaned. Quitar filas enteras con datos defectuosos no es la única forma de hacer esto, especialmente si cree que los valores de las otras columnas son precisos. Sin embargo, dado que solo hay cuatro registros afectados entre decenas de miles, eliminarlos es seguro.


      2. Ejecute la celda de código.

      3. Examine el resultado.

      Ahora hay 21.614 filas, cuatro menos que antes.


      ------------------------------------------------------------------------------------------------------------------------------------------------------------------------
      3. Identifique todos los datos duplicados.
      1. Desplácese hacia abajo y vea la celda titulada Identificar todos los datos duplicados y examine la lista de código debajo de ella.

      Este código buscará los registros duplicados en el conjunto de datos actual y mostrará el número de filas duplicadas.

      2. Ejecute la celda de código.

      3. Examine el resultado.

      Hay seis filas con datos duplicados.


      4. En la siguiente celda de código, examine el código.

      Este código mostrará las filas duplicadas.


      5. Ejecute la celda de código.

      6. Examine el resultado.

      Puede ver las seis filas duplicadas, donde cada fila única parece tener un duplicado. Por lo tanto, en realidad hay tres filas que se pueden quitar.


      -------------------------------------------------------------------------------------------------------------------------------------------------------------

      4. Quite los datos duplicados.
      1. Desplácese hacia abajo y vea la celda titulada Quitar los datos duplicados y examine la lista de código debajo de ella.

      Este código mueve todos los registros excepto los duplicados a houses_cleaned_2. Luego, recupera un ID de casa específico que se duplicó antes para asegurarse de que solo aparezca una vez en el nuevo conjunto de datos.


      2. Ejecute la celda de código.

      3. Examine el resultado.

      Este ID de casa en particular solo aparece una vez, por lo que parece que los duplicados se eliminaron con éxito.

      4. En la siguiente celda de código, examine el código.

      Este código mostrará el número de filas y columnas de este conjunto de datos.

      5. Ejecute la celda de código.


      6.Examine el resultado.

      Como se esperaba, se quitaron tres filas del conjunto de datos.