Campus
| ID del estudiante | Apellido | Nombre | Resultado de la prueba |
|---|---|---|---|
| 0001 | Ferard | Catherine | 98.5 |
| 0002 | Murphy | Jeremy | |
| 0003 | Haverson | Maria | 75.5 |
Test Score, puede producir un error debido a ese valor faltante. Cada herramienta de análisis de datos y de lenguaje de programación controla los valores faltantes de manera diferente, pero muchos de ellos al menos le indicarán que faltan valores y dónde se produce la faltante. Sin embargo, tenga en cuenta que algunos valores considerados "faltantes" en realidad se completarán y no será tan fácil detectarlos. Si hubiera un signo de interrogación en la celda de puntuación de la prueba de Jeremy Murphy en lugar de estar completamente vacía, entonces tendría que buscar específicamente signos de interrogación en lugar de valores sin completar. Por lo tanto, debe prestar atención a cómo las fuentes de datos indican que faltan datos, ya que pueden hacerlo de maneras inusuales o no estándares.| Método de imputación | Descripción |
|---|---|
| Imputación de media o modo | Calcule la media o el modo de todos los elementos que no faltan en esa columna y, a continuación, utilice el resultado para rellenar los valores que faltan. Por ejemplo, para completar la calificación de estudiante que falta, solo tomaría la media de todas las calificaciones de los estudiantes menos los valores que faltan. Este enfoque es simple, ya que conserva el valor de la media/modo y el tamaño de la muestra. Sin embargo, puede que no sea tan bueno como otros métodos enumerados aquí. |
| Sustitución | Utilizar datos a partir de un nuevo registro que aún no está en la muestra. Por ejemplo, es posible que encuentre otra fuente de calificaciones de estudiantes con la que puede sustituir la que falta. |
| Imputación Hot Deck | Busque registros en el ejemplo que tengan valores similares en todos los demás elementos de datos que el que falta y copie el valor que falta de uno de los registros similares. Si hay más de un registro similar, seleccione aleatoriamente el que copia. Por ejemplo, si faltaba la calificación de un estudiante para una sola asignatura (por ejemplo, clase de Historia), podría encontrar a otro estudiante con calificaciones similares en las asignaturas restantes y, a continuación, reutilizar la puntuación de Historia de ese alumno como la puntuación de Historia para el alumno con el valor que falta. |
| Imputación Cold Deck | Similar a la imputación de hot deck, pero en lugar de extraer de la misma muestra en la que se encuentra el valor que falta, se extrae de una muestra externa. Por ejemplo, es posible que se haya registrado una muestra diferente de estudiantes en el pasado reciente, por lo que intentará encontrar un estudiante similar en esa muestra. |
miles_driven y years_old. El problema es que el primero tiene números que probablemente se extienden a cientos de miles mientras que el segundo tendrá un valor máximo en las decenas. Ambas características podrían ser igualmente útiles para realizar una tarea de aprendizaje automático, por ejemplo, estimar el valor de un automóvil en el mercado. Pero, teniendo en cuenta que las características pertenecen a escalas muy diferentes, los algoritmos basados en la distancia podrían tratar a miles_driven como mucho más importante. Por lo tanto, debe asegurarse de que el algoritmo considere cada característica en términos de distribución de los valores. Los dos enfoques principales para ello son la normalización y la estandarización.z de las millas recorridas de cualquier vehículo, la antigüedad, etc. Estas puntuaciones se estandarizan para que cada característica tenga un valor medio de cero y una desviación estándar tenga un valor medio de 1. Una vez más, esto enfatiza la distribución de la característica en lugar de su escala absoluta.city característica que tiene los valores posibles 'Berlin', 'London' y 'Rochester'. Se trata de una variable categórica y el algoritmo debe tratarla como tal. Pero en lugar de alimentar esos nombres directamente al algoritmo, es probable que deba convertirlos en números primero. Sin embargo, tenga en cuenta que la codificación de una variable categórica no significa que se convierta en una característica numérica. La característica sigue siendo categórica, aunque se esté representando mediante un número.isBerlin, isLondon e isRochester. La presencia de cada categoría está representada por 1 y su ausencia se representa mediante 0. Esto garantiza que el algoritmo de aprendizaje automático no asignará a ninguna categoría (Berlín, Londres o Rochester, en este caso) más valor que a las demás. Un método de codificación relacionado es la codificación ficticia, que crea n #LioxSpecialChar8722# 1 columnas, mientras que la codificación one-hot crea n columnas, donde n es el número de valores únicos en la variable categórica.city_encoded tendría [0, 1, 2] como valores posibles, dónde 0 es Berlín, 1 es Londres y 2 es Rochester. Sin embargo, esto implica cierto rango, donde un modelo de aprendizaje automático podría percibir que Rochester es el mejor clasificado, lo que podría no ser la intención del proceso.Time a Time in Hours es un ejemplo de agrupamiento de una variable continua. Si supone que el corredor más rápido terminó la carrera en alrededor de 2 horas y al más lento le tomó alrededor de 10 horas, podría colocar un tiempo en uno de los 8 intervalos de horas diferentes. Una buena regla general es no usar más de 20 contenedores totales. Ahora que la variable es discreta, los algoritmos de aprendizaje automático como los árboles de decisión podrán controlarla.name que contiene nombres y apellidos. Por lo tanto, uno de los valores podría ser 'Emily Williams'. Si las variaciones en los nombres presentan un impacto en cualquier problema que su modelo esté tratando de resolver (por ejemplo, determinar la ascendencia), entonces estos datos podrían ser más útiles si los nombres y apellidos se dividieran de acuerdo con sus propias características por separado. De esta manera, el modelo puede aprender de estos dos tipos de nombres de forma independiente en lugar de considerarlos como una porción única de información.location = 'Rochester, NY, US' dividir en city = 'Rochester' state = 'NY'y country = 'US' arrojará mejores estimados, o tal vez no. Debe considerar la posibilidad de experimentar con el análisis y el modelado para observar cómo las diferentes divisiones producen resultados diferentes.date = 2021-02-25 y convertirlo en características independientes para year month y day.years_in_service probablemente se correlaciona en gran medida con las características miles_traveled y flight_time, por lo que las tres pueden combinarse en una característica derivada que representa el uso general del avión. La extracción de características es particularmente útil en aplicaciones de visión artificial como el procesamiento de imágenes.roof_type mediante la codificación one-hot.-------------------------------------------------------------------------------------------------------------------------------------------------------------


price y bathrooms.

price.price y examine la lista de código debajo de ella.
price.
sample() toma una muestra aleatoria del conjunto de datos, es probable que la muestra sea diferente de lo que se muestra en la captura de pantalla.
price se completaran con la media de todos los valores que no faltan.


price, como se esperaba.bathrooms sea nulo (faltante).bathrooms sea nulo y examine la lista de código debajo de ella.








roof_type. Hay otras características categóricas en el conjunto de datos, pero ya se codificaron como valores numéricos.roof_type.roof_type y examine la lista de código debajo de ella.
roof_type.

roof_type no tiene un orden natural, por lo que es un buen candidato para la codificación one-hot. Cada valor se asignará a su propia característica, donde 0 indica ausencia y 1 indica presencia.

roof_type_x donde x es uno de los tres valores. Cada fila tiene un 0 en cada columna roof_type_x excepto una, la cual tiene un valor de 1. Por ejemplo, la primera casa en el conjunto de datos tiene un techo de asfalto y la segunda tiene un techo de arcilla.



roof_type original se eliminó, lo que llevó a una ganancia neta de dos columnas).DataFrame como un archivo pickle.DataFrame como un archivo pickle y examine la lista de código debajo de ella.
houses_data_encoded en el archivo houses_data_encoded.pickle para que pueda usar este DataFrame de nuevo más adelante en este curso.