Color
podría almacenarse como una cadena, un entero o incluso un flotante. Cuando se combinan valores similares de varios orígenes, deben usar un tipo de datos coherente, uno que sea compatible con el entorno de trabajo que está utilizando, así como la base de datos en la que planea cargar esos datos. Estos valores también deben estar en un formato que admita el análisis y el modelado de datos más adelante.Color
pueden ser incoherentes o incluir errores (por ejemplo, "Blue"
y "bleu"
), por lo que es posible que desee convertirlos en números donde el número 1
es azul, el número 2
es rojo, etc.'1.34'
en flotador 1.34
porque la cadena contiene un número y solo un número. Pero, si intenta convertir la cadena 'two'
en un entero, probablemente no va a funcionar. Sin embargo, puede convertir cualquier valor en una cadena.'2021-03-01 00:03:50'
se refiere al 1 de marzo de 2021 a las 3:50 A.M. El problema es que hay una gran cantidad de información distinta que se transmite y no hay una forma fácil de extraer porciones individuales. ¿Qué pasaría si quisiera recuperar solo el mes? Puede intentar analizar la cadena extrayéndola de una posición específica o entre ciertos caracteres, pero esto puede ser tedioso. También es propenso a errores. Después de todo, hay muchas maneras de dar formato a fechas y horas. El método que utilice para analizar la cadena anterior no funcionará si el valor tiene el formato 'March 1st, 2021'
.3
o la cadena 'March'
.YYYY-MM-DD
y otras fuentes deletrean todo el asunto, no necesariamente tiene que preocuparse por hacerlas coherentes. Siempre y cuando ambos se reconozcan como fechas y horas y se analicen como fechas y horas, debería ser bueno que lo haga. Si el entorno en el que extraen los datos no puede convertir automáticamente los valores a fecha y hora, es posible que deba usar otras bibliotecas para hacerlo manualmente.ID del cliente | Apellido | Nombre | País | Género |
---|---|---|---|---|
1056 | Williams | Emily | CA | F |
1056 | Williams | Emily | CA | F |
1056 | Williams | Emily | CA | F |
ID del cliente | Apellido | Nombre | País | Género |
---|---|---|---|---|
1056 | Williams | Emily | CA | F |
1056 | Williams | Marta | CA | F |
1056 | Williams | Zachary | CA | M |
ID del cliente | Precio de venta | Impuesto | Cantidad | Producto |
---|---|---|---|---|
1056 | 799.99 | 63.99 | 1 | Televisor |
1056 | 78.99 | 6.32 | 2 | Altavoces |
1056 | 199.99 | 15.99 | 1 | Subwoofer |
Customer ID
no es la clave principal. El mismo cliente puede iniciar varias transacciones. Por lo tanto, aquí no existen duplicados. Si hubiera una columna llamada Transaction ID
que tuviera los mismos valores en varias filas, serían duplicados, ya que esa característica actuaría como la clave principal. En ausencia de cualquier tipo de clave común, puede quedar aún menos claro que es un error de grabación y qué es una observación legítima. Esta es la razón por la que es importante tener una comprensión profunda del conjunto de datos; es posible que deba resolver problemas como este manualmente, ya que las bibliotecas de programación automatizadas no siempre sabrán qué hacer.Nombre | Lugar | Tiempo en minutos | Tiempo en horas |
---|---|---|---|
Romano | 2 | 176 | 2.93 |
Alvarez | 3 | 201 | 3.35 |
Matthews | 1 | 168 | 2.80 |
Time in Hours
es redundante con la columna Time in Minutes
ya que en ambas se mide lo mismo, solo que en escalas diferentes. Por lo tanto, el proceso de desduplicación podría implicar la eliminación de una de estas columnas. Una vez más, el conocimiento de los datos es un factor importante para determinar qué columnas están duplicadas y se pueden eliminar.Review
. Esta es la revisión escrita sobre del producto que compró un usuario. Esta característica no es del todo categórica, y aunque el orden de las palabras es importante, no es del todo ordinal en el sentido de que una palabra sea necesariamente más importante que otra. Necesita un modo para transformar estos datos a fin de que sean más fáciles de analizar y más propicios para el modelado.Es posible que tenga la tentación de incluir tanto color como sea posible en los datos de imagen, ya que el color es obviamente un componente visual importante. Sin embargo, cuanto más color agregue a una imagen, más información deberá procesar la red neuronal. La información de los colores puede causar problemas significativos en la memoria, especialmente si la red procesa miles o millones de imágenes a la vez. Las imágenes monocromáticas consumen la menor cantidad de memoria, ya que cada píxel es solo blanco o negro. Las imágenes en escala de grises requieren más memoria, mientras que las imágenes RGB de 256 colores requieren aún más y así sucesivamente. Las imágenes sin color todavía pueden ser útiles para detectar patrones.
yr_built
sea mayor que 2040.-------------------------------------------------------------------------------------------------------------------------------------------------------------
1. Identificar los datos donde yr_built
es mayor que 2040.
1. Desplácese hacia abajo y vea la celda titulada Identificar datos donde yr_built
es mayor que 2040 y examine el listado de código debajo de esta.
Este código mostrará las casas que tengan yr_built
mayor que 2040.
yr_built
.-------------------------------------------------------------------------------------------------------------------------------------------------------------
yr_built
menor o igual a 2040 a houses_cleaned
. Quitar filas enteras con datos defectuosos no es la única forma de hacer esto, especialmente si cree que los valores de las otras columnas son precisos. Sin embargo, dado que solo hay cuatro registros afectados entre decenas de miles, eliminarlos es seguro.houses_cleaned_2
. Luego, recupera un ID de casa específico que se duplicó antes para asegurarse de que solo aparezca una vez en el nuevo conjunto de datos.waterfront
debe ser un valor booleano True
o False
. Además, las fechas y horas a menudo pueden causar problemas cuando se introducen en un entorno de programación, especialmente porque suelen establecerse como cadenas estándar. Aunque esto no es necesariamente un problema, es mucho más fácil trabajar con fechas y horas cuando se establecen como objetos datetime.-------------------------------------------------------------------------------------------------------------------------------------------------------------
date
tiene un tipo de datos de object
(una cadena) en lugar de datetime64
(un formato datetime). Un formato datetime hará que sea más fácil trabajar con la columna. Además, la columna waterfront
debe ser de tipo booleano, en función de sus valores "Yes" y "No".price
debe ser un entero (un número entero), pero debido a que faltan valores, el valor predeterminado es un número flotante (un número con separadores decimales).waterfront
y sus frecuencias.waterfront
solo tiene valores "Yes" o "No" en forma de objeto de cadena. Hay 21.447 valores "No" y 164 valores "Yes". Sería mejor si esta variable fuera de tipo booleano.date
a un formato datetime.date
un formato datetime y examine la lista de código debajo de ella.date
para que siga el formato AAAA-MM-DD, que coincide con la forma en que figuraba cuando era un objeto de cadena.date
está ahora en un formato datetime.-------------------------------------------------------------------------------------------------------------------------------------------------------------
1. Abra el cuaderno.
1. En el cliente web de Jupyter Notebook, seleccione la pestaña ITSAI/ETL/.
-------------------------------------------------------------------------------------------------------------------------------------------------------------
-------------------------------------------------------------------------------------------------------------------------------------------------------------
3.Lea y obtenga una vista previa de los datos de texto.
1.Desplácese hacia abajo y vea la celda titulada Leer y obtener una vista previa de los datos de texto y examine la lista de código debajo de ella.
-------------------------------------------------------------------------------------------------------------------------------------------------------------
4.Extraiga un subconjunto de datos para tener en cuenta solo las quejas de los consumidores.
1. Desplácese hacia abajo y vea la celda titulada Extraer un subconjunto de datos para tener en cuenta solo las quejas de los consumidores y examine el listado de código debajo de él.
5.Obtenga un ejemplo de las quejas de los consumidores.
La queja está llena de caracteres como puntuación, números y palabras comunes. Deberá simplificar este texto para que sea más fácil de analizar.
6.Tokenice una oración en palabras.
-------------------------------------------------------------------------------------------------------------------------------------------------------------
7. Identifique las categorías gramaticales de cada token.
It
es un pronombre, is
es un verbo auxiliar (un verbo que afecta a los tiempos y modos de otros verbos), {
es puntuación, 250.00
es un número y así sucesivamente.-------------------------------------------------------------------------------------------------------------------------------------------------------------
8.Identifique palabras irrelevantes.
It
e is
se consideran palabras irrelevantes, pero showing
no lo es.-------------------------------------------------------------------------------------------------------------------------------------------------------------
9. Transforme el texto.
-------------------------------------------------------------------------------------------------------------------------------------------------------------
10. Cierre este kernel de Jupyter Notebook.
1. En el menú, seleccione Kernel→Cerrar.
2. En el cuadro de diálogo ¿Cerrar kernel?, seleccione Cerrar.
3. Cierre la pestaña Handling Textual Data.ipynb en Firefox, pero vuelva al cuaderno Accessing and Managing Data for AI.ipynb.
-------------------------------------------------------------------------------------------------------------------------------------------------------------