Un buen lugar para empezar a analizar un conjunto de datos es familiarizarse con el contenido y el formato de las distintas columnas que contiene dicho conjunto de datos, así como con el tipo de datos de cada columna. Familiarizarse con el contenido y el formato de los datos le permitirá empezar a pensar en lo que puede hacer con dichos datos, así como en el tipo de preparación que debe llevar a cabo para que estén listos para el modelado. Usted debe tratar de identificar lo siguiente:El número de columnas.
- El nombre de cada columna.
- El tipo de datos de cada columna.
- El número de filas.
- El identificador principal de cada fila, si procede.
- La representación de valores para cada fila (p. ej., si los datos se han normalizado o no).
- La presencia o número de valores faltantes.
Figura 1. La recuperación de los atributos de un conjunto de datos para obtener más información sobre los datos en sí y cómo se le da formato.