Los orígenes de datos como bases de datos, hojas de cálculo y formatos de archivo como CSV (valores separados por comas) suelen organizar los datos dentro de columnas y filas. Las columnas pueden llamarse campos, las filas pueden llamarse registros y los datos almacenados dentro de la intersección de una columna y una fila pueden llamarse valores. En la ciencia de datos, hay nombres adicionales para estas entidades y la forma en que se usan depende del contexto.
Hay muchos nombres alternativos para cada fila o registro. Los más comunes incluyen ejemplo de datos, instancia de datos, observación de datos y punto de datos (especialmente cuando se grafican). Un modelo estadístico considera estos "ejemplos" de algunos aspectos de un entorno cuando los toma como entrada.
Esos aspectos de un entorno son las columnas de cada registro, que se denominan atributos o características. Las características contienen las variables que el modelo evalúa para realizar sus estimaciones. Por ejemplo, en un conjunto de datos que utiliza para determinar si se le debe otorgar un préstamo bancario a alguien, las características que el modelo utiliza para tomar esta decisión pueden incluir si el solicitante alguna vez incumplió o no con un préstamo (default) y cuánto por tiempo el solicitante fue cliente en el banco (date_joined). Estas columnas se encuentran entre las características que utiliza el modelo. La cantidad total de características diferentes que utiliza se cuentan para identificar las dimensiones del modelo.
A veces puede hacer referencia al valor de datos individuales contenido en una característica. Por ejemplo, age = 5 describe la característica age como si tuviera un valor determinado (5) para este ejemplo de datos.
Ocasionalmente, la palabra característica se utiliza para referirse a esta combinación específica de variable y valor. En la mayoría de los casos, sin embargo, los profesionales usan la palabra característica para describir la columna/variable en sí y solo usan el término valor para la medición específica.
Figura 1. Las diferentes partes de los datos.