División de las características
En algunos casos, una característica del conjunto de datos podría beneficiarse de la división en dos o más características. Por ejemplo, supongamos que tiene una característica llamada name
que contiene nombres y apellidos. Por lo tanto, uno de los valores podría ser 'Emily Williams'
. Si las variaciones en los nombres presentan un impacto en cualquier problema que su modelo esté tratando de resolver (por ejemplo, determinar la ascendencia), entonces estos datos podrían ser más útiles si los nombres y apellidos se dividieran de acuerdo con sus propias características por separado. De esta manera, el modelo puede aprender de estos dos tipos de nombres de forma independiente en lugar de considerarlos como una porción única de información.
La división de las características es común con datos en texto como los nombres, las ubicaciones, los identificadores y los títulos. La decisión de dividir o no una cadena de este tipo se informará principalmente conociendo el dominio. Tal vez location = 'Rochester, NY, US'
dividir en city = 'Rochester'
state = 'NY'
y country = 'US'
arrojará mejores estimados, o tal vez no. Debe considerar la posibilidad de experimentar con el análisis y el modelado para observar cómo las diferentes divisiones producen resultados diferentes.
La división de las características también es común con los valores de fecha y hora. Por ejemplo, es posible que desee tomarlo date = 2021-02-25
y convertirlo en características independientes para year
month
y day
.