Relevancia de la característica
Incluso después de haber identificado los tipos de características y las características objetivo en el conjunto de datos, no necesariamente ha terminado. Como ha visto, los conjuntos de datos rara vez están en un estado perfecto. Una cosa que debe tener en cuenta es que las características en sí mismas tienen ciertos grados de relevancia para el problema en cuestión. Si bien la característica age
puede parecer un gran predictor de la característica objetivo income
, puede haber sutilezas que sus suposiciones no tienen en cuenta. Algunas características son menos relevantes que otras para servir a cualquier propósito al que se supone que deben servir. Esto a menudo solicita a un profesional de la IA que elimine características, las consolide, las divida, cualquier cosa que haga que el conjunto de datos sea más viable. Esto se debe a que una característica irrelevante puede afectar significativamente la potencia de un modelo para realizar predicciones o estimar algo sobre el mundo real.
Una vez más, una comprensión de su conjunto de datos y el problema que está tratando de resolver puede ayudarle a identificar características irrelevantes. Incluso si no posee esta comprensión, puede trabajar con expertos en la materia que tengan más experiencia en el dominio del problema. Sin embargo, esto puede ayudarlo mucho, ya que la relación entre las características es lo que está tratando de estudiar. En el caso del aprendizaje automático, es exactamente lo que está tratando de obtener una máquina para determinarlo por usted. Existen varias técnicas para determinar la relevancia de las características, pero en este punto, solo sepa que empaquetar los conjuntos de datos llenos de entidades no siempre está garantizado para producir mejores resultados. En realidad, podría tener el efecto contrario.