Ir al contenido principal

Diagrama de temas

    • Codificación de Datos

      Codificación de datos

      La codificación de datos es el proceso de conversión de datos de un tipo determinado en un valor codificado de un tipo diferente. Esto normalmente significa tomar letras y palabras y convertirlas en números. El número resultante se convierte en una nueva característica dentro del conjunto de datos y la característica original se elimina o se deja de lado cuando se crea un modelo.

      La codificación de datos es importante porque muchos algoritmos de aprendizaje automático simplemente no pueden controlar los datos categóricos que se representan como texto. Por ejemplo, supongamos que tiene una city característica que tiene los valores posibles 'Berlin''London' y 'Rochester'. Se trata de una variable categórica y el algoritmo debe tratarla como tal. Pero en lugar de alimentar esos nombres directamente al algoritmo, es probable que deba convertirlos en números primero. Sin embargo, tenga en cuenta que la codificación de una variable categórica no significa que se convierta en una característica numérica. La característica sigue siendo categórica, aunque se esté representando mediante un número.

      Hay muchos métodos para codificar variables categóricas. Uno de los más frecuentes se conoce como codificación one-hot. Mediante este método, crea una columna ficticia para cada valor único de una característica categórica. Por ejemplo, puede crear tres columnas denominadas isBerlinisLondon e isRochester. La presencia de cada categoría está representada por 1 y su ausencia se representa mediante 0. Esto garantiza que el algoritmo de aprendizaje automático no asignará a ninguna categoría (Berlín, Londres o Rochester, en este caso) más valor que a las demás. Un método de codificación relacionado es la codificación ficticia, que crea n #LioxSpecialChar8722# 1 columnas, mientras que la codificación one-hot crea n columnas, donde n es el número de valores únicos en la variable categórica.

      Otro esquema de codificación que puede encontrar es la codificación de etiquetas. La codificación de etiquetas traduce cada valor único de una etiqueta en números independientes. Entonces, city_encoded tendría [0, 1, 2] como valores posibles, dónde 0 es Berlín, 1 es Londres y 2 es Rochester. Sin embargo, esto implica cierto rango, donde un modelo de aprendizaje automático podría percibir que Rochester es el mejor clasificado, lo que podría no ser la intención del proceso.

      Información adicional

      Para obtener más información sobre la codificación de datos, consulte este sitio.