Ir al contenido principal

Diagrama de temas

    • Representación de Datos de Imagen

      Representación de datos de imagen

      Al igual que los datos textuales, los datos de imágenes deben transformarse antes de que puedan usarse de forma eficaz. Generalmente, las imágenes sin procesar pueden representarse como una matriz de valores numéricos donde cada celda en la matriz representa un píxel. En una imagen en blanco y negro (monocromática), el número en una celda puede ser 0 (negro) o 1 (blanco). En una imagen en escala de grises, el número de una celda representa la intensidad de ese píxel, donde 0 es negro y 255 es blanco. Las imágenes en colores simples a menudo se representan con valores RGB (rojo, verde, azul) para cada píxel. RGBA también es un formato común, donde la "A" representa el canal alfa, que es el porcentaje de transparencia para un píxel de 0 (totalmente transparente) a 100 (totalmente opaco).

      La mayoría de los algoritmos de aprendizaje profundo como las redes neuronales convolucionales (CNN) comprimen este tipo de datos para eliminar el "ruido" en la imagen y solo conservan las características de la imagen que son más útiles para determinar patrones. Estas representaciones comprimidas aparecen como matrices unidimensionales (es decir, que tienen una sola columna) llamadas vectores.
      Figura 1. Representar una imagen en escala de grises como una matriz de píxeles y luego como un vector comprimido. 

      Tenga en cuenta que los números más bajos indican tonos más oscuros, mientras que los números más altos indican tonos más claros.

      Es posible que tenga la tentación de incluir tanto color como sea posible en los datos de imagen, ya que el color es obviamente un componente visual importante. Sin embargo, cuanto más color agregue a una imagen, más información deberá procesar la red neuronal. La información de los colores puede causar problemas significativos en la memoria, especialmente si la red procesa miles o millones de imágenes a la vez. Las imágenes monocromáticas consumen la menor cantidad de memoria, ya que cada píxel es solo blanco o negro. Las imágenes en escala de grises requieren más memoria, mientras que las imágenes RGB de 256 colores requieren aún más y así sucesivamente. Las imágenes sin color todavía pueden ser útiles para detectar patrones.