Ir al contenido principal

Diagrama de temas

    • 2.3 Datos y su importancia en IA

      La inteligencia artificial (IA) depende de los datos para funcionar de manera efectiva. Los datos son la base sobre la cual se entrenan los modelos de IA, y su calidad y preparación son factores críticos para el éxito de cualquier pipeline de IA. Sin datos adecuados, incluso los algoritmos más avanzados producirán resultados erróneos o poco confiables. En esta lección, exploramos la importancia de los datos en la IA, cómo se deben preparar para su uso en los modelos, y los conceptos clave que giran en torno a los datos: los ejemplos, las características y las etiquetas. Además, analizaremos cómo la calidad de los datos afecta directamente los resultados de un modelo y por qué no siempre es posible contar con etiquetas en los datos, especialmente en el contexto del aprendizaje no supervisado.


      Datos en IA

      Los datos son fundamentales para el desarrollo de cualquier modelo de IA. Sin datos de calidad, un modelo no puede aprender de manera efectiva ni hacer predicciones precisas. La preparación de los datos implica una serie de pasos cruciales, como la limpieza de datos, la transformación y el procesamiento, que permiten alimentar adecuadamente los algoritmos de aprendizaje automático. Estos datos deben estar bien organizados y estructurados para que los modelos puedan entenderlos y aprender patrones que sean útiles en la toma de decisiones o predicciones.


      El ciclo de vida de un proyecto de IA suele empezar con la recolección de datos en bruto, pero este es solo el primer paso. Antes de alimentar a un modelo con datos, es esencial preparar estos datos a través de una pipeline de datos, que se encarga de organizar y procesar los datos en varias fases. Las tareas comunes incluyen la eliminación de datos erróneos o duplicados, el manejo de valores faltantes, la normalización de características, y la transformación de los datos en un formato adecuado para el modelo de IA.


      Dimensiones Clave de los Datos en IA

      Los datos utilizados en los modelos de IA suelen representarse en una estructura tabular, donde cada fila corresponde a un ejemplo, cada columna a una característica, y una columna específica puede representar la etiqueta, cuando esta es conocida. Para comprender mejor cómo se estructuran los datos, es útil visualizar estos tres conceptos:


      1. Ejemplo

      Un ejemplo es una instancia individual de datos. Cada ejemplo corresponde a una fila de la tabla que se está utilizando como fuente de datos. Si estamos trabajando con un conjunto de datos de registros de salud, por ejemplo, cada fila puede representar a una persona individual.


      Ejemplo: En un conjunto de datos de registros de salud, cada ejemplo puede ser un paciente. Los datos de este paciente incluirán características como su peso, altura, presión arterial, etc.


      2. Característica

      Una característica es cada propiedad o atributo mensurable de un ejemplo. Las características corresponden a las columnas de la tabla y representan las variables que influyen en la salida de un modelo de IA. Estas características pueden ser numéricas (como la altura o el peso) o categóricas (como el género o el tipo de enfermedad).


      Ejemplo: En el caso del conjunto de datos de salud, las características podrían incluir variables como el peso corporal, la altura, el nivel de colesterol o la presión arterial de una persona.


      3. Etiqueta

      La etiqueta es la variable que estamos tratando de predecir en nuevas muestras de datos. En un modelo de IA supervisado, la etiqueta es el valor que el modelo intenta predecir en función de las características que se proporcionan como entrada.


      Ejemplo: En el conjunto de datos de salud, la etiqueta podría ser una variable binaria que indica si una persona tiene una enfermedad cardíaca ("sí" o "no"). Esta etiqueta es lo que el modelo intenta predecir en base a las características del paciente.


      La Calidad de los Datos en IA

      La calidad de los datos es un factor crucial en el éxito de cualquier modelo de IA. Los datos de baja calidad pueden dar lugar a modelos poco precisos, mientras que los datos de alta calidad permiten al modelo generalizar mejor y realizar predicciones más precisas. Los problemas comunes relacionados con la calidad de los datos incluyen:


      • Datos faltantes: Si algunos valores están ausentes, el modelo puede fallar en su tarea o producir resultados inexactos. Es importante tratar los datos faltantes mediante técnicas como la imputación (rellenar valores faltantes con estimaciones) o la eliminación de ejemplos incompletos.
      • Datos desbalanceados: Cuando las etiquetas están desproporcionadamente distribuidas (por ejemplo, en un problema de clasificación binaria donde el 90% de los ejemplos pertenecen a una clase y solo el 10% a la otra), los modelos tienden a sesgarse hacia la clase mayoritaria. Esto requiere técnicas de balanceo de datos o ajuste de las métricas de evaluación.
      • Datos ruidosos o irrelevantes: Características que no aportan valor pueden confundir al modelo y reducir su rendimiento. Es fundamental identificar y eliminar características irrelevantes o irreales para mejorar la precisión del modelo.

      Un dato bien preparado y de calidad puede aumentar drásticamente la eficacia de los modelos de IA. El proceso de preparación de datos es vital, ya que permite que los modelos de IA operen con precisión y eficiencia, aprovechando al máximo la información contenida en los datos.


      ¿Qué pasa cuando no hay etiquetas?

      En muchos casos, especialmente en el aprendizaje no supervisado, las etiquetas no están disponibles. A diferencia del aprendizaje supervisado, donde el modelo aprende a partir de ejemplos etiquetados, el aprendizaje no supervisado intenta descubrir patrones ocultos en los datos sin que se proporcionen salidas específicas.


      Supongamos que queremos utilizar IA con el objetivo es agrupar plantas similares. En este caso, no se tiene una etiqueta predeterminada, dado que el agrupamiento puede realizarse por diversas características (tipo de hoja, cantidad, largo de la hoja, etc) y el modelo debe encontrar por sí mismo las agrupaciones dentro de los datos. Este tipo de aprendizaje es particularmente útil en la segmentación de clientes, la detección de anomalías o la compresión de datos.


      La falta de etiquetas no significa que los datos no sean valiosos. De hecho, muchos problemas reales del mundo no vienen con respuestas claras o etiquetas, y el aprendizaje no supervisado puede ser clave para abordar estos desafíos.


      Conclusiones

      En IA, los datos son el recurso más valioso y su preparación adecuada es esencial para el éxito de los modelos. A través de la organización y la limpieza de los datos, junto con una comprensión clara de las dimensiones clave (ejemplos, características y etiquetas), podemos garantizar que los modelos de IA sean efectivos y precisos. Aunque en muchos casos se utilizan etiquetas para entrenar modelos supervisados, también es importante reconocer que no siempre tendremos etiquetas disponibles, y que en esos casos, técnicas de aprendizaje no supervisado pueden ser la solución para extraer valor de los datos.


      A medida que avancemos en las próximas lecciones, profundizaremos en cómo preparar y transformar datos para diferentes tipos de tareas de IA, asegurando que puedas aplicar estos conceptos a proyectos del mundo real de manera eficaz.