Ir al contenido principal

Diagrama de temas

    • Conjuntos de Datos para Aprendizaje Automático

      Conjuntos de datos para aprendizaje automático


      En un proyecto de IA/AA, un conjunto de datos es una colección de datos que se utilizará directamente para lograr las metas establecidas en las especificaciones del proyecto. Los conjuntos de datos para proyectos de aprendizaje automático proceden de una amplia gama de fuentes. Dependiendo de los requisitos que impulsan un proyecto de aprendizaje automático, es posible que deba recopilar datos solo una vez o de forma periódica.

      Por ejemplo, un problema puede demandar que obtenga un conjunto de datos histórico para realizar algún análisis que publique en un informe. Es posible que deba usar el conjunto de datos una vez para obtener la respuesta a una pregunta específica. Puede usar un conjunto de datos producido a partir de fuentes públicas o privadas, como empresas, datos de investigación médica, informes censales o registros públicos que haya descargado de un sitio web del gobierno.

      Una solución diferente puede demandar la creación de una solución de aprendizaje automático automatizada que recopile un nuevo lote de datos de forma periódica. Por ejemplo, la solución de aprendizaje automático podría funcionar con datos de imagen capturados de cámaras que recopilan datos continuamente. En otras situaciones, los datos pueden originarse en una combinación de diferentes orígenes e incluso existir en diferentes formatos.

      El aspecto de la recopilación de datos es importante, ya que los datos deben empaquetarse como un objeto discreto antes de que se puedan aplicar a la mayoría de las tareas de IA y AA. Sin embargo, los datos no siempre comienzan de esta manera. Pueden estar desorganizados, con piezas individuales que abarcan varios repositorios, o pueden estar mezclados con otros datos que no son relevantes para el problema en cuestión. En cualquier caso, será su responsabilidad asegurarse de que los datos se colocan en uno o más conjuntos que contengan, de forma individual, puntos de datos que son similares entre sí.

      Nota: En situaciones en las que necesita descargar y preparar los datos solo una vez, puede ser suficiente hacerlo manualmente, pero en situaciones en las que el conjunto de datos debe recopilarse y prepararse de forma periódica, es beneficioso desarrollar secuencias de comando para automatizar los procesos que descargan, convierten y combinan los diversos componentes de datos procedentes de diferentes orígenes.