Ir al contenido principal

Diagrama de temas

    • Conjuntos de Datos Abiertos

      Conjuntos de datos abiertos

      No todos los datos externos tienen un precio. Algunos datos se proporcionan al público de forma gratuita. Ello es gratis como el precio y libre como la libertad. Estos se llaman conjuntos de datos abiertos y se basan en el principio del software libre y de código abierto (FOSS). Los investigadores dejan los conjuntos de datos abiertos para que cualquier persona los utilice y los vuelva a publicar como desee, sin restricciones para los derechos de autor, las patentes u otros mecanismos de control. Normalmente comparten estos conjuntos de datos a través de sitios de uso compartido de datos de código abierto. Cientos de estos sitios son accesibles a través de la web. En la tabla siguiente se enumeran algunos ejemplos destacados.
      Sitio
      Descripción
      Repositorio de aprendizaje automático de la Universidad de California en Irvine
      La facultad de Información y ciencias de la computación de la Universidad de California en Irvine aloja este repositorio que incluye cientos de conjuntos de datos, muchos de los cuales están limpios y listos para su uso. Los conjuntos de datos se clasifican por el tipo de problema de aprendizaje automático que deben abordar.
      https://archive.ics.uci.edu/ml/index.php
      Kaggle
      Google aloja este repositorio y comunidad de profesionales de la ciencia de datos en línea. Cada conjunto de datos funciona como un sitio de la comunidad donde se pueden discutir datos, buscar y compartir códigos públicos, crear proyectos propios en computadores portátiles y leer y publicar artículos en blogs. En las competencias de Kaggle, que habitualmente atraen a más de mil equipos y competidores individuales, las empresas publican problemas y los profesionales compiten para generar el mejor modelo. Los investigadores publicaron artículos en revistas revisadas por pares en función de su rendimiento en las competencias de Kaggle.
      https://www.kaggle.com/datasets
      Registro de datos abiertos en AWS
      El servicio de internet de Amazon (AWS) aloja un registro de conjuntos de datos abiertos que cubren muchos campos diferentes, como imágenes de satélite, datos de rastreadores web, transporte público, migraciones de aves, etc. Se proporciona una característica de búsqueda para ayudarle a encontrar el conjunto de datos que está buscando. El directorio proporciona descripciones detalladas del conjunto de datos y ejemplos de proyectos.

      Este sitio es especialmente conveniente si utiliza AWS; la transferencia de datos será muy rápida, ya que los conjuntos de datos se alojan en los servicios de almacenamiento de AWS.
      https://registry.opendata.aws/
      Datos abiertos de Microsoft Research
      Microsoft Research, la subsidiaria de investigación de Microsoft, aloja este repositorio que proporciona una colección de conjuntos de datos gratuitos que cubren campos como el procesamiento del lenguaje natural, la visión artificial y las ciencias específicas de un dominio.
      Este sitio es especialmente conveniente si utiliza los servicios en la nube de Microsoft Azure. 
      Puede descargar o copiar conjuntos de datos directamente en una máquina virtual de ciencia de los datos basada en la nube de Azure.
      https://msropendata.com/
      Biblioteca abierta de medios (OpenML)
      OpenML es una base de datos de experimentos en línea para la ciencia de los datos y el aprendizaje automático, que aloja decenas de miles de conjuntos de datos de código abierto. 
      Los recursos se clasifican como conjuntos de datos (filas de datos en forma de tabla), tareas (un conjunto de datos, junto con una tarea como ejemplo de aprendizaje automático que se va a realizar, como la clasificación o agrupación en clústeres y un método de evaluación), flujos (un algoritmo de aprendizaje automático determinado de una biblioteca o plataforma de trabajo determinado) y ejecuciones (un flujo aplicado a una tarea determinada).
      https://www.openml.org/
      Repositorios gubernamentales
      Varios gobiernos comparten sus conjuntos de datos a través de sitios como el Portal de Datos Abiertos de la UE, Data.gov (Estados Unidos), Data.gov.uk (Reino Unido), Data.gov.in (India) y Open.canada.ca (Canadá).https://data.europa.eu/euodp/data/dataset