Repositorio de aprendizaje automático de la Universidad de California en Irvine
|
La facultad de Información y ciencias de la computación de la Universidad de California en Irvine aloja este repositorio que incluye cientos de conjuntos de datos, muchos de los cuales están limpios y listos para su uso. Los conjuntos de datos se clasifican por el tipo de problema de aprendizaje automático que deben abordar. https://archive.ics.uci.edu/ml/index.php
|
Kaggle
|
Google aloja este repositorio y comunidad de profesionales de la ciencia de datos en línea. Cada conjunto de datos funciona como un sitio de la comunidad donde se pueden discutir datos, buscar y compartir códigos públicos, crear proyectos propios en computadores portátiles y leer y publicar artículos en blogs. En las competencias de Kaggle, que habitualmente atraen a más de mil equipos y competidores individuales, las empresas publican problemas y los profesionales compiten para generar el mejor modelo. Los investigadores publicaron artículos en revistas revisadas por pares en función de su rendimiento en las competencias de Kaggle. https://www.kaggle.com/datasets
|
Registro de datos abiertos en AWS
|
El servicio de internet de Amazon (AWS) aloja un registro de conjuntos de datos abiertos que cubren muchos campos diferentes, como imágenes de satélite, datos de rastreadores web, transporte público, migraciones de aves, etc. Se proporciona una característica de búsqueda para ayudarle a encontrar el conjunto de datos que está buscando. El directorio proporciona descripciones detalladas del conjunto de datos y ejemplos de proyectos.
Este sitio es especialmente conveniente si utiliza AWS; la transferencia de datos será muy rápida, ya que los conjuntos de datos se alojan en los servicios de almacenamiento de AWS. https://registry.opendata.aws/
|
Datos abiertos de Microsoft Research
|
Microsoft Research, la subsidiaria de investigación de Microsoft, aloja este repositorio que proporciona una colección de conjuntos de datos gratuitos que cubren campos como el procesamiento del lenguaje natural, la visión artificial y las ciencias específicas de un dominio. Este sitio es especialmente conveniente si utiliza los servicios en la nube de Microsoft Azure. Puede descargar o copiar conjuntos de datos directamente en una máquina virtual de ciencia de los datos basada en la nube de Azure. https://msropendata.com/
|
Biblioteca abierta de medios (OpenML)
|
OpenML es una base de datos de experimentos en línea para la ciencia de los datos y el aprendizaje automático, que aloja decenas de miles de conjuntos de datos de código abierto. Los recursos se clasifican como conjuntos de datos (filas de datos en forma de tabla), tareas (un conjunto de datos, junto con una tarea como ejemplo de aprendizaje automático que se va a realizar, como la clasificación o agrupación en clústeres y un método de evaluación), flujos (un algoritmo de aprendizaje automático determinado de una biblioteca o plataforma de trabajo determinado) y ejecuciones (un flujo aplicado a una tarea determinada). https://www.openml.org/
|
Repositorios gubernamentales
|
Varios gobiernos comparten sus conjuntos de datos a través de sitios como el Portal de Datos Abiertos de la UE, Data.gov (Estados Unidos), Data.gov.uk (Reino Unido), Data.gov.in (India) y Open.canada.ca (Canadá).https://data.europa.eu/euodp/data/dataset
|