Los orígenes de datos como bases de datos, hojas de cálculo y formatos de archivo como CSV (valores separados por comas) suelen organizar los datos dentro de columnas y filas. Las columnas pueden llamarse campos, las filas pueden llamarse registros y los datos almacenados dentro de la intersección de una columna y una fila pueden llamarse valores. En la ciencia de datos, hay nombres adicionales para estas entidades y la forma en que se usan depende del contexto.
Hay muchos nombres alternativos para cada fila o registro. Los más comunes incluyen ejemplo de datos, instancia de datos, observación de datos y punto de datos (especialmente cuando se grafican). Un modelo estadístico considera estos "ejemplos" de algunos aspectos de un entorno cuando los toma como entrada.
Esos aspectos de un entorno son las columnas de cada registro, que se denominan atributos o características. Las características contienen las variables que el modelo evalúa para realizar sus estimaciones. Por ejemplo, en un conjunto de datos que utiliza para determinar si se le debe otorgar un préstamo bancario a alguien, las características que el modelo utiliza para tomar esta decisión pueden incluir si el solicitante alguna vez incumplió o no con un préstamo (default) y cuánto por tiempo el solicitante fue cliente en el banco (date_joined). Estas columnas se encuentran entre las características que utiliza el modelo. La cantidad total de características diferentes que utiliza se cuentan para identificar las dimensiones del modelo.
A veces puede hacer referencia al valor de datos individuales contenido en una característica. Por ejemplo, age = 5 describe la característica age como si tuviera un valor determinado (5) para este ejemplo de datos.
Ocasionalmente, la palabra característica se utiliza para referirse a esta combinación específica de variable y valor. En la mayoría de los casos, sin embargo, los profesionales usan la palabra característica para describir la columna/variable en sí y solo usan el término valor para la medición específica.
Figura 1. Las diferentes partes de los datos.
No siempre es factible tener un conjunto de datos de grandes cantidades, por lo que es posible que deba llegar a un acuerdo. Un enfoque requiere tener al menos 10 veces más registros que el número de características que utiliza el modelo. Por supuesto, una cantidad mayor sería aún mejor.
Estos datos se escalan para convertirse en grandes debido a al menos tres factores principales, que a veces se describen por tres V: volumen, variedad y velocidad.
Factores del big data | Descripción |
---|---|
Volumen | El gran número de bytes de datos que se capturan es una de las dimensiones de big data. La capacidad de almacenar gran cantidad de datos que ofrece el almacenamiento en la nube ha llevado a que las aplicaciones se diseñen para capturar y acumular cantidades masivas de datos. |
Variedad | En el pasado, gran parte de los datos capturados para su uso en el análisis de datos provenían de fuentes de datos estructuradas, como bases de datos y registros de transacciones. Más recientemente, los tipos de datos complejos y no estructurados se capturan de fuentes como sitios web, sitios de redes sociales, dispositivos inteligentes y cámaras. Ahora se captura una amplia variedad de tipos de datos, como imágenes, grabaciones de voz y otras publicaciones de audio, video, web y redes sociales. |
Velocidad | La velocidad a la que debe producirse el procesamiento de datos. Con fuentes de datos como dispositivos inteligentes, los datos a menudo deben recopilarse y procesarse en tiempo real o casi en tiempo real. |
Repositorio de datos | Descripción |
---|---|
Lago de datos |
- Propósito: aprendizaje automático, análisis de big data, análisis predictivo (uso de estadísticas para realizar predicciones sobre eventos futuros) y descubrimiento de datos (extracción de información útil de grandes conjuntos de datos). Los datos pueden utilizarse en cualquier momento o nunca. Es posible que aún no exista un propósito específico para conservar los datos, pero se conserva para posibles necesidades futuras.
- Fuente: datos estructurados y no estructurados de muchas fuentes, como dispositivos inteligentes, sitios web, aplicaciones, registros de servidores, etc. - Estructura: muy variable. Por lo general, los datos se mantienen en sus formas originales, que pueden incluir tipos de datos no tradicionales, como registros de servidores web, datos de sensores, actividad de redes sociales, texto e imágenes. Consumir y almacenar datos como este puede ser costoso y difícil. |
Almacén de datos operativos |
- Propósito: recopila, agrega y prepara datos para su uso en operaciones. Puede alimentar a un almacén de datos.
- Fuente: datos transaccionales (datos sobre eventos que incluyen algún tipo de intercambio, como la compra de un producto) capturados de varias aplicaciones y otras fuentes. - Estructura: los datos se han estructurado para un acceso rápido y fácil, pero pueden requerir una preparación adicional antes de que se puedan transferir a un almacén de datos. |
Almacén de datos |
- Propósito: análisis de datos para información, informes por lotes y visualización de datos (traducción de datos en gráficos, tablas y otros objetos visuales).
- Fuente: datos relacionales capturados de múltiples fuentes relacionales, incluidas aplicaciones, sistemas transaccionales y bases de datos de operaciones, generalmente dentro de una única organización, como una empresa, una agencia gubernamental, una universidad o un sistema de atención médica. - Estructura: los datos se han estructurado para obtener un acceso rápido y fácil.
|
Data mart |
- Propósito: datos utilizados para apoyar un tipo particular de análisis.
- Fuente: una subsección del almacén de datos, que aloja datos destinados específicamente a admitir un tipo particular de análisis o abordar un requisito o función específicos. - Estructura: los datos se han estructurado para obtener un acceso rápido y fácil. |
Sitio |
Descripción |
---|---|
Repositorio de aprendizaje automático de la Universidad de California en Irvine |
La facultad de Información y ciencias de la computación de la Universidad de California en Irvine aloja este repositorio que incluye cientos de conjuntos de datos, muchos de los cuales están limpios y listos para su uso. Los conjuntos de datos se clasifican por el tipo de problema de aprendizaje automático que deben abordar.
|
Kaggle |
Google aloja este repositorio y comunidad de profesionales de la ciencia de datos en línea. Cada conjunto de datos funciona como un sitio de la comunidad donde se pueden discutir datos, buscar y compartir códigos públicos, crear proyectos propios en computadores portátiles y leer y publicar artículos en blogs. En las competencias de Kaggle, que habitualmente atraen a más de mil equipos y competidores individuales, las empresas publican problemas y los profesionales compiten para generar el mejor modelo. Los investigadores publicaron artículos en revistas revisadas por pares en función de su rendimiento en las competencias de Kaggle.
|
Registro de datos abiertos en AWS |
El servicio de internet de Amazon (AWS) aloja un registro de conjuntos de datos abiertos que cubren muchos campos diferentes, como imágenes de satélite, datos de rastreadores web, transporte público, migraciones de aves, etc. Se proporciona una característica de búsqueda para ayudarle a encontrar el conjunto de datos que está buscando. El directorio proporciona descripciones detalladas del conjunto de datos y ejemplos de proyectos.Este sitio es especialmente conveniente si utiliza AWS; la transferencia de datos será muy rápida, ya que los conjuntos de datos se alojan en los servicios de almacenamiento de AWS.
|
Datos abiertos de Microsoft Research |
Microsoft Research, la subsidiaria de investigación de Microsoft, aloja este repositorio que proporciona una colección de conjuntos de datos gratuitos que cubren campos como el procesamiento del lenguaje natural, la visión artificial y las ciencias específicas de un dominio. |
Biblioteca abierta de medios (OpenML) |
OpenML es una base de datos de experimentos en línea para la ciencia de los datos y el aprendizaje automático, que aloja decenas de miles de conjuntos de datos de código abierto.Los recursos se clasifican como conjuntos de datos (filas de datos en forma de tabla), tareas (un conjunto de datos, junto con una tarea como ejemplo de aprendizaje automático que se va a realizar, como la clasificación o agrupación en clústeres y un método de evaluación), flujos (un algoritmo de aprendizaje automático determinado de una biblioteca o plataforma de trabajo determinado) y ejecuciones (un flujo aplicado a una tarea determinada).
|
Repositorios gubernamentales |
Varios gobiernos comparten sus conjuntos de datos a través de sitios como el Portal de Datos Abiertos de la UE, Data.gov (Estados Unidos), Data.gov.uk (Reino Unido), Data.gov.in (India) y Open.canada.ca (Canadá).https://data.europa.eu/euodp/data/dataset |
1. Inicie el entorno de actividad.
1. En el escritorio, haga doble clic en la aplicación Oracle VM VirtualBox para iniciarla.
2. En Oracle VM VirtualBox Manager, en la lista de la izquierda, seleccione ITSAI y, a continuación, seleccione Computador→Inicio→Inicio normal.
3. Espere a que se inicie el sistema operativo.
2. Abra el Administrador de archivos y navegue hasta los archivos de datos de esta lección.
1. En el escritorio, haga doble clic en el icono de Sistema de archivos para abrir la ventana Sistema de archivos - Administrador de archivos.
2. En el panel izquierdo, en LUGARES, seleccione alumno.
3. En el panel derecho, haga doble clic en la carpeta ITSAI.
4. En el panel derecho, haga doble clic en la carpeta ETL.
5. En el panel derecho, haga doble clic en la carpeta datos.
3. Examine el conjunto de datos.
1. Observe los tres archivos de datos de esta lección.
El subdirectorio de datos contiene tres archivos: home_loan_complaints.csv, kc_house_data.csv y kc_house_data.db.
2. Haga doble clic en el archivo home_loan_complaints.csv.
3. En el cuadro de diálogo Importación de texto - [home_loan_complaints.csv], seleccione Aceptar.
Puede utilizar la configuración de importación predeterminada para el archivo de texto.
4. En la ventana home_loan_complaints.csv - LibreOffice Calc, examine los datos del archivo de texto.
Se muestra el contenido del archivo. Estos son algunos de los datos que usará para entrenar y probar modelos de aprendizaje automático. Deberá desplazarse hacia la derecha para ver todas las columnas.
5. Examine las etiquetas de columna de la primera fila.