Ir al contenido principal

Diagrama de temas

    • 3.1 Recopilar y evaluar datos

      • Conjuntos de datos para aprendizaje automático


        En un proyecto de IA/AA, un conjunto de datos es una colección de datos que se utilizará directamente para lograr las metas establecidas en las especificaciones del proyecto. Los conjuntos de datos para proyectos de aprendizaje automático proceden de una amplia gama de fuentes. Dependiendo de los requisitos que impulsan un proyecto de aprendizaje automático, es posible que deba recopilar datos solo una vez o de forma periódica.

        Por ejemplo, un problema puede demandar que obtenga un conjunto de datos histórico para realizar algún análisis que publique en un informe. Es posible que deba usar el conjunto de datos una vez para obtener la respuesta a una pregunta específica. Puede usar un conjunto de datos producido a partir de fuentes públicas o privadas, como empresas, datos de investigación médica, informes censales o registros públicos que haya descargado de un sitio web del gobierno.

        Una solución diferente puede demandar la creación de una solución de aprendizaje automático automatizada que recopile un nuevo lote de datos de forma periódica. Por ejemplo, la solución de aprendizaje automático podría funcionar con datos de imagen capturados de cámaras que recopilan datos continuamente. En otras situaciones, los datos pueden originarse en una combinación de diferentes orígenes e incluso existir en diferentes formatos.

        El aspecto de la recopilación de datos es importante, ya que los datos deben empaquetarse como un objeto discreto antes de que se puedan aplicar a la mayoría de las tareas de IA y AA. Sin embargo, los datos no siempre comienzan de esta manera. Pueden estar desorganizados, con piezas individuales que abarcan varios repositorios, o pueden estar mezclados con otros datos que no son relevantes para el problema en cuestión. En cualquier caso, será su responsabilidad asegurarse de que los datos se colocan en uno o más conjuntos que contengan, de forma individual, puntos de datos que son similares entre sí.

        Nota: En situaciones en las que necesita descargar y preparar los datos solo una vez, puede ser suficiente hacerlo manualmente, pero en situaciones en las que el conjunto de datos debe recopilarse y prepararse de forma periódica, es beneficioso desarrollar secuencias de comando para automatizar los procesos que descargan, convierten y combinan los diversos componentes de datos procedentes de diferentes orígenes.

      •  Estructura de los datos


        Los conjuntos de datos pueden estar estructurados o no estructurados. Los datos estructurados están en un formato que facilita la búsqueda, el filtrado o la extracción, como una hoja de cálculo o una base de datos, en la que las categorías de dichos datos están separadas o etiquetadas. Puede recuperar fácilmente fragmentos específicos de datos (como la altura, la edad, el nombre o el apellido) para cualquier registro mediante código de programación o un lenguaje de consulta como el lenguaje de consulta estructurado (SQL). Los datos estructurados suelen presentar la forma de una base de datos relacional, en la que los datos se organizan en columnas y filas de una tabla, y los elementos de esa tabla presentan alguna relación existente.

        Los datos no estructurados, por otro lado, no son tan fáciles de consultar. Los ejemplos incluyen cosas como imágenes, archivos de video o audio, datos publicados en sitios de redes sociales, el contenido de documentos de correo electrónico, etc. La información en estos tipos de formatos no se registra necesariamente en contenedores ordenados y predefinidos como lo haría en una hoja de cálculo o base de datos. No obstante, los datos no estructurados suelen ser una fuente importante de información en los proyectos de IA y AA, y a menudo representan una porción mucho mayor de los datos utilizados que los datos estructurados.

        Algunos datos pueden considerarse semiestructurados. Por ejemplo, aunque el contenido de los datos de correo electrónico puede no estar estructurado, los documentos de correo electrónico, en sí, contienen alguna estructura. Los campos asociados con el remitente, el destinatario, la fecha de envío, etc., proporcionan datos estructurados que puede buscar, filtrar y extraer directamente.
      •   Términos que describen partes de datos


        Los orígenes de datos como bases de datos, hojas de cálculo y formatos de archivo como CSV (valores separados por comas) suelen organizar los datos dentro de columnas y filas. Las columnas pueden llamarse campos, las filas pueden llamarse registros y los datos almacenados dentro de la intersección de una columna y una fila pueden llamarse valores. En la ciencia de datos, hay nombres adicionales para estas entidades y la forma en que se usan depende del contexto.

        Hay muchos nombres alternativos para cada fila o registro. Los más comunes incluyen ejemplo de datos, instancia de datos, observación de datos y punto de datos (especialmente cuando se grafican). Un modelo estadístico considera estos "ejemplos" de algunos aspectos de un entorno cuando los toma como entrada.

        Esos aspectos de un entorno son las columnas de cada registro, que se denominan atributos o características. Las características contienen las variables que el modelo evalúa para realizar sus estimaciones. Por ejemplo, en un conjunto de datos que utiliza para determinar si se le debe otorgar un préstamo bancario a alguien, las características que el modelo utiliza para tomar esta decisión pueden incluir si el solicitante alguna vez incumplió o no con un préstamo (default) y cuánto por tiempo el solicitante fue cliente en el banco (date_joined). Estas columnas se encuentran entre las características que utiliza el modelo. La cantidad total de características diferentes que utiliza se cuentan para identificar las dimensiones del modelo.

        A veces puede hacer referencia al valor de datos individuales contenido en una característica. Por ejemplo, age = 5 describe la característica age como si tuviera un valor determinado (5) para este ejemplo de datos.

        Ocasionalmente, la palabra característica se utiliza para referirse a esta combinación específica de variable y valor. En la mayoría de los casos, sin embargo, los profesionales usan la palabra característica para describir la columna/variable en sí y solo usan el término valor para la medición específica.


        Figura 1. Las diferentes partes de los datos.


      • Cantidad de datos


        Hay varios factores que afectan la forma en que se entiende y utiliza un conjunto de datos. Uno de esos factores es la cantidad de datos. "Cantidad" en este caso puede referirse al número de ejemplos de datos, al número de características o ambos. Por lo tanto, un conjunto de datos estructurado de grandes cantidades puede tener muchas filas, muchas columnas o muchas filas y columnas. Un conjunto de datos no estructurado de grandes cantidades, como una colección de documentos escritos, puede incluir muchas palabras totales y muchos tipos diferentes de palabras. Es importante hacer estas distinciones porque los diferentes tipos de cantidades son relevantes para los diferentes tipos de problemas. Por ejemplo, algunos algoritmos de aprendizaje automático funcionan mejor con un tipo que con otro.

        Por lo general, cuantos más datos informativos tenga (es decir, las características más significativas), mejor será el modelo que producirá. Por ejemplo, imagine una empresa que desea analizar los datos de sus clientes pero tiene un conjunto de datos con solo dos características para cada cliente. Puede ser difícil para el modelo entender cómo se relacionan esas variables y puede no encontrar diferencias significativas entre cada uno de los clientes. Por otro lado, podría tener 80 columnas que describan a sus clientes de una manera significativa, pero si solo tiene 10 clientes registrados, es posible que su modelo no tenga suficientes ejemplos para realizar una estimación precisa. Tener un gran número de ejemplos puede ayudar a minimizar la influencia de algunos puntos de datos incorrectos.


        Figura 1. Un ejemplo en donde se tiene muchos ejemplos pero muy pocas características.

        Figura 2. Un ejemplo en donde se tiene muchas características pero muy pocos ejemplos.


        No siempre es factible tener un conjunto de datos de grandes cantidades, por lo que es posible que deba llegar a un acuerdo. Un enfoque requiere tener al menos 10 veces más registros que el número de características que utiliza el modelo. Por supuesto, una cantidad mayor sería aún mejor.


        Figura 3. Un ejemplo de una buena mezcla de muchas características y muchos ejemplos.

      • Big data


        Big data se refiere a cantidades masivas de datos que no se pueden traducir fácilmente en inteligencia procesable utilizando métodos y tecnologías tradicionales. Las nuevas fuentes de datos, como los dispositivos inteligentes, las aplicaciones web y móviles y las plataformas de redes sociales, pueden empequeñecer las cantidades de datos procedentes de fuentes de datos tradicionales, como los formularios de papeleo y las transacciones comerciales.

        Estos datos se escalan para convertirse en grandes debido a al menos tres factores principales, que a veces se describen por tres V: volumen, variedad y velocidad.


        Figura 1. Las tres V del big data.
        Factores del big data Descripción
        Volumen El gran número de bytes de datos que se capturan es una de las dimensiones de big data. La capacidad de almacenar gran cantidad de datos que ofrece el almacenamiento en la nube ha llevado a que las aplicaciones se diseñen para capturar y acumular cantidades masivas de datos.
        Variedad En el pasado, gran parte de los datos capturados para su uso en el análisis de datos provenían de fuentes de datos estructuradas, como bases de datos y registros de transacciones. Más recientemente, los tipos de datos complejos y no estructurados se capturan de fuentes como sitios web, sitios de redes sociales, dispositivos inteligentes y cámaras. Ahora se captura una amplia variedad de tipos de datos, como imágenes, grabaciones de voz y otras publicaciones de audio, video, web y redes sociales.
        Velocidad La velocidad a la que debe producirse el procesamiento de datos. Con fuentes de datos como dispositivos inteligentes, los datos a menudo deben recopilarse y procesarse en tiempo real o casi en tiempo real.

        Nota: La veracidad (la precisión o fiabilidad de los datos) a menudo se incluye como una cuarta V de los desafíos del big data. Esto se refiere al hecho de que muchas fuentes de big data pueden no ser completamente confiables.

      • Origen de los datos

        Se utilizan varios términos para referirse a los distintos tipos de repositorios donde se recopilan los datos. Si bien estos términos están destinados a representar diferentes conceptos, a veces se usan indistintamente.

        Repositorio de datos Descripción
        Lago de datos
        - Propósito: aprendizaje automático, análisis de big data, análisis predictivo (uso de estadísticas para realizar predicciones sobre eventos futuros) y descubrimiento de datos (extracción de información útil de grandes conjuntos de datos). Los datos pueden utilizarse en cualquier momento o nunca. Es posible que aún no exista un propósito específico para conservar los datos, pero se conserva para posibles necesidades futuras.
        - Fuente: datos estructurados y no estructurados de muchas fuentes, como dispositivos inteligentes, sitios web, aplicaciones, registros de servidores, etc.
        - Estructura: muy variable. Por lo general, los datos se mantienen en sus formas originales, que pueden incluir tipos de datos no tradicionales, como registros de servidores web, datos de sensores, actividad de redes sociales, texto e imágenes. Consumir y almacenar datos como este puede ser costoso y difícil.
        Almacén de datos operativos
        - Propósito: recopila, agrega y prepara datos para su uso en operaciones. Puede alimentar a un almacén de datos.
        - Fuentedatos transaccionales (datos sobre eventos que incluyen algún tipo de intercambio, como la compra de un producto) capturados de varias aplicaciones y otras fuentes.
        - Estructura: los datos se han estructurado para un acceso rápido y fácil, pero pueden requerir una preparación adicional antes de que se puedan transferir a un almacén de datos.
        Almacén de datos
        - Propósito: análisis de datos para información, informes por lotes y visualización de datos (traducción de datos en gráficos, tablas y otros objetos visuales).
        - Fuente: datos relacionales capturados de múltiples fuentes relacionales, incluidas aplicaciones, sistemas transaccionales y bases de datos de operaciones, generalmente dentro de una única organización, como una empresa, una agencia gubernamental, una universidad o un sistema de atención médica.
        - Estructura: los datos se han estructurado para obtener un acceso rápido y fácil.
        Data mart
        - Propósito: datos utilizados para apoyar un tipo particular de análisis.
        - Fuente: una subsección del almacén de datos, que aloja datos destinados específicamente a admitir un tipo particular de análisis o abordar un requisito o función específicos.
        - Estructura: los datos se han estructurado para obtener un acceso rápido y fácil.


        Tenga en cuenta que la mayoría de estas fuentes incorporan bases de datos relacionales. Las bases de datos relacionales no son tanto una fuente independiente como una técnica de almacenamiento de datos, normalmente en un formato organizado y coherente. Este tipo de bases de datos suelen admitir aplicaciones directamente, como las aplicaciones que procesan transacciones.

      • Datos de terceros

        Incluso si la mayoría de los datos provienen de fuentes internas recopiladas por la organización que realiza el análisis, es posible que los conjuntos de datos no estén tan completos como le gustaría que estuvieran. Por ejemplo, cuando está analizando las compras de bienes raíces en una región, es posible que tenga mucha información sobre el tiempo en el mercado, el precio de venta, etc. Pero también puede estar interesado en otros factores como la demografía, como la edad de los compradores, su estado civil, géneros, etc., Es posible que desee crear un conjunto de datos más completo a partir del cual construir un modelo. Si no puede obtener estos datos usted mismo, es posible que deba investigar la obtención de datos de terceros.

        Algunas personas u organizaciones están en el negocio de proporcionarles servicios de recopilación de datos a sus clientes. Esos clientes pueden confiar completamente en el tercero para todos los datos utilizados en un proyecto, o solo una parte de sus datos generales, como en el ejemplo anterior. Incluso si se encuentra en el punto en el que no está seguro de en cuál de estas situaciones se encuentra, o si no cree que necesite confiar en datos externos en absoluto, sigue siendo una buena idea investigar a proveedores de datos de terceros. Después de todo, es posible que descubra un tipo de datos en los que nunca pensó. O bien, es posible que descubra mayores volúmenes de datos de los que ya tiene, que podría aprovechar para mejorar su proyecto.

        Los proveedores de datos pueden proporcionar casi cualquier tipo de datos, pero algunos tipos son más buscados que otros. Esto puede deberse a la dificultad de recopilar dichos datos, o debido al hecho de que algunos proveedores tienen una reputación positiva en su campo elegido. Los datos demográficos, particularmente entre grandes poblaciones como ciudades, países o incluso el mundo, pueden ser difíciles de obtener debido a la gran cantidad de esfuerzo que implica encuestar a una población tan grande. Las oficinas del censo del gobierno, como la Oficina del Censo de los Estados Unidos, son quizás los proveedores más importantes de información demográfica. Otro ejemplo de datos que las organizaciones buscan externamente son los datos de mercado. Por ejemplo, la compañía financiera Bloomberg ofrece varios servicios que pueden ayudar a una organización a recopilar y rastrear datos de mercado en sectores específicos. Publicaciones de noticias como el Wall Street Journal y Reuters también recopilan datos de mercado.

        Colaboraciones de datos

        Otra fuente potencial de datos de terceros es una colaboración de datos. Una colaboración de datos es una asociación entre organizaciones en la que cada organización miembro acepta compartir datos para que todos los miembros de la asociación puedan resolver un problema común. Por ejemplo, una empresa privada que trabaja en un contrato gubernamental para mejorar la señalización de semáforos podría compartir datos con agencias gubernamentales y viceversa.

      • Conjuntos de datos abiertos

        No todos los datos externos tienen un precio. Algunos datos se proporcionan al público de forma gratuita. Ello es gratis como el precio y libre como la libertad. Estos se llaman conjuntos de datos abiertos y se basan en el principio del software libre y de código abierto (FOSS). Los investigadores dejan los conjuntos de datos abiertos para que cualquier persona los utilice y los vuelva a publicar como desee, sin restricciones para los derechos de autor, las patentes u otros mecanismos de control. Normalmente comparten estos conjuntos de datos a través de sitios de uso compartido de datos de código abierto. Cientos de estos sitios son accesibles a través de la web. En la tabla siguiente se enumeran algunos ejemplos destacados.
        Sitio
        Descripción
        Repositorio de aprendizaje automático de la Universidad de California en Irvine
        La facultad de Información y ciencias de la computación de la Universidad de California en Irvine aloja este repositorio que incluye cientos de conjuntos de datos, muchos de los cuales están limpios y listos para su uso. Los conjuntos de datos se clasifican por el tipo de problema de aprendizaje automático que deben abordar.
        https://archive.ics.uci.edu/ml/index.php
        Kaggle
        Google aloja este repositorio y comunidad de profesionales de la ciencia de datos en línea. Cada conjunto de datos funciona como un sitio de la comunidad donde se pueden discutir datos, buscar y compartir códigos públicos, crear proyectos propios en computadores portátiles y leer y publicar artículos en blogs. En las competencias de Kaggle, que habitualmente atraen a más de mil equipos y competidores individuales, las empresas publican problemas y los profesionales compiten para generar el mejor modelo. Los investigadores publicaron artículos en revistas revisadas por pares en función de su rendimiento en las competencias de Kaggle.
        https://www.kaggle.com/datasets
        Registro de datos abiertos en AWS
        El servicio de internet de Amazon (AWS) aloja un registro de conjuntos de datos abiertos que cubren muchos campos diferentes, como imágenes de satélite, datos de rastreadores web, transporte público, migraciones de aves, etc. Se proporciona una característica de búsqueda para ayudarle a encontrar el conjunto de datos que está buscando. El directorio proporciona descripciones detalladas del conjunto de datos y ejemplos de proyectos.

        Este sitio es especialmente conveniente si utiliza AWS; la transferencia de datos será muy rápida, ya que los conjuntos de datos se alojan en los servicios de almacenamiento de AWS.
        https://registry.opendata.aws/
        Datos abiertos de Microsoft Research
        Microsoft Research, la subsidiaria de investigación de Microsoft, aloja este repositorio que proporciona una colección de conjuntos de datos gratuitos que cubren campos como el procesamiento del lenguaje natural, la visión artificial y las ciencias específicas de un dominio.
        Este sitio es especialmente conveniente si utiliza los servicios en la nube de Microsoft Azure. 
        Puede descargar o copiar conjuntos de datos directamente en una máquina virtual de ciencia de los datos basada en la nube de Azure.
        https://msropendata.com/
        Biblioteca abierta de medios (OpenML)
        OpenML es una base de datos de experimentos en línea para la ciencia de los datos y el aprendizaje automático, que aloja decenas de miles de conjuntos de datos de código abierto. 
        Los recursos se clasifican como conjuntos de datos (filas de datos en forma de tabla), tareas (un conjunto de datos, junto con una tarea como ejemplo de aprendizaje automático que se va a realizar, como la clasificación o agrupación en clústeres y un método de evaluación), flujos (un algoritmo de aprendizaje automático determinado de una biblioteca o plataforma de trabajo determinado) y ejecuciones (un flujo aplicado a una tarea determinada).
        https://www.openml.org/
        Repositorios gubernamentales
        Varios gobiernos comparten sus conjuntos de datos a través de sitios como el Portal de Datos Abiertos de la UE, Data.gov (Estados Unidos), Data.gov.uk (Reino Unido), Data.gov.in (India) y Open.canada.ca (Canadá).https://data.europa.eu/euodp/data/dataset

      • Consideraciones sobre la recopilación de datos y mitigación de riesgos

        Además de los desafíos de encontrar datos que sean beneficiosos para su proyecto de IA o AA (los datos respaldarán el análisis a realizar y el logro exitoso de los resultados deseados), hay otras cuestiones que debe considerar. Muchos estados, países y organizaciones como la Unión Europea tienen leyes sobre cómo se recopilan los datos y los requisitos para notificar a las personas de las que se recopilan.

        Para mitigar cualquier riesgo legal, cívico o ético, debe hacer que el equipo legal de su proyecto revise los procesos de recopilación de datos para garantizar que los métodos de recopilación, almacenamiento y acceso cumplan con los requisitos y las leyes vigentes para las áreas desde las que se recopilan los datos. Cuando recopile datos, debe ser lo más transparente posible sobre por qué se recopilan y el propósito para el que se usarán. Es posible que el equipo legal del proyecto también desee obtener formularios de autorización firmados u otras declaraciones de las personas que proporcionan los datos, confirmando que los datos se pueden usar para el propósito previsto.

        Más allá de eso, a medida que el proyecto avanza, debe controlar el acceso tanto a los datos de entrada como a sus resultados, según sea necesario en función de los requisitos legales relevantes para los datos y los objetivos del proyecto. Llevar a cabo un grupo de enfoque en una ubicación específica o incluso en varias ubicaciones en una ciudad y hacer que cada participante firme una un formulario de autorización es relativamente simple porque el equipo legal solo necesita tratar con las leyes de privacidad y acceso a los datos para una única ubicación.

        Sin embargo, si está recopilando datos en línea, el seguimiento y el cumplimiento de los requisitos legales pueden volverse mucho más complejos porque los visitantes de todo el mundo podrían acceder y participar en la recopilación de datos. Las leyes sobre privacidad, seguridad y tratamiento de datos son diferentes entre organismos gubernamentales como los Estados Unidos y la Unión Europea (UE). Por ejemplo, la UE implementó recientemente el Reglamento General de Privacidad de Datos (RGPD) que contiene requisitos estrictos para el tratamiento de datos. Incluso dentro del mismo país, las diferencias regionales pueden aumentar la complejidad de la recopilación de datos. La Ley de Privacidad del Consumidor de California (CCPA) exige un tratamiento de la información mucho más estricto que muchos otros estados.


        Figura 1. La complejidad agregada de recopilar datos de múltiples fuentes puede dificultar la respuesta a preguntas legales fundamentales.

        Si bien es totalmente posible que los datos y los resultados se hagan públicos, este podría no ser el caso. Si necesita restringir el acceso a los datos, modelos o resultados, los requisitos de seguridad deben documentarse claramente y comunicarse a los miembros del equipo. Además, los miembros del equipo del proyecto responsable de la seguridad, una entidad externa responsable de la seguridad o ambos, deben auditar el acceso a los datos y los resultados a lo largo del proyecto. En otras palabras, deben verificar que se cumplan los requisitos de seguridad. Como parte de este proceso, el equipo del proyecto debe decidir quién puede ver los datos y los resultados. Los miembros del equipo que trabajaron con datos de alguna manera, así como aquellos que construyen modelos y analizan resultados, probablemente necesitarán acceso a los datos.

        Figura 2. Los datos de entrada y los resultados del proyecto están protegidos y auditados.
      • Evaluación de datos


        Archivos de datos
        Para empezar esta actividad, necesitará una máquina virtual de VirtualBox VM y archivos de datos que se puedan descargar desde aquí. Consulte las instrucciones del apéndice C para aprender a configurar la máquina virtual de VirtualBox.

        /home/student/ITSAI/ETL/data/home_loan_complaints.csv
        /home/student/ITSAI/ETL/data/kc_house_data.csv

        Escenario

        Utilizará datos de bienes raíces para predecir un precio de venta apropiado para las casas. Encontró un conjunto de datos que puede usar para entrenar el modelo de aprendizaje automático. Es un archivo de texto que contiene más de 18.000 transacciones de bienes raíces realizadas en el Condado de King, Washington. También tiene más de 2.000 transacciones de bienes raíces en un archivo de base de datos. Además, tiene un archivo de texto que contiene quejas registradas por los usuarios relacionadas con el proceso de préstamos hipotecarios.

        Lo primero que deberá hacer es mirar el conjunto de datos directamente. Más adelante, evaluará los datos de maneras más interesantes mediante la ejecución de código.


        Nota
        : Si se le pide en cualquier momento que inicie sesión, el nombre de la cuenta es student y la contraseña es Pa22w0rd.

        Nota
        : Las actividades pueden variar ligeramente si el proveedor de software publicó actualizaciones digitales. Su instructor le notificará de cualquier cambio.


        -------------------------------------------------------------------------------------------------------------------------------------------------------------

        1. Inicie el entorno de actividad.

        1. En el escritorio, haga doble clic en la aplicación Oracle VM VirtualBox para iniciarla.

        2. En Oracle VM VirtualBox Manager, en la lista de la izquierda, seleccione ITSAI y, a continuación, seleccione Computador→Inicio→Inicio normal.

        3. Espere a que se inicie el sistema operativo.



        -------------------------------------------------------------------------------------------------------------------------------------------------------------

        2. Abra el Administrador de archivos y navegue hasta los archivos de datos de esta lección.

        1. En el escritorio, haga doble clic en el icono de Sistema de archivos para abrir la ventana Sistema de archivos - Administrador de archivos.

        2. En el panel izquierdo, en LUGARES, seleccione alumno.


        3. En el panel derecho, haga doble clic en la carpeta ITSAI.

        4. En el panel derecho, haga doble clic en la carpeta ETL.

        5. En el panel derecho, haga doble clic en la carpeta datos.


        -------------------------------------------------------------------------------------------------------------------------------------------------------------

        3. Examine el conjunto de datos.

        1. Observe los tres archivos de datos de esta lección.

        El subdirectorio de datos contiene tres archivos: home_loan_complaints.csvkc_house_data.csv y kc_house_data.db.

        2. Haga doble clic en el archivo home_loan_complaints.csv.

        3. En el cuadro de diálogo Importación de texto - [home_loan_complaints.csv], seleccione Aceptar.

        Puede utilizar la configuración de importación predeterminada para el archivo de texto.

        4. En la ventana home_loan_complaints.csv - LibreOffice Calc, examine los datos del archivo de texto.


        Se muestra el contenido del archivo. Estos son algunos de los datos que usará para entrenar y probar modelos de aprendizaje automático. Deberá desplazarse hacia la derecha para ver todas las columnas.

        5. Examine las etiquetas de columna de la primera fila.

        Entre ellas se incluyen:
        - user_id: cadena aleatoria de números y texto que identifica de forma única al usuario.
        - Fecha de recepción: la fecha en que la organización recibió la queja.
        - Problema: el tipo de problema sobre el que se trata la queja.
        - Narrativa de quejas del consumidor: el texto de cualquier queja por escrito. Este campo es opcional para que el emisor de la queja lo complete.
        - Estado: el estado de los EE. UU. en el que reside el usuario.
        - Código postal: el código postal de los EE. UU. en el que reside el usuario.
        - Enviado a través de: el método que el usuario utilizó para presentar la queja.
        - Fecha de envío a la empresa: la fecha en que el usuario envió la queja.
        - Respuesta de la empresa al consumidor: la forma en la que la organización trató la denuncia.
        - ¿Respuesta oportuna?: si la respuesta de la organización se dio o no dentro de un período de tiempo aceptable, según una métrica.
        - ¿Consumidor en conflicto?: si el usuario disputó o no la acción que la organización tomó en respuesta a la queja.
        - Id. de queja: un identificador único para la queja en sí.
        6. Cierre la ventana home_loan_complaints.csv - LibreOffice Calc.
        7. Haga doble clic en el archivo kc_house_data.csv.
        8. En el cuadro de diálogo Importación de texto - [kc_house_data.csv], seleccione Aceptar.
        También, puede utilizar la configuración de importación predeterminada para este archivo de texto.
        9. En la ventana kc_house_data.csv - LibreOffice Calc, examine los datos del archivo de texto.
        Se muestra el contenido del archivo. Estos son algunos de los datos que usará para entrenar y probar modelos de aprendizaje automático. Deberá desplazarse hacia la derecha para ver todas las columnas.


        10. Examine las etiquetas de columna de la primera fila.
        Entre ellas se incluyen:
        - id: un identificador único para cada casa vendida.
        - date: la fecha de la venta más reciente de la casa.
        - price: el precio por el que se vendió la casa más recientemente.
        - bedrooms: el número de dormitorios de la casa.
        - bathrooms: el número de baños. Una habitación con inodoro pero sin ducha se cuenta como 0,5.
        - sqft_living: los pies cuadrados del espacio habitable en el interior de la casa.
        - sqft_lot: los pies cuadrados del lote en el que se encuentra la casa.
        - floors: el número de pisos en la casa.
        - waterfront: si la propiedad limita o contiene un cuerpo de agua.
        - view: un índice de 0 a 4 que representa la calidad subjetiva de la vista de la propiedad. Cuanto mayor sea el número, mejor será la vista.
        - condition: un índice de 1 a 5 que representa la condición subjetiva de la propiedad. Cuanto mayor sea el número, mejor será la condición.
        - grade: un índice de 0 a 14 que representa la calidad de la construcción y el diseño del edificio. Cuanto mayor sea el número, mejor será la clasificación.
        - sqft_above: los pies cuadrados del espacio de la vivienda interior que está por encima del nivel del suelo.
        - sqft_basement: los pies cuadrados del espacio de la vivienda interior que está por debajo del nivel del suelo.
        - yr_built: el año en que se construyó inicialmente la casa.
        - yr_renovated: el año de la última remodelación de la casa.
        - zipcode: en qué área de código postal se encuentra la casa.
        - lat: la latitud de la ubicación de la casa.
        - long: la longitud de la ubicación de la casa.
        - sqft_living15: los pies cuadrados del espacio habitable de la vivienda interior para los 15 vecinos más cercanos.
        - sqft_lot15: los pies cuadrados de los lotes de tierra de los 15 vecinos más cercanos.
        - roof_type: el tipo de techo de la casa: Asfalto, arcilla o metal.

        Nota: El archivo de base de datos kc_house_data.db incluye más de estos datos de la casa almacenados en un archivo de base de datos. Lo verá en el tema siguiente.

        11. Cierre la ventana kc_house_data.csv - LibreOffice Calc.

        12. Cierre la ventana Datos - Administrador de archivos.