Identificación de conceptos de aprendizaje automático
Dada esta información, ¿qué modelo de aprendizaje cree que sería el más adecuado para predecir condiciones peligrosas, el aprendizaje automático o el aprendizaje profundo? ¿Por qué?
Las respuestas pueden variar, pero el aprendizaje automático estándar es probablemente el más apropiado en este caso. En primer lugar, el conjunto de datos es relativamente pequeño, ya que lo generan un número limitado de sensores durante un corto período de tiempo. Una semana puede no parecer corta, pero los modelos de aprendizaje profundo normalmente requieren muchos más datos para ser efectivos (millones de puntos de datos o más). En segundo lugar, la administradora de las instalaciones proporcionó las características de lo que está tratando de predecir (es decir, las mediciones que indican condiciones peligrosas), que es más aplicable al aprendizaje automático que al aprendizaje profundo.
Dada esta información, ¿qué modelo de aprendizaje cree que sería el más adecuado para predecir fallas en la red, el aprendizaje automático o el aprendizaje profundo? ¿Por qué?
Las respuestas pueden variar, pero el aprendizaje profundo es probablemente el más apropiado en este caso. A diferencia del ejemplo anterior, el conjunto de datos de este ejemplo es increíblemente grande. El aprendizaje profundo funciona mejor con grandes conjuntos de datos, mientras que el aprendizaje automático estándar puede tener dificultades para procesarlos. Además, la administradora de las instalaciones no conoce las características de lo que hay que predecir. El aprendizaje profundo puede compensar esto clasificando esos datos en capas. Cada capa se ocupa de dimensiones cada vez más complejas de los datos hasta que una predicción de alto nivel sea posible.
Descripción de los usos de la IA
¿Cómo puede ayudar la IA?
Las respuestas pueden variar. El fraude es a menudo un delito sutil y difícil de predecir. Analizar algunos puntos de datos no es suficiente. En su lugar, GCNB debe usar modelos de aprendizaje automático para identificar el fraude basado en muchos comportamientos diferentes. Afortunadamente, el banco puede proporcionar datos de entrada que se pueden usar para entrenar un algoritmo de aprendizaje. El algoritmo analizará las características de la cuenta y evaluará su capacidad para predecir el comportamiento fraudulento futuro en función de la etiqueta proporcionada. Esto puede reducir drásticamente los falsos positivos y los falsos negativos.
¿Cómo puede ayudar la IA?
Las respuestas pueden variar. Un buscador impulsado por IA puede incorporar muchos factores para hacer que los resultados parezcan más lógicos. Por ejemplo, un algoritmo de aprendizaje automático podría entrenarse para comparar los resultados en función de la fecha de publicación; cómo encajan ciertos libros entre sí en función de la secuencia o el género; el historial de búsqueda anterior de un usuario; los resultados más seleccionados por los usuarios, dada una consulta específica; qué palabras importan más en las descripciones frente a los títulos; y muchos más. Esto mejorará la capacidad del buscador para mostrar únicamente los resultados más relevantes, reduciendo la cantidad de resultados no deseados.
¿Cómo puede ayudar la IA?
Las respuestas pueden variar. Un buscador que beneficia al usuario también suele ser beneficioso para el host del sitio web. A medida que los algoritmos de aprendizaje automático muestran mejores resultados, es menos probable que los usuarios realicen varias búsquedas para encontrar lo que buscan. Obtener resultados óptimos también significa que se muestran menos libros irrelevantes al usuario, lo que también reduce la carga en el servidor. Los buscadores impulsados por la IA son, por lo tanto, más eficientes.
¿Cómo puede ayudar la IA?
Las respuestas pueden variar. Una dimensión útil de la PNL es el análisis de texto. Mediante algoritmos de aprendizaje automático, el editor puede identificar palabras, frases y oraciones que indican un determinado tono o contenido. El algoritmo aprende a agrupar libros similares en función del texto, en lugar de información como el género y el autor. Sin embargo, esta clasificación es solo la mitad del proceso. Un algoritmo de aprendizaje automático también necesitará correlacionar las clases de libros con los comportamientos y creencias de los clientes para recomendarles ciertos tipos de libros.
¿Cómo puede ayudar la IA?
Las respuestas pueden variar. Puede usar la IA junto con la PNL para permitir que un sistema automatizado de servicio al cliente comprenda el habla humana. Por lo tanto, un estudiante podrá indicar su problema (por ejemplo, "Necesito solicitar una transcripción") y el sistema podrá analizar inteligentemente esta información para determinar cuál es el problema. Además, la PNL impulsada por la IA puede entender el habla más compleja en aquellos casos en que centrarse en palabras clave no es suficiente para entender la intención de una persona. Por ejemplo, el sistema puede ser capaz de analizar instrucciones ambiguas basadas en el contexto, como un estudiante que dice "La clase que necesito tomar está completa", cuando anteriormente mencionaron los requisitos de una beca.
Identificación de los beneficios de la IA
¿Cómo explicaría los beneficios de la IA de visión artificial en esta situación?
Las respuestas pueden variar, ya que hay muchos beneficios potenciales. Uno de los más obvios es que ahorrará una cantidad increíble de tiempo. Sin el aprendizaje automático, uno o más humanos necesitarían observar y clasificar cada uno de los cientos de imágenes y videos. Incluso con la ayuda de un software tradicional que puede extraer formas y patrones básicos, esto todavía tomaría mucho tiempo. La IA puede procesar estas fotos mucho más rápido y debería ser capaz de determinar si las imágenes y los videos contienen vida silvestre y, con suficientes datos de entrenamiento, realizar las tareas de clasificación necesarias para identificar la vida silvestre. Esto puede reducir en gran medida la cantidad de esfuerzo humano involucrado en esa tarea, lo que permite a la organización poner a más personas en otras tareas e iniciativas relacionadas con la conservación. Otro beneficio es que las capacidades de resolución de problemas de la IA pueden superar las de los seres humanos. El algoritmo de aprendizaje puede ser capaz de identificar cosas sutiles sobre una foto que incluso una persona no puede, como identificar la migración u otros patrones exhibidos por la vida silvestre capturada por la cámara.
¿Cómo explicaría los beneficios de la IA en esta situación?
Las respuestas pueden variar, ya que los beneficios son numerosos. El sistema de IA podría entrenarse sobre la interacción de medicamentos y podría preparar la lista de interacción de medicamentos para que los farmacéuticos la verifiquen, ahorrando tiempo y dando a los farmacéuticos más tiempo para interactuar con los clientes y explicar las interacciones y cómo abordarlas. La IA puede incluso reducir los errores cometidos por los farmacéuticos cuando crean mapas de interacción, especialmente en lo que respecta a los nuevos medicamentos que entran en el mercado.
¿Cómo podría la IA beneficiar esta situación?
Las respuestas pueden variar. El sistema puede entrenarse en los patrones de solicitudes de surtido de recetas y debe ser capaz de predecir cuándo deben reabastecerse los medicamentos de manera más confiable, reduciendo la escasez y los costos de obtener medicamentos de mayor precio de farmacias vecinas.
Identificación de los desafíos y el uso adecuado de la IA
¿Cuáles son algunos problemas potenciales con esta herramienta de detección de fraude impulsada por IA?
Las respuestas pueden variar, ya que hay varios problemas potenciales. Uno de estos es que los datos de entrenamiento pueden estar sesgados. Puede representar un muestreo deficiente de la base total de clientes. Por ejemplo, los datos pueden centrarse predominantemente en personas de una raza específica, personas que viven en un lugar específico, personas en grupos de edad específicos, etc. El uso de estos datos sesgados para sacar conclusiones sobre nuevos datos, que pueden incorporar a otros grupos de personas, dará lugar a predicciones erróneas. Otro problema potencial es la privacidad: el proceso debe examinarse para ver si las personas pueden identificarse a través de sus datos, lo que puede entrar en conflicto con los requisitos de privacidad. También deben examinarse los reglamentos y otras leyes relacionadas con la equidad crediticia para asegurarse de que se cumplan.
¿Cuáles son algunos problemas potenciales con estos robots?
Las respuestas pueden variar, ya que hay varios problemas potenciales. Uno es el problema del desplazamiento laboral humano. Ahora que el personal humano ya no es necesario para el proceso de corte, la empresa puede reubicarlos para realizar otras tareas, reducir su salario o incluso despedirlos. Es probable que esto cause frustración y enojo. Un problema relacionado es que, en algún punto de la cadena, los humanos necesitarán interactuar con estos robots. También pueden sentir frustración por tener que trabajar junto a una máquina con la que no pueden relacionarse a nivel emocional. Otra cuestión es el costo. La robótica es ciertamente una propuesta costosa y no se garantiza que proporcione un retorno sustancial de la inversión. Por último, aunque los robots se diseñaron para abordar las preocupaciones de seguridad, es totalmente posible que representen un mayor riesgo de peligro. Si no están debidamente capacitados para tratar cambios inesperados en su entorno, pueden cometer errores que terminan causando daño.
Resumen
¿De qué manera cree que la IA afecta actualmente su vida?
Las respuestas variarán. Los estudiantes que interactúan regularmente en las redes sociales podrían creer que los anuncios e incluso las discusiones están siendo dirigidos de alguna manera por la IA. Pueden estar familiarizados con la percepción general de que "el algoritmo" controla lo que ven y no ven en sus redes sociales. También pueden pensar que muchos de los dispositivos cotidianos que usan, como los dispositivos "inteligentes", toman decisiones por ellos usando IA. Los estudiantes también pueden percibir que son afectados la IA de maneras menos visibles, como la forma en que las grandes instituciones como los bancos y las escuelas los ven de cierta manera debido a las conclusiones extraídas por la IA.
¿De qué manera cree que la IA afectará su vida en los próximos cinco o diez años?
Las respuestas variarán. Es probable que los estudiantes estén preocupados por sus perspectivas laborales futuras en un mundo que rápidamente adopta la automatización. Los cambios en el trabajo humano pueden llevarlos a rutas profesionales que de otra manera no habrían considerado. Además, los estudiantes pueden exhibir diferentes niveles de optimismo y pesimismo sobre cómo la IA estará aún más estrechamente entrelazada con su vida cotidiana.
Planificación de un flujo de trabajo del aprendizaje automático
¿Cómo podría traducir una instrucción como "Necesitamos mejorar la precisión en nuestro proceso" en un problema que pueda resolver a través de IA/AA?
Como profesional de la IA, desarrollará el conocimiento y la experiencia necesarios para determinar qué tipos de problemas se pueden resolver a través de IA/AA. Pero es posible que no siempre tenga conocimiento de dominio en el área donde se va a aplicar IA/AA. Comience por solicitar ayuda a aquellos más familiarizados con los procesos relevantes. A medida que los propietarios de procesos comparten lo que saben, debe reconocer las situaciones en las que IA/AA pueden desempeñar una función. Por ejemplo, si el proceso implica examinar los productos fabricados para ver si son defectuosos, una solución de visión artificial basada en IA puede ser capaz de aumentar drásticamente la precisión mediante la realización de una inspección visual cercana de los productos y verificar que están dentro de las especificaciones requeridas.
¿Cómo debería proceder?
El aprendizaje automático depende de los datos. Tener datos insuficientes a menudo provoca un rendimiento deficiente en un proyecto de aprendizaje automático. En algunos casos, puede trabajar con datos faltantes o incompletos. Por ejemplo, si la cantidad de datos que faltan es relativamente pequeña, es posible que pueda agregar a los datos o inventar valores para reemplazar los datos que faltan, pero necesita tener una cantidad razonable de datos buenos para empezar. La falta de datos buenos puede comprometer la calidad de los resultados, lo que lleva a una predicción menos precisa. Pero puede permitir algún acuerdo sobre la calidad de los resultados si los datos irregulares son un problema. Es posible que pueda utilizar un enfoque más simple que no sea tan preciso como un enfoque más complejo que requiera más datos. Además, hay formas de emplear varios algoritmos de AA para encontrar uno que compense mejor las pequeñas cantidades de datos o los conjuntos de datos irregulares. Otra opción es encontrar formas de obtener los datos que faltan. Por ejemplo, buscar un conjunto de datos público de código abierto o formar una asociación con otras organizaciones que tengan datos relevantes que pueda usar. También puede generar los datos mediante la realización de encuestas y grupos de enfoque. Por último, el flujo de trabajo de AA es iterativo. Si los datos que tiene no le permiten resolver el problema exactamente como lo formuló en un principio, es posible que pueda resolver un problema similar que produciría el mismo resultado final. Al reconsiderar la forma en que define el problema, podría llegar a una solución que pueda ser compatible con los datos que tiene.
Formulación del problema relacionado con el aprendizaje automático
¿Qué tipo de tarea debe realizar el modelo?
El modelo debe ser capaz de predecir un precio razonable para la casa en función de varios parámetros de entrada.
¿Qué tipo de experiencia (conjunto de datos de entrenamiento) necesitaría proporcionar para que el modelo pudiera aprender a poner precio a una vivienda?
El modelo de aprendizaje automático necesita acceso a datos históricos de ventas, como el precio por el que se vendió la casa, cuánto tiempo estuvo la casa en el mercado antes de venderse y varias características de la casa, como su tamaño, número de dormitorios, baños, ubicación, etc. Dado que los precios, las preferencias de los clientes, las condiciones actuales del mercado y otras tendencias cambian, también deberá proporcionar acceso a información actualizada a lo largo del tiempo para evitar la obsolescencia del modelo.
Una vez que haya creado un prototipo de modelo de aprendizaje automático, ¿cómo podría evaluar el rendimiento del modelo (es decir, su capacidad para identificar un precio de venta óptimo)?
Puede entrenar el modelo utilizando un conjunto de datos que muestre el precio de venta real de las casas. Una vez que se ha entrenado el modelo, puede usar otro conjunto de datos (diferente del que usó para entrenar el modelo) para probar qué tan cerca está el modelo de predecir con precisión los precios reales de venta de esas casas.
Con el tiempo, después de que la compañía de bienes raíces haya comenzado a usar la herramienta, ¿cómo podría evaluar si la nueva herramienta benefició a la empresa?
Puede utilizar las herramientas de análisis de datos para examinar qué tanto coincidían los precios de venta reales con el precio de lista. Puede realizar la misma comparación utilizando datos históricos de ventas de antes de que la empresa comenzara a usar la herramienta para determinar cómo cambiaron las cosas desde que se implementó la herramienta. También puede examinar cuánto tiempo permanecieron las casas en el mercado antes de que se vendieran. También puede analizar los datos de comentarios de los clientes para determinar cómo cambiaron las percepciones de los clientes (vendedores) desde que implementó la herramienta.
¿Es adecuada una solución de aprendizaje automático para este problema?
Sí. Esto parece ser un problema estadístico, el cual es adecuado para el aprendizaje automático. Los patrones y tendencias que determinan un precio adecuado cambiarán con el tiempo. Mientras que un programador podría ser capaz de programar una aplicación de software tradicional para proporcionar buenas estimaciones de precios, se deberá actualizar el programa con el tiempo para abordar las tendencias cambiantes. Un modelo de aprendizaje automático puede actualizarse automáticamente a medida que se agregan datos históricos y surgen nuevos patrones.
Selección de un resultado derivado del aprendizaje automático
¿Qué tipo de resultado buscaría en este ejemplo?
Puede utilizar algoritmos de clasificación para determinar si las piezas son aptas o defectuosas.
¿Qué tipo de resultado buscaría en este ejemplo?
La regresión podría utilizarse para realizar una predicción basada en un historial de las mediciones de calidad de producción. Por otro lado, la clasificación también podría utilizarse para identificar las partes que casi alcanzaron el umbral de defectos. Ambos enfoques podrían utilizarse en conjunto para mejorar la calidad de las predicciones.
Resumen
¿Qué tipo de problemas le gustaría resolver mediante soluciones de IA y AA?
Hay muchas posibilidades de cómo puede aplicar la IA y el AA, por lo que las respuestas variarán dependiendo de la naturaleza de sus intereses y aspiraciones.
¿Cuál de las herramientas de software de AA le interesa más? ¿Con cuál ha trabajado antes?
Las respuestas variarán. Es posible que haya utilizado Python u otros lenguajes de codificación. Si estudió estadística, es posible que haya utilizado herramientas como R. También puede tener experiencia como consumidor con CPU, GPU y plataformas de computación en la nube.
Resumen
¿Qué tipo de tareas de transformación cree que serán aplicables al tipo de datos con los que prevé trabajar?
Las respuestas variarán dependiendo de la naturaleza de los datos. Algunas tareas, como la conversión y desduplicación de tipos de datos, tienden a ser universales. La transformación de texto y la representación de imágenes son más especializadas y pueden o no aplicarse a sus proyectos del mundo real.
¿Qué formato planea utilizar para cargar los datos preparados?
Las respuestas variarán. La elección del formato final depende de muchos factores, como la naturaleza y el tamaño de los datos, la familiaridad del profesional con los formatos y los recursos disponibles. La carga de datos en bases de datos es común entre proyectos más grandes o proyectos que tratan con datos confidenciales, mientras que los proyectos más pequeños pueden funcionar bien con la carga de datos en archivos binarios o de texto.
Examen de datos
¿Qué atributos crees que podrían tener una influencia en el precio?
Algunos atributos pueden parecer importantes desde una perspectiva de sentido común, como el tamaño del lote (sqft_lot), el tamaño del espacio habitable y si la propiedad está en la costa o tiene una vista. Otros como la ubicación (zipcode, lat y long) podrían ser significativos si corresponden a vecindarios caros. Otros atributos podrían tener una influencia sorprendente en el precio. Realizar análisis estadísticos le ayudará a revelar qué valores realmente se correlacionan con el precio.
¿Qué variable parece tener la correlación positiva más alta con price? ¿Cuál tiene la más baja?
La variable sqft_living tiene la correlación positiva más alta con price en ~0,7. La variable sqft_lot15 tiene la correlación positiva más baja con price en ~0,08.
Análisis de datos con mapas geográficos y mapas de calor
¿Qué patrones parecen existir con respecto a los precios de las viviendas y la ubicación?
Parece haber un grupo de casas costosas ubicadas alrededor de los lagos en Seattle y Bellevue (lago Washington y lago Sammamish). Pero también hay algunas casas costosas lejos de los lagos. Las casas menos costosas parecen estar ubicadas en áreas alejadas de Seattle y Bellevue, como la parte sur del condado (Federal Way, Auburn, Covington, Maple Valley y Enumclaw).
Resumen
¿Cuáles son algunos ejemplos de variables objetivo que podría encontrar al resolver problemas con IA?
Las respuestas variarán. Algunas variables de destino comunes pueden incluir: El precio de un producto o servicio, si alguien recomendará o no un producto o servicio, la presencia de una enfermedad, la cantidad de tiempo necesario para completar una tarea, la temperatura exterior, etc.
¿Qué tipos de visualizaciones de datos le parecen más interesantes y por qué?
Las respuestas variarán. Los estudiantes pueden encontrar ciertos tipos de gráficos más interesantes que otros según los tipos de datos con los que imaginan trabajar. Los diagramas de líneas, por ejemplo, son muy útiles para mostrar el cambio de una variable numérica como el precio a lo largo del tiempo. Los diagramas de dispersión suelen ser la opción preferida para comparar la relación entre dos variables numéricas. Los gráficos de barras se utilizan frecuentemente para comparar las frecuencias de las variables categóricas, como qué color de automóvil es más popular. Los mapas geográficos pueden hacer que los datos basados en la ubicación sean mucho más interesantes visualmente y más fáciles de interpretar.
Identificación de algoritmos de aprendizaje automático
¿Cuál de los siguientes algoritmos de aprendizaje automático sería el más adecuado para resolver este problema?
- SARSA
- Naïve Bayes
- Agrupación en clústeres k-means
- Regresión lineal
¿Cuál de los siguientes algoritmos de aprendizaje automático sería el más adecuado para resolver este problema?
- Agrupación en clústeres k-means
- Regresión lineal
- Bosque aleatorio
- Máquinas de vectores de soporte (SVM)
¿Cuál de los siguientes algoritmos de aprendizaje automático sería el más adecuado para resolver este problema?
- ARIMA
- Naïve Bayes
- Análisis de clases latentes
- Regresión lineal
¿Cuál de las siguientes condiciones es verdadera cuando un modelo se sobreajusta a los datos de entrenamiento?
- El modelo debe volver a entrenarse en un conjunto de datos completamente nuevo.
- El modelo no puede generalizar bien cuando se le presentan datos nuevos.
- El modelo es demasiado simple para ser útil a la hora de realizar predicciones.
- El modelo funciona de forma óptima y no se puede seguir mejorando.
¿Cuáles de las siguientes son las técnicas utilizadas para tomar muestras de un conjunto de datos para mejorar su rendimiento? (Elija 2 respuestas).
- Validación cruzada de k-means
- Configuración de hiperparámetros
- Método de retención
- Estandarización
Prueba de una hipótesis
En el ejemplo dado, ¿cuál es la hipótesis nula específica?
- El modelo no es más eficaz en el diagnóstico del cáncer que un médico humano.
- El modelo es más eficaz en el diagnóstico del cáncer que un médico humano.
- El modelo tiene exactamente el mismo nivel de efectividad que un médico humano en el diagnóstico de cáncer.
- El modelo es menos eficaz en el diagnóstico del cáncer que un médico humano.
¿Qué sugiere esto sobre la hipótesis nula?
- Los profesionales no pueden confiar en rechazar la hipótesis nula.
- Los profesionales pueden confiar en rechazar la hipótesis nula.
- Los profesionales pueden confiar en aceptar la hipótesis nula.
- Los profesionales no pueden rechazar ni dejar de rechazar la hipótesis nula.
¿Qué sugiere esto acerca de cómo podría aparecer la media dentro de estos intervalos de confianza?
- El 5 % de los pacientes con cáncer tienen entre 54 y 62 años.
- El 95 % de los pacientes con cáncer tienen entre 54 y 62 años.
- Existe un 95 % de probabilidades de que la media de la población esté entre los 54 y los 62 años.
- El 95 % de los intervalos de confianza contienen la media de la población.
¿Qué tipo de prueba de hipótesis sería la más adecuada en esta situación?
- Prueba de chi cuadrado
- Prueba t
- Prueba z
- prueba A/B
¿Por qué es tan importante probar una hipótesis a través de un enfoque de diseño experimental para el proceso de aprendizaje automático?
Las respuestas pueden variar, pero como su nombre lo indica, le permite experimentar con sus modelos para identificar y producir de manera efectiva el mejor modelo para sus necesidades. Probar una hipótesis puede aumentar la cantidad de confianza que tiene que un modelo logre sus objetivos.
Resumen
¿Qué factores cree que son más importantes a la hora de seleccionar un algoritmo de aprendizaje automático?
Las respuestas variarán. Algunos estudiantes pueden poner un mayor énfasis en la habilidad final de un modelo. Sin embargo, la mayoría de los estudiantes notarán los límites prácticos del tiempo y los recursos, por lo que en su lugar pueden priorizar el tiempo de entrenamiento. Algunos estudiantes también pueden estar preocupados por lo explicable que será un modelo, por lo que es posible que quieran buscar un algoritmo más simple que evite el problema de la caja negra. Otro factor importante en el que los estudiantes pueden enfocarse es si el algoritmo está realmente disponible en una herramienta que ya conocen o planean aprender.
Piense en un problema que le interese resolver con el aprendizaje automático. ¿Cómo podría redefinir ese problema como una hipótesis que puede probar?
Las respuestas variarán. La naturaleza de la hipótesis dependerá del problema que el estudiante esté tratando de resolver. Un ejemplo es el problema de crear compañeros de IA efectivos en un videojuego cooperativo. La hipótesis podría ser que un modelo de aprendizaje automático guíe el comportamiento del compañero de IA de tal manera que sea mucho más capaz de ayudar al jugador a lograr la victoria que un compañero de IA programado para comportarse al azar o programado para simplemente llevar a cabo instrucciones predefinidas. Incluso puede apuntar más alto y plantear la hipótesis de que su modelo es capaz de engañar a los jugadores haciéndoles creer que su compañero de IA es en realidad una persona real. En última instancia, sin importar el escenario, los estudiantes deben pensar en la mejor manera de resolver un problema con el aprendizaje automático que sin él; donde "mejor" es una cualidad específica y mensurable.
Entrenamiento y ajuste de modelos de regresión logística
Teniendo en cuenta lo que sabe sobre el conjunto de datos hasta el momento, ¿qué características cree que podrían influir en las tasas de supervivencia?
Las respuestas pueden variar. El nivel socioeconómico de un pasajero (Pclass y Fare) puede correlacionarse con la forma en que se priorizó el rescate de ese pasajero en comparación con otros. Age podría también ser un factor, ya que los pasajeros mayores pueden haber sido más lentos para huir del peligro. SibSp, Parch o SizeOfFamily también podrían influir en las tasas de supervivencia, ya que los pasajeros que viajaron solos pueden no haber recibido la misma cantidad de ayuda durante los intentos de rescate que los que viajaron con sus seres queridos. Dada la directiva de "las mujeres y los niños primero", SexEncoding también podría influir en la tasa de supervivencia.
Resumen
¿Qué tipo de datos con los que podría estar interesado en trabajar sería útil para la clasificación?
Las respuestas variarán. La clasificación se puede aplicar a muchos casos de uso, incluidos, entre otros: la identificación de documentos y otros objetos falsificados; el diagnóstico de enfermedades en pacientes dados sus antecedentes médicos; predecir cuándo fallarán los dispositivos electrónicos dadas ciertas condiciones; determinar qué productos sugerir a los clientes en función de su historial de compras; y así sucesivamente.
Dados los conjuntos de datos que le interesan y los problemas de clasificación que está intentando resolver, ¿qué métricas de evaluación cree que serían más útiles para ajustar un modelo de clasificación?
Las respuestas variarán. Esto dependerá de los datos y del dominio del problema. La precisión es quizás la métrica más simple y común, pero a menudo es engañosa y arrulla a las personas en un falso optimismo sobre su modelo. Aun así, para algunos problemas, la precisión puede ser lo suficientemente buena. Los modelos entrenados en conjuntos de datos desequilibrados pueden estar mejor con métricas como la precisión y la recuperación, especialmente en aplicaciones críticas como la atención médica, donde la elección de la métrica puede necesitar alinearse con preocupaciones éticas altamente confidenciales. No hay una métrica objetivamente “mejor” para usar en todos los casos, por lo que generalmente se reduce al juicio del profesional.
Resumen
¿Qué tipo de datos con los que podría estar interesado en trabajar sería útil para la regresión?
Las respuestas variarán. La regresión se puede aplicar a muchos casos de uso, incluidos, entre otros: predecir los precios del mercado de valores; predecir la puntuación final de un juego; identificar la dosis correcta del medicamento o el nivel de tratamiento para un paciente dado su historial médico; la previsión de las condiciones atmosféricas que podrían indicar cambios en el tiempo o el clima; y así sucesivamente.
Dados los conjuntos de datos que le interesan y los problemas de clasificación que está intentando resolver, ¿qué métricas de evaluación cree que serían más útiles para ajustar un modelo de regresión?
Las respuestas variarán, pero en su mayor parte, métricas como MSE y MAE son la forma preferida de identificar el costo de un modelo de regresión. Algunos estudiantes pueden preferir obtener la versión raíz de MSE para que los resultados sean más interpretables. Otros estudiantes pueden confiar en R2 a pesar de ser menos ideal, ya que es la métrica de puntuación predeterminada en muchas herramientas de ciencia de datos y el resultado es relativamente fácil de interpretar.
Entrenamiento y ajuste de modelos de clústeres
¿Cómo se formaron los clústeres con respecto a la ubicación?
Cada clúster parece ser su propio cuadrante en el mapa; el clúster 0 representa el sureste, el clúster 1 representa el suroeste, el clúster 2 representa el noroeste y el clúster 3 representa el noreste.
Evaluación de modelos de clúster
¿Cree que este modelo es adecuado para resolver el problema de recomendar casas similares a compradores que expresaron interés en una casa específica? ¿Por qué o por qué no?
Las respuestas variarán. Dada su naturaleza no supervisada, es muy difícil evaluar el rendimiento de un modelo de agrupación en clústeres. Sus mejores herramientas son saber lo que espera del modelo y realizar análisis de agrupación en clústeres. En este caso, el número de clústeres no es muy compatible con el conocimiento del dominio; en otras palabras, no hay un número determinado de grupos en los que las casas deban incluirse. Sin embargo, se podría argumentar que más clústeres serán útiles para los agentes de bienes raíces, ya que reduciría el número de viviendas seleccionadas. Aun así, es posible que tenga que confiar en métodos de análisis como el análisis de siluetas y los diagramas de codo. También puede encontrar valor en el entrenamiento de un modelo en algo más que las seis características identificadas anteriormente o quizás un conjunto diferente de características. Puede determinar que algunas características son más importantes que otras, lo que podría influir en las decisiones de agrupación en clústeres.
Resumen
¿Qué tipo de datos con los que podría estar interesado en trabajar sería útil para la agrupación en clústeres?
Las respuestas variarán. La agrupación en clústeres se puede aplicar a muchos casos de uso, incluidos, entre otros: agrupar a las personas para comunicarse con ellas de diferentes maneras; categorizar multimedia como imágenes y videos por los atributos que comparten; separar el comportamiento legítimo del usuario del comportamiento potencialmente malicioso en un perfil en línea; colocar organismos en rangos taxonómicos; y así sucesivamente.
Dados los conjuntos de datos que le interesan y los problemas de agrupación en clústeres que está intentando resolver, ¿qué métricas de evaluación cree que serían más útiles para determinar el número óptimo de clústeres?
Las respuestas variarán. No hay necesariamente una “mejor” métrica para el análisis de clústeres. Los enfoques como el análisis de punto de codo y el análisis de silueta tienden a ser los más comunes, ya que ambos pueden ayudarle a visualizar el proceso de agrupación en clústeres. Aun así, los estudiantes pueden preferir medidas estadísticas como la suma de cuadrados entre clústeres (BCSS) y la suma de cuadrados dentro de los clústeres (WCSS) si desean medir la separación y compacidad de los clústeres de forma independiente. A menudo, el mejor enfoque es utilizar múltiples métodos de análisis para ver si llegan a conclusiones similares o contradictorias.
Aseguramiento de la seguridad y privacidad de los datos de IA/AA
¿Qué conocimiento e información debe tener para responder eficazmente a las preguntas de la junta sobre cuestiones de seguridad y privacidad relacionadas con los datos utilizados en las soluciones?
Debe saber qué información se incluye en los datos que utiliza la solución.
La junta está preocupada por cumplir con las regulaciones PCI DSS e HIPAA. ¿Cuáles de esas leyes se aplican a los datos utilizados en la solución de IA de vivienda?
PCI DSS es una regulación que rige la seguridad y la privacidad de los datos de las tarjetas de crédito y no hay datos de tarjetas de crédito utilizados en los datos de vivienda, por lo que esa regulación no se aplica. Del mismo modo, HIPAA rige la seguridad y la privacidad de la información relacionada con la atención médica. Los datos de vivienda no contienen información de atención médica, por lo que esta regulación no se aplica. El RGPD y CCPA son regulaciones mucho más amplias que abarcan cualquier tipo de información personal, incluidos nombres y direcciones.
La junta también está preocupada por cumplir con las regulaciones RGPD y CCPA. ¿Cuál de esas leyes se aplica a los datos de vivienda?
El RGPD abarca a las personas que son ciudadanos de la Unión Europea y CCPA abarca a los ciudadanos del estado de California. Los datos de vivienda cubren el área de Seattle, Washington, por lo que a primera vista, parecería que las leyes no se aplican. Sin embargo, dado que las leyes se aplican a cualquier ciudadano de las regiones donde se promulgan las regulaciones, si los datos contenían información de ciudadanos de esas regiones, (si, por ejemplo, alguien de la UE o de California estuviera comprando una casa en Seattle) las leyes se aplicarían.
Un miembro de la junta hizo la siguiente pregunta: Dado que un tercero suministra los datos de la solución de vivienda, ¿necesita preocuparse por la aplicabilidad de las leyes y regulaciones? Explique su respuesta.
La respuesta es sí; no importa de dónde provengan los datos. Si lo utiliza, usted es responsable de cumplir con las leyes y regulaciones aplicables.
¿Qué elementos deben componer un plan de seguridad y privacidad?
Un plan de seguridad y privacidad debe documentar quién es responsable de mantener los datos seguros, cómo se controlará el acceso a los datos y cómo la infraestructura apoyará la seguridad de los datos a medida que se almacenan y transmiten. También debe documentar cualquier riesgo para los datos, incluidos los riesgos generados por la solución de IA. Debe documentar los requisitos legales o reglamentarios que se deben cumplir y si los pasos seguirán siendo viables cuando se usen nuevos datos en la solución.
Si hay información personal en los datos, ¿qué se puede hacer para anonimizarla?
Puede reemplazar la información personal, omitir los datos, generalizar valores específicos con valores menos específicos y usar la perturbación para cambiar aleatoriamente los valores que llevarían a la identificación de individuos.
Cómo establecer directivas éticas para proyectos de IA/AA
Cuando se trabaja con datos, ¿cuándo podría el sesgo de prejuicio convertirse en un problema y qué problemas pueden crear los sesgos de prejuicio?
El sesgo de prejuicio se puede volver un problema cuando los datos de entrenamiento están influenciados por estereotipos culturales o de otro tipo. Si los datos de entrenamiento están sesgados, el modelo puede producir resultados que también estén sesgados.
¿Por qué el uso de código postal como atributo de datos para la aprobación de préstamos podría introducir sesgo?
Porque un código postal puede, intencionalmente o no, ser un indicador de raza, color o religión si una gran población de una clase protegida vive en ese código postal. Utilizar únicamente atributos directamente aplicables como los ingresos puede ser una mejor idea.
En términos generales, ¿cómo se pueden utilizar los datos que se recopilan para un propósito no deseado?
Es posible que los datos recopilados puedan ser analizados por otra solución de IA/AA y por los patrones encontrados que invaden la privacidad de las personas de las que se recopilan.
La junta desea que cree una directiva ética relacionada con el acceso y el uso de los datos para el proyecto de IA. ¿Qué recomendaría que incluya la directiva?
La directiva debe incluir la revisión de qué atributos son justos y apropiados para usar al entrenar un modelo. También debe incluir información sobre cómo usar cualquier dato de PNL y si los bots de chat deben tener acceso a ellos. También debe especificar restricciones de seguridad y privacidad para las personas, la tecnología y los procesos para garantizar que los datos no se puedan usar con fines no deseados. El acceso a los datos y su uso deben auditarse en relación con la directiva de ética de forma regular.
Comunicación de resultados
Para informar de manera efectiva sobre su solución de IA, ¿qué debe saber sobre la audiencia del informe?
Usted debe ser consciente del nivel de conocimiento de su audiencia y de sus necesidades y expectativas.
¿Cuáles son los dos elementos críticos para comunicar información de su proyecto de manera efectiva?
Asegurarse de que los conocimientos son relevantes para los objetivos del proyecto y proporcionar contexto sobre cómo llegó a ellos y cómo se aplican al objetivo del proyecto.
¿Cómo puede evitar que su proyecto de IA y sus resultados sean una "caja negra"? ¿Por qué es importante hacer esto?
Asegurándose de que los resultados del modelo sean explicables. Ser capaz de explicar por qué el modelo llegó a una conclusión o generó cierta información le ayudará a entender si el modelo funciona correctamente y optimizarlo.
¿Cuáles son los cinco componentes que debe incluir en la presentación de los resultados del modelo?
Un resumen ejecutivo, una descripción del problema que la solución se propuso abordar, una descripción de los datos utilizados en la solución, la hipótesis que formuló para llegar a la solución, y la solución y la información revelada por el modelo.
¿Por qué debería considerar la visualización de los resultados?
Las visualizaciones son una mejor opción para transmitir patrones en números y pueden ser más fáciles de entender e interpretar para las audiencias sin conocimientos técnicos.
Resumen
Considere los tipos de proyectos de IA en los que le gustaría trabajar. ¿A qué audiencias presentaría los resultados de estos proyectos?
Las respuestas variarán. Dado que los estudiantes están comenzando su viaje de IA, probablemente se sentirían más cómodos comenzando con una pequeña audiencia de personas que conocen, como amigos o familiares. A medida que desarrollan sus habilidades, pueden tener más confianza en presentar sus resultados a los maestros y compañeros de clase. Para aquellos estudiantes que tarde o temprano entran en una carrera en IA, es probable que tengan que presentar sus resultados a los líderes empresariales y otras partes interesadas en una organización.
¿Qué tipo de problemas en relación con la seguridad, la privacidad y la ética puede pensar que afectarían a los proyectos de IA que le interesan?
Las respuestas variarán. Los desafíos de seguridad y privacidad son muy comunes en cualquier proyecto que incorpore datos de usuario, particularmente PII. Los desafíos éticos relacionados con el sesgo también son comunes en los datos demográficos que indican el estado, la clase u otros grupos de identidad. Incluso si un proyecto no usa directamente datos confidenciales sobre las personas, la forma en que se aplican los resultados del proyecto puede tener implicaciones éticas, de seguridad y de privacidad. Por ejemplo, un modelo que determina la forma óptima de enrutar el transporte público no necesariamente usará los datos de las personas para tomar sus decisiones, pero aun así puede terminar desfasando a las personas que viven en ciertas áreas.
Descripción de las pruebas de modelos para aplicaciones
A los profesionales de IA/AA que diseñaron el modelo de AA les preocupa que el modelo pueda cambiarse durante la transición del diseño a la producción. ¿Cómo puede suceder esto y cómo se puede mitigar este problema?
Las respuestas variarán, pero podrían incluir la idea de que los errores de traducción de código pueden crear esta situación. A medida que los desarrolladores reescriben el código para el entorno de producción, es posible que no entiendan las complejidades del modelo de datos, sus características o los resultados que la solución está diseñada para generar. Probar el modelo en producción y comparar los resultados de las pruebas con los generados por el modelo de diseño puede verificar que el modelo funciona según lo previsto.
El equipo de TI está preocupado por el mantenimiento continuo y el soporte del código de pegamento. ¿Qué es el código de pegamento, cómo se usa y qué puede hacer para aliviar las preocupaciones del equipo de TI sobre su soporte?
El código de pegamento es un término utilizado por los desarrolladores de software para scripts, archivos intermedios y otro software utilizado para conectar aplicaciones que deben integrarse como parte de una solución general. El código de pegamento y las operaciones que realizan pueden ser inconexos y diferentes y puede implicar un gran número de scripts y otros elementos de código que dificultan su soporte. Para mitigar los problemas de soporte con el código de pegamento, todo el código de pegamento debe estar documentado y comprobado para verificar que es bien entendido por los ingenieros de software y desarrolladores que realizan soporte a la solución y que cumple con los requisitos de seguridad, normativos y éticos de la solución.
El equipo de ingeniería de software le dio una serie de planes de prueba para la próxima implementación a la jefa de proyecto. Admite que no estaba lista para los gastos relacionados con las pruebas y quiere saber cuál es el objetivo y los beneficios de las pruebas unitarias.
El objetivo de las pruebas de software es determinar si el código y la solución hacen lo que están diseñados para hacer. Los beneficios de las pruebas unitarias de software incluyen mejorar la calidad del código, hacer que el software sea más ágil, reducir el impacto de los errores, facilitar las actualizaciones del código, proporcionar documentación para el código, simplificar la verificación del software, mejorar el diseño del software y reducir los costos generales.
El equipo ejecutivo también hizo una pregunta. Quieren saber cómo pueden comprobar que el modelo de AA sigue funcionando como debería si el modelo se actualiza alguna vez en el futuro.
Las pruebas diferenciales pueden comprobar que una solución de AA funciona según lo previsto mediante la ejecución de pruebas tanto en el nuevo modelo como en el modelo existente para ver la diferencia en los resultados y comprobar que el modelo actualizado sigue cumpliendo los requisitos establecidos.
Descripción de los requisitos de soporte y monitoreo para las soluciones de IA/AA
¿Qué tipos de problemas de soporte y mantenimiento pueden surgir en las soluciones de AA?
Las respuestas variarán, pero pueden incluir: pueden surgir problemas de dependencia de características porque las características están estrechamente entrelazadas en sistemas complejos; también puede haber dependencias de datos que se deben supervisar. Además, se debe realizar un seguimiento de cualquier cambio en el modelo para que se pueda validar su rendimiento. También debe haber un mecanismo para detectar errores, defectos y sesgos en el modelo y los resultados que produce. Por último, los resultados del modelo deben ser reproducibles para los usuarios (no una caja negra) y los resultados deben explicarse y justificarse.
¿Qué tipos de directivas necesitamos para garantizar que la solución siga funcionando correctamente?
Las directivas deben incluir directivas de datos que describan los requisitos de datos, directivas operativas que documenten cómo funciona el modelo, su uso previsto y sus limitaciones y lo que se requiere para que el modelo funcione correctamente y directivas de resultados que abarquen cuándo y cómo los seres humanos revisarán los resultados y que establecen restricciones en el ámbito del uso de los resultados.
¿Qué tipos de problemas continuos en el modelo debe supervisar el equipo de producción?
El equipo debe supervisar el sesgado de datos, comprobando los datos de entrada para asegurarse de que cumplen los requisitos para que el modelo funcione correctamente. También deben supervisar la coherencia del modelo para asegurarse de que el modelo produce resultados según los esperado. Como la solución permanece en producción, el modelo también debe monitorearse para mantener la precisión y evitar la obsolescencia.
Comunicación de las capacidades y limitaciones del aprendizaje automático
El equipo de atención médica preguntó cómo se va a utilizar la solución. ¿Qué debe incluir el director del proyecto en la respuesta?
Las respuestas variarán, pero deben incluir una descripción del problema para el que se diseñó la solución, así como una explicación de los datos que utiliza para resolver los problemas, incluidas las características de los datos que son importantes para generar resultados. Además, el director debe describir los beneficios que se espera que proporcione la solución y los desafíos que puedan presentarse durante el uso.
Además de describir el uso previsto para el modelo, ¿qué más debe comunicar el director del proyecto?
Cualquier limitación para el modelo utilizado para realizar estimaciones. Por ejemplo, si el modelo de atención médica no incorpora datos sobre embarazos, entonces el modelo no debe usarse para crear planes de tratamiento para mujeres embarazadas.
La jefa del departamento que utilizará la solución está preocupada por incorporar la solución sin problemas en las operaciones diarias de su equipo. ¿Qué puede decirle el director del proyecto para ayudar a facilitar una transición sin problemas hacia el uso de la solución?
El director puede explicar cómo controlar las expectativas para el equipo que utilizará la solución. Esto incluye una comunicación transparente sobre propósito previsto, el uso, las limitaciones y los beneficios de la solución, para que las personas que la van a usar puedan verla como una herramienta útil.
Resumen
¿Qué desafíos sobre la implementación de proyectos de IA en producción le resultaron más sorprendentes y por qué?
Las respuestas variarán, pero pueden incluir la necesidad de pruebas durante y después de la implementación, la necesidad de comunicar las capacidades y limitaciones de los modelos, o la cantidad de monitoreo, seguimiento y alertas necesarias.
Dado que es necesario comunicar mucha información sobre los proyectos de IA, los datos y los modelos utilizados, ¿cómo podría abordar los proyectos de IA para garantizar que esta información está bien documentada?
Las respuestas variarán, pero pueden incluir hacer que el equipo del proyecto mantenga diarios, crear requisitos de documentación del proyecto y crear un equipo de supervisión.