Ir al contenido principal

Diagrama de temas

    • 10.3 Respaldar y monitorear soluciones de IA/AA

      • Desafíos potenciales de la producción


        Una vez que un modelo se implementa correctamente en un entorno de producción, tendrá todos los desafíos normales de cualquier solución de software, incluida la conexión, el mantenimiento, la protección y la supervisión del código y los datos. Además, el equipo de producción puede enfrentar una serie de desafíos específicos de las soluciones de AA, que incluyen:

        - Dependencias de características. También llamado entrelazamiento o el problema de “cambiar cualquier cosa lo cambia todo”, este problema refleja la complejidad de la selección de características en esos datos y cómo las características seleccionadas contribuyen a generar los resultados deseados. Es posible que las características utilizadas por el modelo deban cambiar en determinados entornos de producción. En ese caso, debe realizar un seguimiento de los cambios en las características utilizadas por el modelo y ejecutar pruebas para asegurarse de que el modelo siga generando resultados de calidad después de los cambios de características y el reentrenamiento.
        - Dependencias de datos. Cada solución de AA tiene código que debe permanecer estable y datos que pueden cambiar con el tiempo. Los datos de una solución en producción pueden ser menos útiles o menos disponibles con el tiempo, lo que reduce la capacidad de la característica o características basadas en esos datos para contribuir a los resultados. En cualquier caso, es posible que las características que se usan para generar resultados deban cambiar. Asegúrese de realizar un seguimiento de los cambios en las características utilizadas por el modelo y de ejecutar pruebas para asegurarse de que el modelo siga generando resultados de alta calidad después de los cambios de datos.
        - Seguimiento de cambios en la configuración del modelo. Los modelos deberán actualizarse y estas actualizaciones pueden producirse como parte de una revisión. Las revisiones pueden ocurrir cada pocos meses, o pueden hacerse de forma iterativa cada pocos días, ya que un modelo está optimizado para las condiciones cambiantes. Cada cambio en el modelo lo aleja de su concepto e implementación originales. Este es un ejemplo de deriva de concepto, también llamada deriva de modelo. Si bien esto está bien y en muchos casos se espera, se debe realizar un seguimiento de cada cambio y documentar las razones detrás de él para comprender las razones detrás de los cambios y permitir la supervisión y el gobierno de las soluciones de aprendizaje automático reguladas o escrutadas.
        - Detección de errores del modelo. Las pruebas de software están diseñadas para detectar problemas en el código que se conecta a los datos y otras aplicaciones, pero las pruebas tradicionales no detectarán si se ha omitido una característica del modelo, si se ha implementado una versión anterior del modelo o si los datos de entrenamiento no son válidos. Los profesionales de IA/AA y los expertos en el dominio deben evaluar y verificar el modelo, su proceso, los resultados después de implementar el modelo, los datos utilizados para entrenar el modelo y cuándo el modelo está en proceso. Debe verificarse para garantizar la validez, la transparencia y la gobernanza.
        - Reproducibilidad. Para evitar que una solución de AA se convierta en una caja negra y para proporcionar transparencia y supervisión sobre cómo el modelo llega a los resultados, las estimaciones deben ser reproducibles dados los mismos datos y condiciones. Esto es especialmente cierto en los campos e industrias fuertemente regulados. Para ayudar a garantizar la reproducibilidad y la transparencia de la configuración, se debe realizar un seguimiento y documentar los cambios en el software de la solución, las dependencias, el control de versiones, la recopilación de datos, las características y las canalizaciones de forma que se permita el examen y la supervisión.

        Está claro que la creación de una solución de AA requiere un equipo con diversos conjuntos de habilidades. Este requisito continúa después de que el modelo se haya puesto en producción. Es poco probable que una sola persona tenga un conocimiento profundo sobre cómo funciona todo el sistema; en su lugar, requerirá un equipo de personas para monitorear y mantener la solución para que continúe funcionando correctamente dentro del ecosistema de las aplicaciones con las que está integrada.

        Información adicional

        Para obtener información adicional sobre problemas específicos del software de aprendizaje automático, consulte este sitio.

      • Requisitos de supervisión


        A medida que las organizaciones de todo tipo comienzan a usar soluciones de IA y AA como parte de sus operaciones, se requiere supervisión y gobernanza para garantizar que las soluciones se usen de manera correcta, ética y de forma que beneficien a las personas en lugar de perjudicarlas. Muchas aplicaciones y sistemas computacionales utilizan datos que deben supervisarse, pero las soluciones de IA y AA tienen requisitos únicos porque a menudo dependen y procesan grandes cantidades de datos. Los desafíos potenciales de las soluciones de IA y AA que ya ha visto, incluidos los problemas éticos, de privacidad, sesgo, seguridad, legales, de contexto y de caja negra, hacen que sea aún más importante validar y controlar estas soluciones.
        Para ayudar a mitigar los riesgos de las soluciones de IA y AA, se deben crear las siguientes directivas de supervisión:

        - Directivas de datos. Estas directivas deben describir la calidad, confiabilidad, relevancia y seguridad necesarias de los datos que utilizará el modelo. También deben exigir la documentación y validación de los datos y el origen de estos.
        - Directivas operativas. Los modelos de IA y AA identifican relaciones y correlaciones en los datos para generar resultados, por lo que las organizaciones necesitan directivas operativas que documenten las características clave de los datos y cómo se procesan para generar resultados. Esto evita que el modelo se convierta en una caja negra. La documentación también debe incluir la teoría detrás del modelo y su finalidad prevista. Además, la base de los resultados se puede determinar, explicar y justificar en función de los requisitos, las regulaciones y las restricciones éticas. Las directivas operativas que proporcionan supervisión también deben incluir análisis sobre si el modelo es adecuado y cumple con su finalidad prevista.
        - Directivas de resultados. Los resultados de los modelos de IA/AA se utilizan a menudo como entradas para otras aplicaciones o la toma de decisiones humanas. Las directivas de resultados, que a veces se denominan directivas de salidas, deben proporcionar una estructura para la revisión humana, pautas para esa revisión y restricciones en el ámbito de las decisiones que los modelos pueden tomar sin revisión humana. Las directivas de resultados que proporcionan supervisión también deben incluir medidas para realizar pruebas periódicas de sesgo o impacto discriminatorio.

        Además, la estructura de supervisión debe estar bien definida y debe estar revisada por roles en una variedad de dominios de conocimiento, incluidos desarrolladores, especialistas en validación de modelos y usuarios de modelos. Las partes responsables de mitigar los riesgos deben estar identificadas claramente, así como las personas que tienen la responsabilidad general de la supervisión. Debe haber una cadena de responsabilidad que registre a cada persona responsable de algún aspecto del proyecto, en especial si esas responsabilidades cambian con el tiempo. En el caso de las soluciones de IA y AA, también es una buena idea incluir a los miembros del equipo con experiencia en la gobernanza, la privacidad y la protección de los datos, así como a las personas con experiencia en ética de la IA.

        El equipo de supervisión debe auditar periódicamente la calidad de la solución de AA, su uso, la entrada de datos (incluidos los requisitos de recopilación y consentimiento), los resultados que genera y la cadena de responsabilidad para validar que esta sigue cumpliendo con las expectativas de las partes interesadas en todos los frentes. Estas auditorías ayudarán a garantizar la rendición de cuentas sobre cómo se utilizan los datos y los resultados en una variedad de contextos a medida que la solución madura con el tiempo.

        Información adicional

        Para obtener información adicional sobre la supervisión de las soluciones de IA y AA, consulte este sitio.

      • Monitoreo y registro



        Si las pruebas garantizan que el modelo de AA y el sistema funcionan correctamente, la supervisión garantiza que siga funcionando correctamente en producción. Las soluciones de AA deben supervisarse tanto para los problemas del modelo de IA/AA como para los problemas operativos. El monitoreo inadecuado puede conducir a soluciones que sesguen los resultados, creen sesgos o dejen de agregar valor. Cuando las organizaciones usan soluciones de AA para actividades de misión crítica o reguladas, los errores de este tipo pueden ser costosos y problemáticos.

        - Sesgado de datos. Este tipo de supervisión puede ayudarle a comprobar que los datos que llegan cumplen los requisitos del modelo y las características que se usan para generar resultados. Si los datos se vuelven demasiado sesgados, el modelo puede producir resultados sesgados o no válidos. Esto puede deberse a un diseño deficiente del modelo, cambios en los datos desde el diseño hasta la producción, características de datos que faltan o dependencias de datos que faltan. Si no se pueden obtener mejores datos, es posible que sea necesario actualizar y volver a entrenar el modelo. Como ejemplo de datos sesgados, tenga en cuenta que cualquiera de los conjuntos de datos de vivienda (Boston o condado de King) podría volverse sesgado a medida que ingiere más datos con el tiempo, ya que ciertas entidades de vivienda pueden ser menos relevantes con el tiempo. Por ejemplo, las personas que recopilan los datos de vivienda ya no pueden asignar una grade a una casa, o pueden cambiar el esquema de calificación que utilizan.
        - Coherencia del modelo. Esta supervisión debe comprobar que el modelo produce los resultados esperados durante las fases de diseño, entrenamiento y producción. Por ejemplo, si un modelo entrenado en el conjunto de datos Titanic tiene una gran precisión durante el entrenamiento inicial, pero una baja precisión durante el ajuste, es posible que se haya cometido un error en el camino.
        - Exactitud y antigüedad del modelo. Es posible que un modelo de AA se vuelva menos efectivo para generar resultados valiosos. Esto puede deberse a cambios en el entorno, cambios en los comportamientos que invalidan la necesidad de resultados del modelo o malos actores que explotan la debilidad del modelo. El monitoreo de la precisión y la obsolescencia (a veces denominada pudrición del modelo) se puede realizar mediante el seguimiento y la verificación de la exactitud y precisión de los modelos. Además de comprobar que el modelo sigue siendo viable y no obsoleto, esta supervisión ayuda a demostrar el valor que la solución de AA proporciona a la organización. Por ejemplo, un modelo de precios de la vivienda podría volverse obsoleto si no se recopilan nuevos datos sobre las casas durante años, ya que el mercado de la vivienda siempre está cambiando.

        El registro es clave para la supervisión. Cualquier acción de procesamiento tomada por el sistema debe ser registrada para que pueda ser revisada por el equipo de supervisión. El registro se puede implementar como parte del diseño de software de la aplicación y mediante el uso de registros de eventos y del sistema en las plataformas que ejecutan la solución. Aunque el registro de datos suele ser fácil de hacer, el análisis de registros para obtener información suele ser más difícil. Examinar los datos consume mucho tiempo y es engorroso. Están disponibles aplicaciones de supervisión y registro de terceros que proporcionan características para registrar, buscar e identificar información importante de los archivos de registro.

        Al igual que con todas las aplicaciones y sistemas informáticos, se deben supervisar las características operativas como el rendimiento, la utilización de recursos informáticos y el tiempo de actividad del sistema. Como se indicó anteriormente, la complejidad de los modelos de AA crea requisitos de supervisión adicionales, entre los que se incluyen:


        Roles de miembro del equipo en la supervisión

        Varios miembros de un equipo de proyecto pueden ser responsables de monitorear algún aspecto de la producción, incluyendo:

        - Jefes de proyecto que son responsables de supervisar el costo y la programación asociados con el proyecto.
        - Gerentes de producto que son responsables de monitorear las nuevas características y componentes agregados al proyecto.
        - Directores de riesgos que son responsables de supervisar los riesgos para la seguridad de los activos del proyecto.
        - Gerentes de aseguramiento de la calidad que son responsables de monitorear los problemas de calidad que pueden afectar los resultados del proyecto.
        - Desarrolladores que son responsables de supervisar los detalles de un proyecto, incluida su base de código.

        Escalado de inferencia

        El escalado de inferencia se refiere al escalado vertical o descendente de recursos, a menudo hospedados en plataformas en la nube, para tener en cuenta los cambios continuos en los requisitos de predicción y estimación. En otras palabras, su sistema de IA puede ser llamado a hacer 100 predicciones un día, pero 100.000 predicciones al siguiente. Tal vez su aplicación de recomendación de productos se vuelve mucho más popular después de que un impulso de marketing se vuelve viral. Si acaba de crear la canalización de producción para tener en cuenta unos pocos cientos de predicciones al día, los sistemas back-end se sobrecargarían gravemente si eso se disparara repentinamente a 100.000 al día. Los algoritmos de escalado de inferencia supervisan los entornos de IA y adaptan automáticamente los recursos de hardware y software para satisfacer las necesidades del sistema de IA en producción.

        Información adicional

        Para obtener información adicional sobre la supervisión de soluciones de AA, consulte este sitio.

        Para obtener más información sobre administrar archivos de registro, consulte este sitio.

        Para obtener instrucciones sobre la administración de archivos de registro con herramientas, consulte este sitio.

      • Seguimiento y alertas de la métrica



        Los profesionales de IA supervisan una solución de AA mediante el seguimiento de las métricas que definen las actividades, eventos y circunstancias que los diseñadores y operadores consideran más críticos para que la solución funcione correctamente. Recuerde, estos tipos de métricas se denominan KPI. Algunos KPI deberían haberse identificado en el diseño y es probable que se agreguen otros cuando la solución pase a la producción. Aunque la revisión de los archivos de registro de la solución es necesaria por las razones descritas anteriormente, también se deben supervisar para detectar problemas mientras la solución procesa los resultados. Esto se hace eligiendo KPI, monitoreando esos KPI y visualizándolos en un panel u otra herramienta, para que los operadores y los miembros del equipo de supervisión puedan ver cómo funciona la solución casi en tiempo real.

        El equipo de supervisión debe seleccionar los KPI que se supervisarán para cada solución individual, pero, en general, se debe supervisar lo siguiente para cualquier solución de AA:

        - Latencia cuando los componentes de software acceden a la solución de aprendizaje automático. Realice un seguimiento de esto para asegurarse de que la solución responde a las solicitudes.
        - Uso y rendimiento de la CPU, la memoria y el almacenamiento mientras se realizan estimaciones. Esto garantiza que los recursos de proceso, memoria y almacenamiento sean adecuados para mantener una solución que funcione bien.
        - Valores de predicción medianos y medios con respecto a los plazos seleccionados. Esto ayuda a garantizar que la solución está realizando estimaciones dentro de los intervalos esperados. Si no es así, se deben examinar tanto los datos como el modelo en busca de errores para ver si el modelo se ha quedado obsoleto o si los datos han cambiado significativamente.
        - Valores de predicción mínimos y máximos. Esto también ayuda al equipo de supervisión a verificar que los resultados están dentro del rango esperado.
        - Desviación estándar durante un plazo seleccionado. Una vez más, esto ayuda a mostrar que la solución está generando resultados en el rango esperado.

        Además:

        Los profesionales de IA también pueden agregar KPI relacionados con los beneficios prometidos por la solución. Estos beneficios deberían haber sido definidos al principio del proyecto como parte de la hipótesis, y refinados y confirmados cuando los resultados se comunicaron a los patrocinadores del proyecto y la solución fue aprobada para entrar en producción. Estos pueden incluir ahorros económicos, ahorros de tiempo, resolución de problemas, reducción de errores, beneficios ambientales y beneficios de seguridad humana y comodidad.
        También es una buena idea realizar un seguimiento de los KPI relacionados con los desafíos de las soluciones de AA, y sus efectos en las personas y las comunidades también deben ser monitoreados. Los profesionales de IA deben esforzarse por garantizar que los problemas de sesgo, privacidad, seguridad, legales, de caja negra, éticos, de contexto o de uso apropiado no hayan surgido del uso de la solución.

        El seguimiento y la supervisión de estos KPI pueden ayudar al equipo de supervisión a obtener una visión integral del impacto que está teniendo la solución. Los KPI operativos deben ser monitoreados continuamente, mientras que los KPI relativos a los beneficios y desafíos deben ser discutidos por el equipo de supervisión a intervalos regulares mientras la solución está en uso. Quienes llevan a cabo la supervisión deben identificar oportunidades para optimizar los datos, los modelos y el sistema en general.

        Además de realizar un seguimiento de estos y otros KPI, es posible que los miembros del equipo de supervisión también deseen establecer umbrales que generen alertas cuando se superen. Por ejemplo, si tiene una solución de AA diseñada para aprobar solicitudes de tarjetas de crédito al instante, es posible que desee establecer una alerta para identificar cuándo se rechaza una persona con una puntuación de crédito alta, de modo que se pueda investigar ese resultado.

        El seguimiento y las alertas requieren un enfoque doble.

        1. En primer lugar, es necesario instrumentar el código de la solución. La instrumentación agrega código al software para generar información, denominada eventos, relacionada con el rendimiento operativo (métricas) mientras se ejecuta la aplicación.
        2. A continuación, las herramientas de terceros o personalizadas pueden capturar esta información, realizar un seguimiento de ella y mostrarla.

        Supervisión de salud de IA

        La supervisión de salud en el contexto de la IA se refiere al estado de la canalización de producción y a todo lo que contiene. Para evitar que los sistemas de IA se vuelvan obsoletos o se alejó demasiado de su propósito previsto, los algoritmos de supervisión de salud evalúan continuamente las métricas clave de esos sistemas en producción para identificar cualquier debilidad u otros problemas en la tubería. Por ejemplo, los algoritmos de supervisión de salud pueden detectar cuándo las nuevas predicciones de un modelo tardan más que un período de tiempo de línea base. De esa manera, puede recibir alertas sobre este tipo de problemas y puede actuar rápidamente para abordarlos.

        Herramientas de supervisión

        Prometheus® y Grafana® son dos soluciones populares de código abierto para monitorear y rastrear métricas y generar alertas.

        Prometheus es una suite de seguimiento y alertas de métricas de código abierto que permite el seguimiento de aplicaciones de software y datos dimensionales como el utilizado en las soluciones de AA. Ofrece potentes herramientas de consulta y alertas, así como integración con muchos sistemas de desarrollo, hardware, mensajería, seguimiento y bases de datos. En las soluciones de AA, Prometheus puede capturar métricas (que se generan mediante código instrumentado) sobre los datos de entrada y la generación de estimaciones a partir del modelo. Permite a los usuarios definir umbrales, establecer alertas para cuando se superen los umbrales y enviar notificaciones al equipo de supervisión u operaciones. Sus capacidades de consulta también le permiten analizar los datos que se recopilaron.
        Grafana, también de código abierto, le permite visualizar datos métricos en paneles robustos para el monitoreo "de un vistazo", lo que le permite realizar seguimientos de registro y generar informes visuales de las operaciones del sistema. También admite la integración con muchas aplicaciones de supervisión, bases de datos, hardware y software. En las soluciones de AA, Grafana se utiliza para visualizar eventos recopilados en numerosos tipos de gráficos, paneles e informes.


        Información adicional

        Para obtener información adicional sobre la instrumentación del software, consulte este sitio.

        Para obtener información adicional sobre Prometheus, consulte este sitio.

        Para obtener información adicional sobre Grafana, consulte este sitio.

      • Abordaje de los comentarios



        También es importante recopilar comentarios de las personas que usan la solución de AA. Parte de esto proviene del seguimiento y la revisión de los beneficios entregados por la solución, y parte de ello proviene de ver si las personas que deberían recibir esos beneficios realmente lo hacen, y si los perciben como beneficios.

        El primer paso en ese proceso es determinar si las personas que usan el sistema de AA entienden lo que el sistema debe hacer por ellos y los beneficios que se supone que deben ven. Por ejemplo, los profesionales de IA podrían llevar a cabo un grupo de enfoque de clientes bancarios que utilizan una solución de AA diseñada para aprobar solicitudes de crédito. El profesional podría preguntarle al grupo: ¿Realmente se están beneficiando de una reducción en el tiempo y el papeleo involucrados en la aprobación de préstamos? En otro ejemplo, los profesionales de IA podrían sondear a los profesionales de la salud que están utilizando una solución de AA diseñada para trazar planes de tratamiento potenciales para los pacientes. En este caso, al profesional de la salud se le pueden hacer preguntas para ver si los planes generados realmente están ahorrando tiempo para las enfermeras y los médicos.

        Los comentarios recopilados de los usuarios deben proporcionarse a los patrocinadores del proyecto y al equipo de supervisión para que los consideren cuando discutan el uso y la optimización de la solución.

      • Optimización y retiro de servicio


        Los comentarios recopilados sobre la solución de AA de todos los orígenes deben revisarse y usarse para su consideración sobre cómo optimizar la solución de AA para mejorar el rendimiento. Las optimizaciones pueden incluir:

        Cambio de los requisitos de datos para garantizar que se introduzcan mejores datos para su procesamiento.
        Ajuste de los parámetros utilizados por el modelo.
        Cambio del propio modelo para utilizar un conjunto diferente de características que producen mejores estimaciones.
        O incluso cambio de los resultados generados si resulta que la intención original del modelo no es factible.

        Como recordatorio, cada vez que se cambia un modelo, el equipo de solución de AA debe realizar pruebas diferenciales con el nuevo modelo y compararlas con los resultados del modelo existente para comprobar que el nuevo modelo esté funcionando a la altura de los requisitos y logre las optimizaciones esperadas en el nuevo modelo.
        Si una solución no proporciona beneficios, o tiene problemas como cuestiones éticas que no se pueden resolver, puede ser necesario retirar el modelo del servicio, lo que a veces se denomina retiro de servicio. Este puede ser el caso si un modelo en uso está produciendo resultados que son inexactos, no beneficiosos o simplemente haciendo más daño que bien.

        Si un modelo se retira, se saca del uso en producción. El procesamiento y los servicios realizados por el modelo deben ser reemplazados de alguna manera por humanos u otras soluciones digitales. El modelo puede seguir existiendo y ser colocado de nuevo en el diseño en un intento de reequiparlo para que pueda ser útil, o puede ser abandonado por completo.

      • Estrategias de reentrenamiento


        Hay varias estrategias que puede emplear para volver a entrenar un modelo para mantenerlo actualizado y funcionar de manera óptima en todo momento.

        En reentrenamiento periódico, los datos se colocan a través de rondas de entrenamiento adicionales en una programación predefinida. Por ejemplo, puede volver a entrenar el modelo cada seis meses, independientemente de los factores que hayan cambiado. La estrategia es más apropiada en campos que cambian con frecuencia o a un ritmo predecible, como el clima estacional o las observaciones astronómicas.

        En el reentrenamiento basado en el rendimiento, se evalúa el rendimiento del modelo y, si se degrada más allá de un umbral predefinido, se vuelve a iniciar el proceso de entrenamiento. Esta estrategia es más apropiada en escenarios donde se debe mantener un alto grado de rendimiento en todo momento, como en el diagnóstico de enfermedades, la prescripción de tratamientos y otras aplicaciones médicas críticas.

        En el reentrenamiento de datos modificados, se determina si es adecuado o no volver a entrenar un modelo en función de cómo evolucionan los datos de dominio disponibles, si es el volumen, la calidad o la actualidad de los datos lo que ha cambiado. Esta estrategia es más adecuada en situaciones en las que es difícil saber si el dominio ha cambiado hasta que se le solicite un cambio en los datos disponibles, como encuestas de opinión o fluctuaciones del mercado de valores.


        Para una empresa, hay muchos factores que intervienen en la decisión entre estas estrategias, incluido el costo y la facilidad de realizar el reentrenamiento, así como lo fácil que es recuperar el rendimiento de un modelo cuando está en producción. Por ejemplo, si no tiene mucha visibilidad del rendimiento del modelo, el reentrenamiento basado en el rendimiento es menos viable.

      • Descripción de los requisitos de soporte y monitoreo para las soluciones de IA/AA