Seguimiento y alertas de la métrica
Los profesionales de IA supervisan una solución de AA mediante el seguimiento de las métricas que definen las actividades, eventos y circunstancias que los diseñadores y operadores consideran más críticos para que la solución funcione correctamente. Recuerde, estos tipos de métricas se denominan KPI. Algunos KPI deberían haberse identificado en el diseño y es probable que se agreguen otros cuando la solución pase a la producción. Aunque la revisión de los archivos de registro de la solución es necesaria por las razones descritas anteriormente, también se deben supervisar para detectar problemas mientras la solución procesa los resultados. Esto se hace eligiendo KPI, monitoreando esos KPI y visualizándolos en un panel u otra herramienta, para que los operadores y los miembros del equipo de supervisión puedan ver cómo funciona la solución casi en tiempo real.
El equipo de supervisión debe seleccionar los KPI que se supervisarán para cada solución individual, pero, en general, se debe supervisar lo siguiente para cualquier solución de AA:
- Latencia cuando los componentes de software acceden a la solución de aprendizaje automático. Realice un seguimiento de esto para asegurarse de que la solución responde a las solicitudes.
- Uso y rendimiento de la CPU, la memoria y el almacenamiento mientras se realizan estimaciones. Esto garantiza que los recursos de proceso, memoria y almacenamiento sean adecuados para mantener una solución que funcione bien.
- Valores de predicción medianos y medios con respecto a los plazos seleccionados. Esto ayuda a garantizar que la solución está realizando estimaciones dentro de los intervalos esperados. Si no es así, se deben examinar tanto los datos como el modelo en busca de errores para ver si el modelo se ha quedado obsoleto o si los datos han cambiado significativamente.
- Valores de predicción mínimos y máximos. Esto también ayuda al equipo de supervisión a verificar que los resultados están dentro del rango esperado.
- Desviación estándar durante un plazo seleccionado. Una vez más, esto ayuda a mostrar que la solución está generando resultados en el rango esperado.
- Los profesionales de IA también pueden agregar KPI relacionados con los beneficios prometidos por la solución. Estos beneficios deberían haber sido definidos al principio del proyecto como parte de la hipótesis, y refinados y confirmados cuando los resultados se comunicaron a los patrocinadores del proyecto y la solución fue aprobada para entrar en producción. Estos pueden incluir ahorros económicos, ahorros de tiempo, resolución de problemas, reducción de errores, beneficios ambientales y beneficios de seguridad humana y comodidad.
- También es una buena idea realizar un seguimiento de los KPI relacionados con los desafíos de las soluciones de AA, y sus efectos en las personas y las comunidades también deben ser monitoreados. Los profesionales de IA deben esforzarse por garantizar que los problemas de sesgo, privacidad, seguridad, legales, de caja negra, éticos, de contexto o de uso apropiado no hayan surgido del uso de la solución.
El seguimiento y la supervisión de estos KPI pueden ayudar al equipo de supervisión a obtener una visión integral del impacto que está teniendo la solución. Los KPI operativos deben ser monitoreados continuamente, mientras que los KPI relativos a los beneficios y desafíos deben ser discutidos por el equipo de supervisión a intervalos regulares mientras la solución está en uso. Quienes llevan a cabo la supervisión deben identificar oportunidades para optimizar los datos, los modelos y el sistema en general.
Además de realizar un seguimiento de estos y otros KPI, es posible que los miembros del equipo de supervisión también deseen establecer umbrales que generen alertas cuando se superen. Por ejemplo, si tiene una solución de AA diseñada para aprobar solicitudes de tarjetas de crédito al instante, es posible que desee establecer una alerta para identificar cuándo se rechaza una persona con una puntuación de crédito alta, de modo que se pueda investigar ese resultado.
El seguimiento y las alertas requieren un enfoque doble.
1. En primer lugar, es necesario instrumentar el código de la solución. La instrumentación agrega código al software para generar información, denominada eventos, relacionada con el rendimiento operativo (métricas) mientras se ejecuta la aplicación.
2. A continuación, las herramientas de terceros o personalizadas pueden capturar esta información, realizar un seguimiento de ella y mostrarla.
Supervisión de salud de IA
La supervisión de salud en el contexto de la IA se refiere al estado de la canalización de producción y a todo lo que contiene. Para evitar que los sistemas de IA se vuelvan obsoletos o se alejó demasiado de su propósito previsto, los algoritmos de supervisión de salud evalúan continuamente las métricas clave de esos sistemas en producción para identificar cualquier debilidad u otros problemas en la tubería. Por ejemplo, los algoritmos de supervisión de salud pueden detectar cuándo las nuevas predicciones de un modelo tardan más que un período de tiempo de línea base. De esa manera, puede recibir alertas sobre este tipo de problemas y puede actuar rápidamente para abordarlos.
Herramientas de supervisión
Prometheus® y Grafana® son dos soluciones populares de código abierto para monitorear y rastrear métricas y generar alertas.
- Prometheus es una suite de seguimiento y alertas de métricas de código abierto que permite el seguimiento de aplicaciones de software y datos dimensionales como el utilizado en las soluciones de AA. Ofrece potentes herramientas de consulta y alertas, así como integración con muchos sistemas de desarrollo, hardware, mensajería, seguimiento y bases de datos. En las soluciones de AA, Prometheus puede capturar métricas (que se generan mediante código instrumentado) sobre los datos de entrada y la generación de estimaciones a partir del modelo. Permite a los usuarios definir umbrales, establecer alertas para cuando se superen los umbrales y enviar notificaciones al equipo de supervisión u operaciones. Sus capacidades de consulta también le permiten analizar los datos que se recopilaron.
- Grafana, también de código abierto, le permite visualizar datos métricos en paneles robustos para el monitoreo "de un vistazo", lo que le permite realizar seguimientos de registro y generar informes visuales de las operaciones del sistema. También admite la integración con muchas aplicaciones de supervisión, bases de datos, hardware y software. En las soluciones de AA, Grafana se utiliza para visualizar eventos recopilados en numerosos tipos de gráficos, paneles e informes.
Información adicional
Para obtener información adicional sobre la instrumentación del software, consulte este sitio.
Para obtener información adicional sobre Prometheus, consulte este sitio.
Para obtener información adicional sobre Grafana, consulte este sitio.