Ir al contenido principal

Diagrama de temas

    • Análisis de clases latentes

      Análisis de clases latentes


      El análisis de clase latente (LCA) es una forma de aprendizaje no supervisado que agrupa ejemplos de datos en grupos no observables denominados clases latentes. Una clase latente se refiere al concepto de una variable latente, una variable que no se observa directamente, sino que solo se deduce a través de la presencia e interacción de otras variables observables. Estas variables latentes pueden ser inherentemente inviables de medir, como en el caso de conceptos abstractos, o pueden ser muy difíciles de medir (es decir, están "ocultas"). Por ejemplo, si desea clasificar a los pacientes psiquiátricos en términos de su estado mental, las descripciones abstractas como "triste" o "feliz" no son realmente mensurables. O, tal vez usted quiere medir la edad de cada paciente, pero en realidad no tiene estos datos disponibles. Ambas variables se pueden considerar latentes, es posible que no sean directamente observables, pero ambas siguen siendo útiles para usted.

      Nota: Las variables observables cuyas relaciones podrían revelar una variable de estado mental latente podrían ser: el número de visitantes que recibe el paciente; si el paciente fue ingresado o no en el hospital voluntariamente; una puntuación asignada por un psiquiatra que evalúa el nivel de mejoría del paciente a lo largo del tiempo; los tipos de medicación que el paciente está recibiendo; y así sucesivamente.

      Por lo tanto, una clase latente es un grupo o clúster no observable dentro del cual se colocan ejemplos de datos. Las clases se deducen de las características observables en el conjunto de datos. Usando el ejemplo psiquiátrico, si tuviera un conjunto de datos de atributos de pacientes y quisiera agruparlos de acuerdo con el estado mental, LCA podría hacerlo midiendo las similitudes entre estos atributos. No necesariamente le dirá qué clúster es "triste" o "feliz", pero podrá crear los clústeres para que los analice.

      En términos de su mecanismo de acción, LCA es en realidad muy similar a la agrupación en clústeres k-means. Después de inicializar los clústeres, vuelve a calcular los centroides usando una estadística descriptiva como la media. Sin embargo, una diferencia es que el LCA también mide el tamaño de cada clúster. Si un ejemplo de datos es igualmente similar a dos clústeres, es probable que se coloque en el mayor de los dos clústeres. Además, al calcular la distancia entre cada ejemplo y su centroide, LCA también incorporará el tamaño del clúster para generar una probabilidad de pertenencia al clúster. Cuando llega el momento de volver a calcular los centroides, LCA usa esta probabilidad como un peso. En la agrupación en clústeres k-means, el "peso" es un 1 o un 0. De lo contrario, el proceso se repite de la misma manera básica hasta que se cumpla la convergencia o un máximo de iteración.
      LCA tiene varias ventajas sobre la agrupación en clústeres k-means, incluidas:

           Asignar un ejemplo de datos al más grande de los dos clústeres cuando el ejemplo está igualmente distante entre los dos clústeres es una forma eficaz de reducir la incertidumbre.
           La incorporación de cálculos ponderados normalmente da como resultado clústeres más útiles.
           Tiende a hacerlo mejor en el control de datos faltantes y variados.


      Sin embargo, la mayor desventaja de LCA es que es mucho más lento, particularmente cuando se trata de grandes conjuntos de datos. Usted consideraría usar LCA sobre la agrupación en clústeres k-means cuando el tamaño de la muestra es pequeño o el tiempo no es un factor. Tenga en cuenta también que actualmente no hay compatibilidad con LCA en ninguna de las principales bibliotecas de ciencia de datos de Python®, aunque hay compatibilidad con LCA en el lenguaje de programación R.


      Algoritmos de agrupación adicionales

      LCA y la agrupación en clústeres k-means son dos algoritmos principales de AA no supervisados, pero no son los únicos. Para obtener más información sobre otros tipos de algoritmos de agrupación, consulte este sitio.