Aprendizaje automático (ML). Agrupación de ABEDUL, mezcla gaussiana

Botón [Función de aprendizaje automático: agrupación en clústeres BIRCH]

La agrupación en clústeres es una técnica de aprendizaje automático que se utiliza para agrupar instancias similares u homogéneas en grupos de datos distintos. Este método se utiliza en tareas de aprendizaje automático no supervisadas.

Puede descargar un archivo de tabla estructurada de ejemplo para algoritmos de agrupamiento: XLSX .

Se pueden utilizar datos estructurados de archivos de tablas para importar: libro de Excel (*.xlsx); Libro binario de Excel (*.xlsb); Hoja de cálculo OpenDocument (*.ods).

¿Dónde se puede aplicar?

Ejemplo 1. Los datos recopilados por el departamento de marketing sobre las compras de los clientes nos permiten comprender si existen similitudes entre los clientes. Estas similitudes dividen a los clientes en grupos (clústeres), y tener grupos de clientes ayuda a orientar campañas, promociones, conversiones y a construir mejores relaciones con los clientes.

Ejemplo 2. Identificación de los grupos más homogéneos según los indicadores cualitativos de una mezcla de componentes a partir de los indicadores cuantitativos o cualitativos de cada uno de los componentes de la mezcla.

Ejemplo 3. Identificación de los grupos más homogéneos según indicadores cualitativos o cuantitativos de productos terminados en función de diversos modos tecnológicos de producción.

Ejemplo 4. Identificación de objetos atípicos que no se pueden adherir a ninguno de los clusters.

Agrupación de ABEDUL

Agrupación BIRCH (reducción iterativa equilibrada y agrupación mediante jerarquías): reducción iterativa equilibrada y agrupación mediante jerarquías.

El análisis de conglomerados mediante el algoritmo BIRCH requiere datos con atributos métricos. Un atributo métrico es un atributo cuyos valores pueden representarse mediante coordenadas explícitas en el espacio euclidiano (sin variables categóricas).

Ventana de funcionalidad de aprendizaje automático (ML) con el botón de función de agrupación resaltado

Figura 1. Ventana de funciones de aprendizaje automático (ML). Se muestra información sobre herramientas cuando pasa el mouse sobre el botón para ir a las funciones de agrupación usando los algoritmos BIRCH y Gaussian Mixture.

Ventana de funciones de aprendizaje automático (ML). Se muestra información sobre herramientas cuando pasa el mouse sobre el botón para ir a la función de agrupación usando el método BIRCH.

Figura 2. Ventana de funciones de aprendizaje automático (ML). Se muestra información sobre herramientas cuando pasa el mouse sobre el botón para ir a la función de agrupación usando el algoritmo BIRCH.

Ventana de funciones de aprendizaje automático (ML): agrupación en clústeres mediante el método BIRCH. Se seleccionan las medidas de los atributos métricos de los puntos, se establecen los valores [Valor umbral] y [Número de grupos] y se desmarca la casilla de verificación [Guardar resultados].

Figura 3. Ventana de funciones de aprendizaje automático (ML): agrupación con el algoritmo BIRCH. Se seleccionan las medidas de los atributos métricos de los puntos, se establecen los valores [Valor umbral] y [Número de conglomerados] y se desmarcan las casillas de verificación [Líneas entre centroides y puntos] y [Guardar resultados]. Las cruces negras indican centroides (centros de gravedad de los conglomerados) con números de conglomerados.

Ventana de funciones de aprendizaje automático (ML): agrupación en clústeres mediante el método BIRCH. Se muestra una lista desplegable de medidas para reflejar a lo largo del eje [Y]. La casilla de verificación [Guardar resultados] está marcada.

Figura 4. Ventana de funciones de aprendizaje automático (ML): agrupación en clústeres con el algoritmo BIRCH. Se muestra una lista desplegable de medidas para reflejar a lo largo del eje [Y].

Figura 5. Ventana de funciones de aprendizaje automático (ML): agrupación en clústeres con el algoritmo BIRCH. Se muestra una lista desplegable de medidas para la reflexión a lo largo del eje [X].

Ventana de funciones de aprendizaje automático (ML): agrupación en clústeres con el algoritmo BIRCH. La casilla de verificación [Líneas entre centroides y puntos] está marcada.

Figura 6. Ventana de funciones de aprendizaje automático (ML): agrupación en clústeres con el algoritmo BIRCH. Las casillas de verificación [Líneas entre centroides y puntos] y [Guardar resultados] están marcadas.

Ventana de funciones de aprendizaje automático (ML): agrupación en clústeres mediante el método BIRCH. Aparece un mensaje para guardar los códigos de grupo asignados a los pares de datos (X e Y) en el archivo fuente en la hoja BIRCH.

Figura 7. Ventana de funciones de aprendizaje automático (ML): agrupación con el algoritmo BIRCH. Aparece un mensaje sobre cómo guardar los códigos de grupo asignados en pares de datos (X e Y) en el archivo fuente en la hoja "BIRCH". Los nombres de las columnas de los clusters asignados conservan el nombre del método de clustering, detección automática de clusters o definido por el usuario, los nombres del par de medidas e indicadores [Valor umbral] y [Número de clusters] seleccionados por el usuario.

Ventana de funciones de aprendizaje automático (ML): agrupación en clústeres con el algoritmo BIRCH. Se muestra una sugerencia cuando pasa el mouse sobre el botón para ir a la función de dibujar líneas verticales y horizontales en gráficos.

Figura 8. Ventana de funciones de aprendizaje automático (ML): agrupación con el algoritmo BIRCH. Se muestra una sugerencia cuando pasa el mouse sobre el botón para ir a la función de dibujar líneas verticales y horizontales en gráficos.

Ventana de la función auxiliar para dibujar líneas verticales y horizontales en gráficos.

Figura 9. Ventana de funciones de aprendizaje automático (ML): agrupación con el algoritmo BIRCH. Ventana de la función auxiliar para dibujar líneas verticales y horizontales en gráficos. Se han introducido dos líneas verticales con nombres y una línea horizontal. Puede mostrar cualquier número de líneas con etiquetas (nombre-valor). Puede cambiar el valor de cualquier línea seleccionada en la lista. Puede eliminar cualquier línea seleccionada en la lista desplegable o todas las líneas a la vez.

Razones por las que la calidad del modelo matemático que utiliza el método de agrupamiento BIRCH puede ser insuficiente

Ajuste de hiperparámetros subóptimo: la agrupación BIRCH tiene hiperparámetros, como umbrales y radios de grupo, que deben ajustarse. La elección incorrecta de hiperparámetros puede provocar una mala calidad del modelo.
Inexactitud e inconsistencia de los datos: la calidad de la agrupación de BIRCH puede ser deficiente si los datos contienen ruido o valores atípicos que pueden alterar los límites y la estructura de las agrupaciones.
Criterio de similitud no especificado o seleccionado incorrectamente: la calidad de la agrupación BIRCH puede depender de la elección o configuración del criterio de similitud. La elección incorrecta del criterio de similitud puede conducir a una agrupación insuficientemente precisa.
Escalado de datos incorrecto: si los datos tienen diferentes rangos de valores o diferentes unidades de medida, un escalado inadecuado puede provocar una agrupación de BIRCH de mala calidad.
Datos insuficientes: la calidad de la agrupación de BIRCH puede ser insuficiente si no hay datos suficientes disponibles para entrenar el modelo. Más datos pueden mejorar la calidad de la agrupación.

Agrupación de mezclas gaussianas

El modelo de mezcla gaussiana es un modelo probabilístico que supone que todos los puntos de datos se generan a partir de una mezcla de un número finito de distribuciones gaussianas con parámetros desconocidos. Este algoritmo de aprendizaje automático puede asignar a cada muestra el diagrama gaussiano al que probablemente pertenece. En nuestro análisis, la mezcla gaussiana introduce una variante para restringir la covarianza de las clases de diferencias estimadas: covarianza total.

Un modelo de maximización de expectativas (mezcla gaussiana) necesariamente utilizará el número de componentes especificados por el usuario, mientras que un modelo de inferencia variacional (mezcla gaussiana bayesiana) utilizará efectivamente sólo tantos componentes como sean necesarios para un buen ajuste. Si el número de componentes especificado por el usuario es menor que el número efectivo, el gráfico de mezcla gaussiana bayesiana mostrará el número de componentes especificado por el usuario.

La agrupación mediante el algoritmo de mezcla gaussiana se demuestra en dos gráficos correspondientes a los algoritmos de mezcla bayesiana y gaussiana y de mezcla gaussiana.

Para mayor claridad, en los gráficos se muestran los elipsoides del modelo de mezcla gaussiana.

Figura 10. Ventana de funciones de aprendizaje automático (ML). Se muestra información sobre herramientas cuando pasa el mouse sobre el botón para ir a la función de agrupación usando el algoritmo de mezcla gaussiana.

Ventana de función de agrupación utilizando los métodos de mezcla gaussiana bayesiana y mezcla gaussiana. El parámetro de número de componentes se establece en (3).

Figura 11. Ventana de función de agrupamiento para algoritmos de mezcla gaussiana bayesiana y mezcla gaussiana. El parámetro de número de componentes se establece en (3).

Figura 12. Ventana de función de agrupamiento para algoritmos de mezcla gaussiana bayesiana y mezcla gaussiana. El parámetro de número de componentes se establece en (5).

Figura 13. Ventana de función de agrupamiento para algoritmos de mezcla gaussiana bayesiana y mezcla gaussiana. El parámetro de número de componentes se establece en (10).

El ejemplo de la figura siguiente demuestra el rendimiento de los algoritmos de agrupamiento BIRCH y Gaussian Mixture en conjuntos de datos "interesantes".

Algoritmos de agrupamiento BIRCH y Gaussian Mixture para conjuntos de datos "interesantes".

Figura 14. Demostración comparativa del rendimiento de los algoritmos de agrupamiento BIRCH y Gaussian Mixture en conjuntos de datos "interesantes". El último conjunto de datos (columna de la derecha) es un ejemplo de una situación “nula” de agrupación: los datos son homogéneos y no se agrupan bien.

Preparación de datos preautomática

Antes de aplicar la agrupación, los datos importados se escalan automáticamente mediante la estandarización.

La estandarización es el proceso de escalar datos para que tengan una media de 0 y una desviación estándar de 1.

Si los datos importados contienen una columna categórica como [masculino, femenino], se le pedirá al usuario que "Codifique en caliente" automáticamente la columna para convertir los datos en nuevas columnas de código numérico [0, 1]. Los datos codificados en caliente se guardarán en el archivo [xlsx] original en una hoja nueva.

La codificación one-hot se utiliza para convertir variables categóricas a un formato que los algoritmos de aprendizaje automático puedan utilizar fácilmente. La idea básica de la codificación one-hot es crear nuevas variables que tomen los valores [0] y [1] para representar los valores categóricos originales. En otras palabras, cada valor único de una columna no numérica se convierte en una nueva columna binaria que contiene los indicadores [0] y [1]. En esta columna, [1] indica la presencia de este valor y [0] indica su ausencia.

Razones por las que la calidad de un modelo matemático que utiliza el método de agrupación de mezcla gaussiana bayesiana y mezcla gaussiana puede ser insuficiente

Elección incorrecta del número de componentes: ambos métodos de agrupación se basan en la elección correcta del número de componentes del modelo. Si se selecciona un número insuficiente de componentes o, por el contrario, se seleccionan demasiados, esto puede conducir a una agrupación insuficientemente precisa.
Ajuste de hiperparámetros subóptimo: ambos métodos tienen hiperparámetros, como parámetros de matriz de covarianza y distribuciones previas, que deben ajustarse. La elección o el ajuste incorrectos de los hiperparámetros pueden provocar una mala calidad del modelo de agrupación.
Inconsistencia de los supuestos distributivos: los métodos de mezcla gaussiana bayesiana y de mezcla gaussiana suponen que los datos tienen una distribución gaussiana. Si los datos no cumplen con este supuesto, entonces la calidad del agrupamiento puede ser insuficiente.
Manejo incorrecto de valores atípicos y ruido: la presencia de valores atípicos y ruido en los datos puede afectar negativamente la calidad de la agrupación. Si los métodos no se adaptan para manejar valores atípicos o los datos no se procesan previamente, esto puede conducir a una mala calidad de agrupación.
Escalado de datos insuficiente o incorrecto: si sus datos tienen diferentes rangos de valores o diferentes unidades de medida, debe escalar correctamente los datos antes de agruparlos. Un escalado incorrecto puede afectar la calidad de la agrupación.

Gráficos de control de Shewhart Analista PRO +IA para Windows, Mac, Linux Registro de software ruso (entrada No. 18857 del 05/09/2023)