Comment faire quand la CAH est dépassée?

La CAH permet de créer des groupes d’individus homogènes, c’est une méthode de clustering et elle donne vraiment de bons résultats. L’inconvénient de cette méthode c’est que les temps de calcul peuvent être très longs lorsque le nombre de clients à segmenter augmente. Certains outils refusent même de calculer une CAH à partir d’un certain seuil.

Problème : Comment faire un clustering efficace quand le nombre d’individus devient tellement important qu’on ne peut plus utiliser la CAH?

Utiliser un k-means

La méthode la plus simple ce serait de ne pas utiliser une CAH mais de faire un k-means. Il n’y a pas de limite de taille et les calculs sont très rapides. En revanche les résultats sont moins bons en général. Cela s’explique par les contraintes du k-means :

  • Le nombre de groupes doit être déterminé avant
  • Les centres initiaux des groupes sont tirés aléatoirement

k-means

Calculer la CAH sur un échantillon

Une autre méthode consiste à calculer la CAH sur un échantillon de données. Vous obtiendrez ainsi le segment pour chaque individus de l’échantillon. Pour ensuite avoir un résultat sur le dataset en entier, il suffit de construire un arbre de décision (ou un autre modèle d’ailleurs mais en évitant le surrapprentissage). On calcule ce modèle sur l’échantillon pour prédire le segment puis on l’applique sur le dataset complet.

Cette méthode est à privilégier dans le cas où vous voulez expliquer simplement la segmentation. Avec l’arbre vous aurez déjà les règles permettant de comprendre chaque segment et vous gagnez ainsi une étape.

Decision tree

 

Utiliser la classification mixte

La méthode mixte a été créée justement pour ce genre de problèmes, c’est en fait une combinaison entre le k-means et la CAH.

On commence par créer un grand nombre de clusters avec la méthode des k-means. Puis on utilise les barycentres de ces clusters comme nouveaux individus pour lancer une CAH. On réduit donc la taille des données qui vont permettre de calculer la CAH et on gagne en temps de calculs.

Classification mixte

Le volume de données n’est pas un vrai problème 🙂

1 réflexion sur “Comment faire quand la CAH est dépassée?”

  1. Ping : Classification ascendante hiérarchique (CAH) comment ça marche? – Lovely Analytics

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *