Le k-means est un algorithme de clustering, en d’autres termes il permet de réaliser des analyses non supervisées, d’identifier un pattern au sein des données et de regrouper les individus ayant des caractéristiques similaires. C’est une méthode simple et rapide.
Le cas d’usage le plus classique pour les méthodes de clustering c’est la segmentation client. On peut aussi les utiliser de manière plus descriptive pour comprendre et synthétiser une population. En revanche, pour construire une segmentation client robuste, avec plusieurs axes je vous recommande plutôt d’utiliser la classifiation ascendante hiérarchique ou la méthode mixte.
Revenons aux k-means. C’est un algorithme qui s’applique sur des variables quantitatives uniquement. Il faut donc prévoir de passer d’abord par une ACM pour des variables qualitatives.
Avant de se lancer il faut déterminer le nombre de cluster que l’on souhaite obtenir.
Prenons un exemple simple avec une base de 10 clients pour lesquels on connait l’ancienneté et le panier moyen. On souhaite créer 3 groupes en utilisant la méthode des k-means.
Comment fonctionne l’algorithm k-means ?
Voilà comment fonctionne l’algorithme :
Etape 0 : Initialisation
On tire aléatoirement 3 individus. Ces 3 individus correspondent aux centres initiaux des 3 classes.
Etape 1 :
On calcule la distance entre les individus et chaque centre. Plusieurs métriques existent pour définir la proximité entre 2 individus. La méthode “classique” se base sur la distance euclidienne, vous pouvez aussi utiliser la distance Manhattan ou Minkowski.
Etape 2 :
On affecte chaque individu au centre le plus proche.
Etape 3 :
On calcule les centres de gravité des groupes qui deviennent les nouveaux centres
Boucle itérative :
Finalement on recommence les étapes 1, 2 et 3 tant que les individus sont réaffectés à de nouveaux groupes après une itération.
Quels sont les avantages et inconvénients du kmeans ?
Avantages : C’est simple, robuste et facile à comprendre. Pour résumer cela permet d’avoir rapidement un premier résultat.
Inconvénients : C’est vous qui décidez le nombre de cluster,… pas de recommandation du meilleur découpage possible donc.
Le résultat est dépendant du tirage initial et l’algorithme est sensible aux valeurs extrêmes (en particulier lors du calcul du barycentre).
Pour avoir des résultats plus robustes tout en conservant la rapidité de calcul des k-means on peut les utiliser avec une CAH, cela s’appelle la méthode mixte.
merci pour l’explication, je trouve ça très utile.
je veux savoir svp qu’elle est la formule utilisé pour le calcule de gravité?
merci
Il s’agit simplement d’un calcul de barycentre.
Vous pouvez consulter ce lien pour en savoir plus sur le calcul.
J’ai du mal à faire les interprétations après la segmentation..
Une explication très claire pour la K-means.
Merci beaucoup pour votre partage