Isolation Forest comment ça marche ?
Détecter des valeurs atypiques ou extrêmes grâce aux forêts d’isolations (Isolation Forest une méthode de machine learning non supervisée)
Détecter des valeurs atypiques ou extrêmes grâce aux forêts d’isolations (Isolation Forest une méthode de machine learning non supervisée)
Apprenez à créer un algorithme Random Forest avec Python grâce à ce tutoriel pas à pas
Dans mon article sur la performance des modèles je vous présentais la démarche à suivre pour mesurer la performance de vos algorithmes. Il est temps de voir plus en détail quelques uns des indicateurs qui peuvent être utilisés pour y parvenir. Dans cet article, je vais vous présenter 3 indicateurs, adaptés pour évaluer la performance …
Mesurer la performance d’un modèle : Accuracy, recall et precision Lire la suite »
Dans cet article j’ai envie de vous parler de la performance des modèles au sens large (classification ou régression). Il y a déjà pas mal d’articles pour comprendre les algorithmes (Arbre de décision, Random Forest, Gradient Boosting, …) mais je n’avais pas encore abordé leur évaluation. Pourtant c’est un sujet essentiel. Peu importe votre projet, …
Comment mesurer la performance d’un modèle ? Lire la suite »
Dans un projet de Data Science la data prep prend beaucoup de temps par rapport à l’ensemble du projet. Et soyons honnête ce n’est pas forcément la partie la plus intéressante. Mais avant même d’en arriver à cette étape de préparation des données il faut explorer le Data Set pour commencer à appréhender les données …
Avez-vous remarqué que les modèles « complexes » comme Random Forest, Gradient Boosting ou Neural Network sont de plus en plus accessibles? C’est une bonne chose puisque ces algorithmes donnent généralement de très bons résultats. En revanche, un de leur inconvénient c’est leur effet Black Box : impossible d’expliquer dans le détail les règles de calcul de …
Quand on parle de règles d’association on a souvent en tête l’exemple du panier de supermarché. Je suis sûre que vous avez déjà entendu qu’on avait mis en évidence que l’achat de couche pour bébé le week end impliquait aussi l’achat de bières. En bref les règles d’association sont des règles du type A …
Je vous propose de regarder comment utiliser les règles d’association avec R en utilisant l’algorithme apriori. Pour cet exemple, j’ai choisi le dataset movie, disponible sur Kaggle. On a un ensemble de films notés par les utilisateurs, comme ça pourrait être le cas par exemple sur Netflix ou sur une autre plateforme de VOD. Au …
Et si on s’intéressait à un nouvel algorithme de machine learning pour essayer de comprendre comment ça marche. Aujourd’hui ce sera la classification bayésienne naïve (Naive Bayes classifier), un modèle assez simple, robuste et rapide qui se base sur le théorème de Bayes. Cet algorithme est à utiliser pour les problématiques de classement avec des …
Classification bayésienne naïve comment ça marche? Lire la suite »
Dans une base de données, il arrive que des données soient manquantes : elles ne sont pas renseignées pour tous les individus. Ce qui rend les choses un peu plus complexes, c’est qu’il y a plusieurs manières de considérer et de traiter (on parle d’imputation des données) ces données manquantes selon les cas. La plus …