Data mining : comment exploiter au mieux le potentiel des données

Les données jouent un rôle central en e-commerce. Dans l’objectif d’optimiser les processus de vente, les boutiques en ligne s’évertuent à collecter et à analyser les données des utilisateurs. A l’aide d’outils d’analyse, les chiffres et les indicateurs peuvent dévoiler le comportement d’achat des consommateurs, allant des produits qu’ils placent dans leur panier en ligne aux produits consultés. Mais une montagne de données à elle seule n’offre aucun intérêt : pour pouvoir apporter une plus-value, ses informations doivent être analysées. Les données doivent être passées en revue, notamment lorsque l’on a pour objectif d’optimiser ses méthodes de ventes. Une de ces méthodes d’analyse s’appelle le data mining.

Qu’est-ce que le data mining ?

En règle générale, le data mining est associé au Big Data. Le Big Data, c’est l’ensemble des données qui ne peuvent plus être gérées manuellement, à cause de leur ampleur. Le traitement et l’analyse des données doivent donc être effectués à l’aide de méthodes informatisées. Le data mining est considéré comme une sous-étape du processus nommé Knowledge Discovery in Databases (soit la découverte de connaissances à l’aide des bases de données, en français). On dénombre les processus suivants :

  • Le choix de la base de données
  • Le prétraitement, dans le but d’amorcer un nettoyage des données
  • Leur transformation dans la forme adéquate à leur traitement 
  • Le processus d’analyse mathématique (data mining)
  • L’interprétation des résultats de l’analyse

Les connaissances qui auront pu être acquises grâce aux KDD (Knowledge Discovery in Databases) font partie intégrante du positionnement stratégique de tout modèle de commerce en ligne, ainsi que des décisions marketing qui en découlent. Les domaines d’application sont caractérisés par leur multiplicité. 

Domaines d’intervention du data mining

Le data mining offre l’opportunité de pouvoir optimiser scientifiquement les sites e-commerces. Les grandes bases de données qui doivent être traitées dans le domaine du commerce en ligne peuvent ainsi servir de base aux pronostics. Une fois que ces données ont été travaillées et que des statistiques ont pu être établies, les administrateurs de boutiques en ligne peuvent dresser une liste de facteurs clés de succès à exploiter et mettre en œuvre différentes stratégies. Ainsi, le data mining vise à :

  • Segmenter les marchés
  • Analyser le contenu des paniers
  • Dresser des profils d’acheteurs types
  • Calculer le prix des produits
  • Établir des pronostics
  • Déterminer la durée des contrats
  • Analyser la demande
  • Identifier les erreurs dans les processus de ventes

Les différentes méthodes du data mining

Pour pouvoir extraire les données pertinentes à une entreprise parmi leur abondance, différentes méthodes sont mises en œuvre. Ces techniques se basent sur l’identification de liens logiques entre différents motifs et tendances, afin d’établir des statistiques.

  • Détection des données aberrantes (Outlier Detection) : dans le domaine des statistiques, les données aberrantes sont des observations ou des valeurs qui sont qualifiées de « distantes ». C’est-à-dire que des observations différentes qui auront été effectuées concernant un même phénomène contrasteront fortement avec les valeurs mesurées au préalable. En data mining, la détection de données aberrantes est une méthode courante pour tenter d’identifier la fraude par carte de crédit ou autres transactions frauduleuses.
  • L’analyse de typologies : les typologies sont des clusters, c’est-à-dire un regroupement. Cette méthode consiste à segmenter un ensemble de personnes. Ainsi, il est possible par la suite de les regrouper par types d’individus. L’objectif de ce type d’analyse vise à segmenter les données non structurées. Pour cela, des algorithmes sont appliqués. Les algorithmes passent en revue les quantités de données, trouvent des similitudes structurelles, et identifient ainsi différents clusters. Si certaines données ne peuvent pas être classées, cela peut relever de la catégorie des données aberrantes. L’analyse des clusters est principalement utilisée avec de pouvoir déterminer les différents profils types des visiteurs d'un site, notamment dans le e-commerce. 
  • Classification : tandis que l’analyse de typologies permet avant tout l’identification de nouveaux groupes, la classification est un excellent moyen pour catégoriser des groupes prédéfinis. Leur répartition s’effectue à partir de différentes spécificités qui se recoupent. La méthode la plus courante pour classifier automatiquement des données consiste à avoir recours à un arbre de décision (decision tree). Ainsi, une spécificité sera dégagée pour chaque nœud de données.
  • Technique d’association : cette méthode vise à identifier des ensembles cohérents dans un dataset spécifique. Dans le domaine du e-commerce, cette méthode de data mining est appliquée afin de découvrir les corrélations entre différents produits dans des types de paniers. Par exemple : « si le produit A est acheté, il y aura un intérêt pour le produit B ». Cette technique permet donc d’effectuer de manière pertinente des recommandations de produits auprès des visiteurs d’un site.
  • Analyse de régression : la régression est un ensemble de méthodes statistiques. Ce modèle vise à expliquer une variable aléatoire à l’aide de différentes variables non aléatoires. Le modèle de régression le plus connu est le modèle de régression linéaire, et permet par exemple d’effectuer un pronostic pour les ventes d’un produit en effectuant une corrélation entre le prix produit en question et le revenu médian des clients du site e-commerce.

Les limites du data mining

Certes, les statistiques entrent en jeu dans le data mining, et leur analyse objective permet d’établir une analyse des données existantes. Mais les différents choix des méthodes analytiques mises en œuvre sont néanmoins subjectifs, ce qui peut fausser les résultats. Il en va de même pour les choix appliqués aux algorithmes et aux paramètres. Le moyen le plus efficace pour s’assurer de la pertinence et pour veiller à ce que les résultats ne soient pas biaisés consiste à avoir recours à un prestataire externe spécialisé en data mining. La consistance et la pertinence des données analysées est également un critère déterminant pour s’assurer de la qualité des résultats obtenus grâce au data mining. Si les résultats de l’analyse sont peu convaincants, il existe de grandes chances pour que cela soit lié à une base de données peu qualitative. C’est pourquoi il est bien souvent nécessaire en data mining de trier et de travailler les données au préalable, afin de ne pas biaiser les résultats en prenant compte de données superflues. Pour finir, il importe de prendre en compte le fait que les résultats en data mining sont constitués sous forme de motifs et de connexions. Des éléments de réponse ne peuvent être apportés que lorsqu’une réflexion aura été portée et que les objectifs auront été identifiés.