Point de vue: La déduplication des données clients au cœur des Customer Data Plateforms

Point de vue: La déduplication des données clients au cœur des Customer Data Plateforms

Point de vue, Stéphane, Manager de l’équipe Modélisation

La déduplication des données clients au cœur des Customer Data Plateforms

 

Les Customer Data Plateforms : une réponse à la démultiplication des sources de données

L’omnicanalité permet d’augmenter la surface des interactions entre une marque et ses clients : canaux digitaux, papier, téléphoniques, réseaux sociaux. Ce sont autant de signaux qui vont permettre de renseigner l’entreprise sur les habitudes, les envies, les attentes, les (in)satisfactions ou encore les comportements des utilisateurs avec lesquelles elle est en contact.

Ces informations sont tracées à travers les outils de Customer Relationship Management (CRM) et de Data Management Plateform (DMP). Les données du CRM concernent principalement des informations offlines issues de la relation avec le client alors que celles de la DMP, provenant des canaux digitaux, permettent de suivre son parcours aux travers de cookies. Généralement, le stockage est en silo rendant ainsi la reconsolidation difficile.

Pourtant la connaissance et l’animation des clients nécessitent de :

  • connaître la base réelle des clients/prospects (et ne pas compter plusieurs fois un individu)
  • reconsolider toutes les informations autour de ces individus pour un traitement personnalisé

Ces besoins ont permis l’émergence de nouvelles plateformes dédiées permettant d’avoir une vision 360° des comportements clients en unifiant ces données : les Customer Data Plateform.

L’unification des données au travers des CDP est donc un enjeu majeur mais leur mise en place est complexe.

 

La déduplication : une des étapes clefs de la mise en œuvre d’une CDP

En effet, avec cette multiplicité des points de contacts, il n’est pas rare qu’un client soit recensé plusieurs fois. Dans un monde idéal, la reconsolidation de ces entrées et donc la déduplication est simple. Mais c’est dans la réalité rarement le cas.

Différentes situations peuvent se présenter :

Des différences syntaxiques

La transmission sonore, visuelle engendre des altérations de l’écriture (des études ont montré que les erreurs de saisies variaient de 10% à 30% (1)).

Prenons le cas d’un client qui renseigne ses informations :

  • via un formulaire internet 

Jean-claude Dupont au 13 boulevard Remont 75020

 Paris/06.10.25.10.99/jcdupont@mail.com

  • mais également sur un formulaire d’inscription pour une carte de fidélité en magasin 

JC Dupond 13 bd Raymond 75020 Paris/+33(0)610251099/jcdupont@gmail.com

On identifie ici les principales difficultés qui peuvent être rencontrées :

  • erreurs de saisies
  • inversion
  • abréviations
  • sonorités proches (d’autant plus avec les nom/prénom à consonance étrangère)

Une évolution de l’information

Reprenons notre client, qui cette fois répond à un jeu concours

Jean-Paul Dupont/ 13 rue Raymond 75000 Paris / 06.63.26.10.78/jcdupont@yahoo.com

Ici d’autres difficultés apparaissent :

  • tester différents niveaux de rapprochement (nom/prénom/adresse, nom/prénom/téléphone …..)
  • définir des règles de priorité entre les sources de données lorsque l’information apportée est la même (fraîcheur, informations issus d’un contact client VS jeu concours, …)

L’objectif est donc de pouvoir associer, dans tous les cas, l’ensemble de ces informations autour d’un même individu.

On s’aperçoit rapidement que les combinaisons entre différences d’écritures et mises à jour de l’information augmentent de manière exponentielle avec la démultiplication des modes de contacts (courrier, téléphone, mail, Facebook, twitter, …) et cela sur des bases clients pouvant comporter plusieurs millions d’entrées.

D’où la nécessité lors de la mise en place d’une CDP d’utiliser des méthodes et outils adaptés.

 

Des algorithmes éprouvés …

L’humain est capable d’associer, dans la plupart des cas de figures, les informations relatives à un même individu (reconnaissance immédiate des abréviations, des inversions ou encore des sonorités proches). Mais les volumes à traiter, la difficulté de rapprocher les données facilement rendent l’utilisation de mécaniques automatisées indispensables.

Les principales étapes de ce rapprochement sont :

1. Data-management des données

  • RNVP pour les adresses postales
  • Normalisation des numéros de téléphones, adresses mails, données de réseaux sociaux

 2. Implémentation d’algorithme de rapprochement pour chacune des données

On va calculer une note de proximité pour chacune des différentes informations à disposition pour savoir si elles sont proches entre les entrées à comparer:

  • Le nom/prénom
  • L’adresse complète
  • Le téléphone
  • Le mail

Les méthodes que l’on peut implémenter sont de 2 natures :

  • Similarité des chaines de caractère

Elles se basent sur des calculs de distance, au sens mathématique du terme, donnant la mesure de la différence entre deux chaines de caractères.

Les plus connues sont les distances de Levenstein(1) et de Hamming(2).

  • Similarité sonore

Elles permettent une comparaison phonétique du contenu. Ce mode permet de palier les différences orthographiques qui ne modifient pas fondamentalement la consonance phonétique de la chaîne de caractères.

La méthode soundex est une des plus anciennes mais a été conçue pour les noms propres de langue anglaise. Donc, appliquer les règles de ces algorithmes à d’autres langues ne donne pas toujours de résultats compréhensibles.

C’est pourquoi les méthodes de métaphone et double métaphone(3) ont été développées et conviennent le mieux avec d’autres langues (dont le français)

3. Calcul d’un score de global de similarité

On crée ce modèle de similarité à partir des données suivantes :

  • Proximité des différentes informations à disposition
  • Données complémentaires (densité de population, type de logement …)

Cette dernière étape permet, grâce à l’utilisation d’algorithme de machine learning, d’avoir un indicateur composite global sur la proximité de 2 entrées. La mise en place du score se fait de manière classique avec une base d’apprentissage pour l’identification du meilleur modèle et de ses paramètres puis d’une validation. Les méthodes de type random forest donnent généralement de très bons résultats sur ces problématiques.

 

… mais rendus plus efficients grâce aux plateformes datascience

Si le process n’est pas totalement nouveau, leurs implémentations étaient auparavant complexes. En effet, comme nous l’avons vu, les informations caractérisant un individu sont multiples et composées de plusieurs éléments, qu’il faut pouvoir ordonner, comparer en totalité, partiellement. D’où des volumes à traiter conséquents qui jusque-là étaient un frein à l’utilisation efficiente de ces différents algorithmes. De plus, la mise en œuvre de la déduplication nécessitait d’avoir des logiciels dédiés en complément des outils d’analyses.

Les plateformes bigdata et le développement sur les outils datasciences de référence (R et Python) de packages adaptés vont permettre d’utiliser ses différentes méthodes facilement et efficacement sur des données volumineuses(5).

Tous les éléments sont désormais réunis pour unifier et exploiter ces mines d’or d’informations qui arrivent de toutes parts, donc n’attendez plus pour avoir une base client propre et animer plus efficacement vos clients J !

 

  1. https://www.uniserv.com/fr/entreprise/blog/detail/article/procedures-et-algorithmes-relatifs-a-la-gestion-d-adresses/
  2. https://fr.wikipedia.org/wiki/Distance_de_Levenshtein
  3. https://fr.wikipedia.org/wiki/Distance_de_Hamming
  4. https://fr.wikipedia.org/wiki/Algorithme_phonétique
  5. Exemple de package :
    • Levenstein/Hamming : stringdist (R),python-Levenstein(Python)
    • Soundex/Métaphone/doubleMétaphone : PGRdup(R),metaphone(Python)

 

_________________________

A PROPOS DE GROUPE ESTIA

Le Groupe Estia est un cabinet de conseil spécialisé dans la transformation des données en actifs.

Créé en 2010, il rassemble aujourd’hui 100 consultants experts de la donnée et de son exploitation à forte valeur ajoutée (data scientists, statisticiens, experts du décisionnel et experts fonctionnels) et génère 10m€ de CA.

Le Groupe Estia intervient auprès des directions métiers de plus de 30 clients grands comptes, dans tous les secteurs d’activités : Banques, Assurances, Distribution, Energie, Transports, Médias, Services,… Son objectif : faire des données un accélérateur business pour nos clients. Son intervention couvre l’intégralité du cycle de transformation et de valorisation de la data.

Notre gamme de services se décline en 6 offres : Pilotage des activités, Connaissance clients, Communication omnicanal, Modélisation à visée prédictive, Transformation vers une organisation data centrics, Gestion de projets data & nos expertises couvrent l’ensemble des problématiques data : CRM analytique, gestion de campagnes, datamining & webmining, business intelligence, conception d’outils, d’applications analytiques, d’algorithmes & de modèles,…

En 2017 la société accélère son développement en s’appuyant sur un nouvel actionnaire de référence, le groupe Consort NT intégrateur et opérateur de solutions et d’infrastructures (2 000 collaborateurs, 140m€ de CA, 6 pays). Le Groupe Consort NT et Groupe Estia proposent dorénavant une offre unique couplant technologies, infrastructures et capacités algorithmiques au service de la performance de leurs clients.

0 Avis

Laisser une réponse

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>