Depuis quelque temps, j’entends souvent dans des réunions ou dans des ateliers métiers dire : « nous avons une bonne qualité de données, nous les corrigeons tous les x mois ». A d’autres moments, je tombe sur des articles où sont mentionnés pêle-mêle, données de qualités, qualité de la donnée, management de la qualité de données… Assez vite je me suis rendu compte qu’il était facile d’avoir une vision flou sur le sujet. Pour autant, il semble clair que dans le cadre des systèmes d’informations, gros consommateurs de données, la « qualité de la donnée » a un rôle important à jouer. Par exemple, comme nous l’avons vu dans un précédent article,

« … Donner du sens à une donnée abouti à de l’information, donner du sens à une information aboutit à une connaissance,  donner du sens à une/des connaissance(s) aboutit à une compétence …».

Une base de données, un entrepôt de données et plus généralement un système d’information récolte, intègre et échange des données. Que ce soit pour acquérir  une compétence ou pour aider à la prise de décision (comme dans les systèmes décisionnels), la donnée qui sera manipulée doit répondre à un certains nombres d’exigences de qualité. Si on se réfère au schéma de l’article sus-cité, on peut penser que la qualité de la donnée aura un impact direct sur la qualité de l’information, de la connaissance, de la décision voire de la compétence : meilleure sera la qualité de la donnée, plus pertinente sera la décision prise ou plus complète sera la compétence acquise.

Mais qu’entend-t-on exactement pas la qualité de la donnée ? Est-ce la même chose que la qualité de données ? L’objet de cet article est de présenter les principes et définition de base sur la qualité de donnée et son management.

Définition des concepts

1- Une donnée

En enrichissant la définition de l’article sus-cité nous obtenons la définition suivante : Une donnée est le couple formée par une définition et une mesure. La mesure étant caractérisée par le type de la donnée :

  • Quantitative (poids, montant, âge…)
  • Qualitative (nom, ville, date…)
  • Technique (code, identifiant…)

Une donnée décrit un état élémentaire du « sujet », « concept » qu’elle renseigne.

2- Donnée de qualité

Une donnée est dite de (bonne) qualité si elle répond  aux trois conditions suivantes :

    • Être unique : une question amène une seule réponse
    • Être intelligible : la réponse est cohérente avec définition qu’elle renseigne
    • Être correcte : la réponse correspond à l’état de la donnée dans le contexte de la question (au moment où la question est posée par exemple)

Les deux points suivants sont importants :

  • La définition de la données est spécifique au système d’information qui la traite : selon les cas, une durée sera exprimée ou bien en seconde, en minute, en jour, en mois…
  • Une même question peut entrainer deux réponses différentes à deux instants différents : le sujet renseigné par la donnée evolue (une personne vieillie, change d’adresse… ) : une données devient obsolescente.

3- la qualité de données

Faire de la qualité de données c’est, entre autre, veiller à ce que la donnée soit et reste de qualité. Cela nécessite de mettre en place des « process » qui prendront en compte l’inévitable obsolescence de la donnée entrainant la dégradation de l’information.

Un exemple fréquemment évoqué est celui des adresses : une personne peut être amenée à changer d’adresse : interroger un système d’information sur l’adresse de la personne peut renvoyer une réponse fausse si la nouvelle adresse n’est pas renseignée.

Suivant les besoins, la mise à jour de cette adresse sera un enjeu important qui relèvera alors du management de la qualité de données.

  • Si « faire » de la qualité de données implique d’avoir des données de qualité (dans la mesure où les process mis en place sont efficaces), la réciproque n’est pas vraie. Nous pouvons tout à faire avoir des données de qualité sans faire de qualité de donnée.
  • Pour bien comprendre ceci il nous faut évoquer le coût de la non-qualité des données.

4-Coût de la non-qualité de donnée

Le coût de la non-qualité de donnée correspond à l’ensemble des coûts directs ou indirects induits par une mauvaise qualité de la donnée.  Etre capable de quantifier ce coût est un enjeu majeur lorsque l’on fait de la qualité de données, car si les coûts directs sont facile à mesurer (comme le coût de correction de la données), les coûts cachés peuvent avoir un impact dévastateur sur l’image d’une entreprise.

i) L’enjeu des NPAI chez un FAI

Pour illustrer cela, prenons l’exemple d’un Fournisseur d’Accès Internet (opérateur réseau). Sa richesse repose, entre autre, sur son parc de clients et sa capacité à les identifier et les cibler. Lors d’un envoi de courrier (ciblage marketing, modification CGU…) la problématique sera de pouvoir localiser ses clients afin de minimiser les NPAI(*) de la base des abonnés :

  • En effet, un client peut avoir jusqu’à trois adresses différentes (contact / facturation / raccordement)
  • Une étude de l’American Community Suvey estime à 50% le taux de déclaration de changement d’adresse.

Imaginons la séquence suivante :

  • L’opérateur notifie, par courrier, ses clients d’un changement tarifaire (via la modification des CGV(**))
  •  Les clients identifiés en NPAI ne reçoivent pas ledit courrier, ils ne sont donc pas informés d’une augmentation tarifaire et ne constatent celle-ci que lorsque le prélèvement est effectif sur la facture.
  • Si dans la plupart des cas, le client ne réagira peut-être pas, dans certains cas il pourrait y avoir contestation de la facture entrainant un geste commercial opérateur, voir résiliation d’abonnement de la part de clients excédés (on parle alors d’alientation client)
  • Nous pouvons ainsi identifier les différents postes coûts engendrés par les NPAI.

Postes coûts opérationnels des NPAI dans les bases marketing

Dans cet exemple, mettre en place un process visant à minimiser le nombre de NPAI de la base client, avant le lancement de la campagne courrier, est une réponse que doit apporter le management de la qualité de données.

ii) Décès & Facturation

Si les coûts directs sont plus facilement quantifiables, les coûts cachés peuvent rapidement exploser, comme ce fut le cas pour la chaine de télé Virgin Media qui, pour avoir relancé avec pénalités la facture d’une personne décédée a subit les effets d’un mauvais buzz sur les réseaux sociaux. Ce buzz viral, via le relai de la publication de la facture de relance, a entrainé non seulement

  • un remboursement de la facture
  • des coûts de communication pour calmer le buzz dans les média
  • ainsi qu’une donation à un hospice
  • mais aussi une dégradation de l’image de Virgin Media (difficilement quantifiable)

Le client décédé reçoit une facture de relance avec majoration

L’analyse des flux de paiement bancaire ne prenait visiblement pas tout les cas en compte : un flux ‘D.D Denied-Payer deceased’ devrait être utilisé pour lancer un process spécifique de mise à jour des données client (et accessoirement de recouvrement de la facture sans pénalité).

Un audit des process de US Postal Services a permis de mesurer que le coût de l’imprécision des données dans les différents entrepôts de données représentait 14,9 Millions de dollars (sur 1 milliard de dollars de dépensé à ce jour). Le total est important même si ce montant ne correspond finalement qu’à 1,49% de perte.

Ainsi le coût de la non-qualité de données est une composante primordiale du management de la qualité de données : il est le garde-fou pour les arbitrages des process d’amélioration de la qualité de données.

 5-Les process d’amélioration

  • Qu’il y ait 3% d’erreurs dans une base de données n’est pas un problème en soit. Après tout, les études statistiques tolèrent une marge d’erreur de 5%  alors pourquoi ne pas avoir cette même tolérance vis-à-vis des données d’un système d’information ?
  • Si ces 3%  représentent un cout de 9,3 millions€ en perte de vente et 3,4 Million€ en compensation de client déçus, cela devient alors un problème.
  • Cela devient encore plus problématique si après correction les mêmes erreurs se répètent.

Une entreprise doit donc manager la qualité de donnée et une simple correction à posteriori d’une donnée dégradée n’est pas un process pérène de qualité de données : en effet il ne s’agit là que d’une action ponctuelle et chronophage.

Le traitement des NPAI, après retour des courriers non acheminés, implique :

  • qu’une quantité des fonds de campagne ait été dépensés inutilement
  • et que des coût de recherche des clients NPAI seront encore à mettre en œuvre.

Faire de la qualité de données consiste à maintenir le référentiel client le plus propre possible avant le lancement de la campagne dans le but de minimiser les NPAI et les coûts de la campagne marketing.

Si un process de dégradation ou de non-qualité est identifié comme étant couteux il doit faire l’objet d’un arbitrage et d’un projet d’amélioration du système d’information. La mise en place d’une telle surveillance/arbitrage/projet est ce que l’on appelle l’amélioration de la qualité de données.

En conclusion

« faire de la qualité de données » :

  • … ce n’est pas juste corriger la donnée dégradée une fois rentrée dans le SI,
  • … mais c’est veiller à ce qu’elle n’y entre pas, qu’elle soit détectée et corrigée avant
  • … et s’assurer qu’elle ne reviendra plus.

Le management de la qualité de données vise à maximiser la qualité des données en minimisant les coûts de non qualité de données. Je détaillerai dans un prochain article les différents process qui doivent être mis en œuvre dans ce cadre.

 

* NPAI = N’habite Pas à l’Adresse Indiquée

** CGV = Condition Générale de Vente.

Commentaire

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Voir plus
scroll to top