Management de qualité de données et méthodologie TIMQ

Dans le premier article nous avons vu que l’objectif du management de la qualité de données est de maximiser la qualité des données en minimisant les coûts de traitement de non qualité de données.
Ainsi, il faut être capable de détecter et corriger la donnée dégradée avant qu’elle entre dans le système d’information et s’assurer qu’elle n’y reviendra plus. Pour cela, les méthodologies de MDM s’appuient sur 2 types de process : des process techniques et des process de gouvernance. Lors des deux prochains articles, je vais vous présenter ces différents process, à travers la méthodologie la plus citée dans la communauté des experts : la méthodologie TIQM®.

Introduction sur la méthodologie TIQM®

TIQM® pour Total Information Quality Management
Auteur : Larry P.English
1ere publication 2003
Elle est dérivée des méthodes de management de la qualité industrielle appliquée à la qualité de l’information. Son postulat de départ est que tout process qualité doit être :
- Défini : afin de pouvoir être répété
- Contrôlé : afin d’être cohérent
- Amélioré : afin de prendre en compte la réapparition de nouvelles sources d’erreurs
Elle part du principe que les problèmes de qualité de données sont issus de process obsolètes ou hors de contrôle conséquence d’une industrialisation ou d’un mauvais management des systèmes.

Détail des process de la TIQM®

La méthodologie TIQM® vise à répondre à aux deux objectifs suivants :

mesurer et éliminer les coûts des pertes et de travail de correction (« cost of crap and rework »)
permettre une amélioration continue des process afin d’éliminer les causes de la dégradation des données

Pour cela elle se décompose en 6 Processus techniques et de gouvernance regroupés en 4 parties :

Évaluation de la qualité
Correction et confrontation au réel
Amélioration
Culture d’entreprise

Le cœur du cycle de vie de la TIQM® est le suivant :

Dans cet article, je vais vous présenter les process d’évaluation. Nous verrons dans un second article les trois autres parties.

TIQM® – P1, P2, P3 : évaluation

Trois process d’évaluation permettent de poser les bases de ce que sera une donnée/information de « qualité » et d’en surveiller l’alignement au niveau de qualité défini.

P1 : Qualité des définitions des données et de l’architecture d’information

Objectif : Évaluer la qualité des définitions des données.
La donnée attendue doit être clairement définie, sans ambigüité pour tous les acteurs qui l’utiliseront. Cette évaluation passe par la mesure de la qualité des documentations, dictionnaires de données, de la sémantique et des définitions partagées.
Chacun de ces documents a une fréquence de mise à jours, un niveau de détail, un moyen d’accès, de partage, une fréquence de consultation. On parle alors d’architecture d’information.

Une démarche qualité imposera, par exemple, qu’une évolution dans le SI ne puisse être mise en production tant que la documentation n’est pas mise à jour et validée. (Relecture des documentations par le management, mise en production par une équipe autre que l’équipe de développement).

C’est aussi dans cette étape que nous définirons les indicateurs de qualité d’une donnée.

P2 : Qualité de l’information

Aussi appeler inspection des données, ces process détectent une éventuelle dégradation de la donnée. On retrouve généralement :

Le monitoring: suivi quotidien de l’état de qualité des données par rapport à des critères précis prédéterminés. Le monitoring des flux d’alimentation des données permet d’avoir un checkup quotidien du nombre de lignes alimentées, nombres de rejets, comparatifs des lignes attendues/alimentées.
Le Data profiling : analyse statistique des données présentes dans la base permettant de détecter les valeurs aberrantes, d’analyser le maintien du niveau de qualité de données à travers le temps via
- des statistiques calculées (moyenne, min/max, percentile, répartition de données par fourchette de valeur…)
- les méta-données (Le type de données, la longueur d’un champ, d’une valeur)

Généralement le Data profiling est fait de manière plus ponctuelle, non-automatisée et regroupe les études/analyses qui sont amenées à enrichir les flux de monitoring.

Larry P.English insiste sur l’importance de la confrontation des données au réel. Le monitoring et le Data profiling sont deux process souvent outillés qui permettent de valider la valeur de la donnée. Comme nous l’avons déjà vu dans l’article précédent, une donnée valide n’est pas forcément une donnée juste. Il faut rajouter une phase de confrontation des données.

P3 : Coûts et risques de la non-qualité de l’information

C’est en P3 que nous déterminons les indicateurs à mettre en place pour quantifier la non-qualité des données en terme de Coût / risque. Ils diffèrent des indicateurs du monitoring dans la mesure où il faut y ajouter une surveillance plus globale sur l’ensemble du SI ainsi que d’indicateurs de performance métier.
Chez un de mes clients (domaine des assurances), une personne au sein de la DSI était chargée de la surveillance et du bon scheduling mensuel ou trimestriel du chargement de la chaine application de gestion des contrats d’assurance / entrepôt de données / datamart métiers. Elle s’appuyait sur la comparaison des durées théoriques et durées effectives, nombre d’interventions de relance manuelle nécessaires, pour enfin quantifier en € les coûts estimés par un retard de disponibilité des données du SI. Si une de ces étapes s’avérait devenir, de manière répétée anormalement longue ou dysfonctionnante, elle était sujette à une action d’amélioration pérenne (voir P5).

Cette amélioration continue est un process de la TIMQ® en soit, comme le sont les 3 process suivants de correction et confrontation et de culture d’entreprise que je vous présenterai dans une seconde partie.

Panorama des process de la qualité de données à travers la TIQM (partie 1)