Qualité des données

Cet article est une ébauche concernant l’informatique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Consultez la liste des tâches à accomplir en page de discussion.

Pour les articles homonymes, voir qualité.

La qualité des données, en informatique se réfère à la conformité des données aux usages prévus, dans les modes opératoires, les processus, les prises de décision, et la planification (J.M. Juran).

De même, les données sont jugées de grande qualité si elles représentent correctement la réalité à laquelle elles se réfèrent.

Ces deux points de vue peuvent souvent entrer en contradiction, y compris lorsqu'un même ensemble de données est utilisé avec un objectif commun.

Historique

La plupart des technologies sur les données informatiques sont nées du désir d'envoyer des informations par courrier. Avant l'émergence de serveurs bon marché, les ordinateurs centraux étaient utilisés pour mettre à jour les données (noms, adresses, et autres attributs) afin que les courriers électroniques arrivent correctement à leur destination. Les mainframes utilisaient des règles métiers pour corriger les défauts dans les données (fautes sur les champs nom et date, défauts de structuration), ainsi que pour suivre les clients qui avaient changé d'adresse, disparu, fusionné, ou expérimenté d'autres événements.

Aux États-Unis, les agences de gouvernement commencèrent à mettre à disposition des données postales à quelques sociétés de service pour gérer les entreprises selon le registre de changement d'adresse national (NCOA). Cette technique a fait économiser à de grandes entreprises de grandes sommes d'argent (millions de dollars) en comparaison de la gestion manuelle des données client. Les grandes entreprises ont réduit leurs frais postaux, les factures et courriers atteignant leurs destinataires plus précisément. Vendue à l'origine comme un service, la qualité des données s'est intégrée au sein des organisations grâce à la disponibilité de technologies serveurs abordables.

Bien que la plupart des entreprises pensent au nom et à l'adresse quand elles se préoccupent de qualité des données, on reconnaît aujourd'hui que la qualité des données est la façon d'améliorer tous les types de données, comme les données sur la chaîne logistique, les données des progiciels de gestion intégrée, les données transactionnelles, etc. Par exemple, mettre en conformité les données de la chaîne d'approvisionnement à un certain standard a une valeur pour une organisation en :

évitant de surstocker des stocks similaires mais légèrement différents
améliorant la compréhension d'achats en négociant des remises en quantité
évitant les coûts logistiques en stockant et envoyant des pièces détachées à travers une grande organisation.

Alors que les données sur les noms et adresses ont un standard clair avec les définitions des autorités postales, les autres types de données ont peu de standards reconnus. Il y a une tendance de fond aujourd'hui dans l'industrie pour standardiser certaines données qui ne sont pas des adresses. Le groupe GS1 fait partie des groupes qui sont fers de lance dans ce mouvement.

Importance de la qualité des données

La qualité des données est très importante pour réaliser l'interopérabilité de systèmes complexes. En particulier, elle intervient dans les exigences de traçabilité, qui se manifestent dans plusieurs secteurs économiques :

Santé et pharmacie,
Agroalimentaire et grande distribution,
Chimie,
Automobile...

Dans le même ordre d'idées, la qualité des données intervient aussi dans l'analyse du cycle de vie des produits.

La qualité des données revêt une grande importance également dans le Direct Marketing ou plus globalement la gestion de la relation client (en anglais Customer Relationship Management, CRM) où les données client représentent une source de valeur importante pour les entreprises.

Sous un angle plus directement lié à la sécurité des données, elle intervient dans la gestion des documents d'archive, pour l'imputabilité.

La qualité des informations est l'un des 11 facteurs du modèle d'intelligence économique (AFDIE).

D'après le rapport du CIGREF sur le capital immatériel, la fiabilité et l'audibilités des données conditionnent l'évaluation du capital immatériel des entreprises, et le calcul du retour sur investissement des projets d'ingénierie des connaissances. Il est donc nécessaire de disposer de référentiels de données normalisés pour évaluer la qualité des données.

On peut dire aussi que l'objectif poursuivi par la gestion de contenu de parvenir à une convergence des systèmes de gestion de contenu participe d'une démarche qualité dans le domaine des données.

Qualité des informations dans le modèle d'intelligence économique

Le modèle d'intelligence économique de l'AFDIE identifie six critères de qualité de l'information :

1. Coût et valeur de l'information :

La mise en œuvre des normes IAS/IFRS comporte la comptabilisation du capital immatériel en immobilisations incorporelles ; elle pousse l'entreprise à mieux évaluer la valeur de l'information dans sa stratégie.

2. Connaissances capitalisées et validées,

Le moyen de capitaliser et de valider les connaissances se fait par des projets d'ingénierie des connaissances.

3. Mémoire vivante et accessible,

La mémoire peut être gérée efficacement par une démarche de gestion de contenu, qui visera à unifier les différents systèmes de gestion de contenu présents dans l'entreprise.

4. Informations et connaissances mieux partagées et protégées,

Il s'agit de mettre en place des communautés de pratique, avec des critères permettant de protéger le patrimoine informationnel.

5. Informations écrites et orales indispensables avant la prise de décision,

6. Information prospective et historique.

Il s'agit de disposer d'un référentiel historisé et permettant de faire des analyses prospectives selon des axes d'analyse.

Qualité des données et système décisionnel

Le système décisionnel a pour objet d’aider les décideurs à effectuer des choix pertinents à partir de données historiques. Ceci implique généralement de prendre en charge de grandes quantités de données disparates afin de les calibrer en information suffisamment précise et sûre pour qu’en confiance des actions puissent être définies et lancées. Ce défi classique pour les architectes de systèmes décisionnels est amplifié ces derniers temps par l’augmentation des exigences en matière de variété, de profondeur et de fraîcheur des données historiques à gérer. Dans ce contexte, la vitesse avec laquelle des données peuvent être « nettoyées », « transformées » et intégrées dans un entrepôt de données devient essentielle pour la compétitivité des entreprises.

La qualité d’une donnée dépend d’abord du contexte dans lequel elle a été initialement saisie, mais d’un point de vue décisionnel son intérêt dépend de l’usage qu’un utilisateur peut en faire. La qualité d’une donnée ne doit donc pas être appréciée dans l’absolu mais de façon relative à son intérêt métier. Les besoins métiers évoluant, l’appréciation de la qualité d’une donnée ne peut donc jamais être fixée de façon définitive. Les programmes d’amélioration de la qualité des données doivent être ciblés en fonction des intérêts métier, sinon il y a un fort risque de se créer une charge de travail digne de Sisyphe.

Le danger des données inexactes :

Alors que la qualité des données est le processus de maintenir la fiabilités et la cohérence des valeurs dans le système informatique. Dans nos jours la avec la propagation intense de numérique dans le monde, plus la quantité de données augmente. C'est une opportunité de choix pour qui sait s'en saisir, mais également c'est un risque majeur en cas de négligence. Donc la qualité de données est aujourd'hui une problématique majeure pour la société.

Normalisation

Il existe très peu de normes relatives spécifiquement à la qualité des données. On peut noter toutefois :

La norme ISO 19115 relative aux informations géographiques ;
La norme ISO 8000 (en) relative à la qualité des données de référence (Master data).

Des besoins existent aussi sur les informations contenues dans les ressources informatiques que les informaticiens appellent "non structurées". Des travaux sont en cours pour parvenir à des normalisations des données de référence qui sont utilisées dans ce type de ressources, notamment les ressources Web qui se généralisent et ont besoin de s'interfacer avec d'autres types de ressources informatiques.

Bibliographie

AFDIE, Modèle d'intelligence économique, préface d'Alain Juillet, collection L'intelligence économique, Economica, 2004.
Christophe Brasseur, Data Management : qualité des données et compétitivité, éditions Hermes Science, Collection Management et informatique, 2005.
Michel Fournel, Accroitre la qualité et la valeur des données de vos clients, éditions Publibook, 2007, (ISBN 978-2-7483-3847-8).