Groupes de travail communs UNECE / Eurostat /OCDE sur les métadonnées statistiques

(METIS)

 

 

Modèle générique du processus de production statistique

Version 4.0 – Avril 2009

 

Secretariat de l’UNECE [1]

 

 

I.                      Contexte

 

1.               Les groupes de travail communs UNECE / Eurostat /OCDE sur les métadonnées statistiques ont préparé, au cours de ces dernières années, un cadre commun des métadonnées (CMF) [2] . La partie C de ce cadre s’intitule «   Métadonnées et cycle statistique   ». Cette partie fait référence aux phases du processus de production statistique (aussi appelé chaîne de valeur ajoutée statistique ou cycle statistique) et fournit des termes génériques pour les décrire.

2.               Au cours d’un atelier d’avancement de la partie C du CMF, tenu à Vienne en juillet 2007 [3] , les participants ont convenu que le modèle actuellement utilisé par Statistics New Zealand, augmenté des phases «   Archivage   » et «   Evaluation   » pourrait fournir une base adéquate pour le développement d’un modèle générique du processus de production statistique (GSBPM). Une première version du GSBPM a été présenté par le secrétariat de l’UNECE à la réunion de travail METIS à Luxembourg en avril 2008 [4] . Après deux tours de commentaires, un autre atelier s’est tenu à Lisbonne en mars 2009 [5] pour finaliser le modèle. La version actuelle du modèle (version 4.0) a été approuvée par le comité directeur de METIS pour une diffusion publique en avril 2009. Cette version, considérée comme définitive au moment de sa parution, devra probablement être mise à jour dans les années à venir, soit pour prendre en compte des expériences d’application pratique du modèle, soit pour refléter l’évolution de la nature même de la production statistique. Le lecteur est donc invité à visiter le site www.unece.org/stats/gsbpm pour s’assurer d’avoir la dernière version.

 

II.               Le modèle

 

Objectif

 

3.               La première intention était de fournir aux instituts de statistique la base d’un accord sur une terminologie commune et de les aider dans leurs discussions sur le développement de processus et de systèmes de métadonnées statistiques. Le GSBPM doit donc être vu comme un outil flexible pour décrire et définir l’ensemble des processus opérationnels nécessaires pour produire les statistiques officielles.

L’utilisation du modèle peut aussi s’envisager dans des contextes distincts, mais souvent connexes, comme l’harmonisation des infrastructures de calcul statistique, l’aide au partage des composants logiciels, l’explicitation, dans un guide utilisateur, de l’utilisation de SDMX (système d’échange de données et métadonnées statistiques) au sein d’un institut statistique, ou enfin, pour fournir un cadre à la certification et l’amélioration de la qualité des processus.

Ces autres aspects, pour lesquels le GSBPM peut être utilisé, sont développés dans la section VI.

 


Champ d’application

 

4.               Le GSBPM vise à s’appliquer à toutes les opérations mises en œuvre par les producteurs de statistiques officielles, que ce soit au niveau national ou international, aboutissant à la diffusion de données. Il est conçu de manière à être indépendant de la source de données, et il peut donc être utilisé pour la description et la certification des processus basés sur des enquêtes, des recensements, des données administratives, ainsi que pour d’autres sources non-statistiques ou mixtes.

 

5.               Alors que le processus statistique standard inclut généralement la collecte et la compilation de données brutes pour produire des produits statistiques, le GSBPM s’applique aussi aux cas où des données existantes sont révisées ou lorsque des séries temporelles sont ré-estimées, soit du fait de données plus nombreuses ou de meilleure qualité, soit du fait d’un changement de méthodologie. Dans ces cas, les données en entrée de processus proviennent de la statistique précédemment publiée, et sont alors utilisées et analysées pour produire des données révisées. Dans de tels cas, il est vraisemblable que plusieurs sous-processus voire certaines phases (notamment les premières) ne seront pas effectuées.

 

6.               De la même façon qu’il s’applique à tous les processus aboutissant à des statistiques, le GSBPM peut aussi s’appliquer au développement et à la maintenance des répertoires statistiques, où les entrants sont similaires à ceux de la production statistique (avec un accent particulier sur les données administratives), et les produits sont typiquement des tableaux ou des extractions de données, qui sont alors utilisés comme entrants dans les autres processus.

 

7.               Certains éléments du GSBPM peuvent s’avérer plus pertinents sur certains types de processus que d’autres, du fait du type de données en entrée ou des produits à élaborer. D’autres éléments peuvent se recouvrir les uns les autres, parfois de façon itérative. Dans ce cas, le GSBPM doit être appliqué et interprété de façon flexible. Il ne s’agit pas d’un cadre rigide dont toutes les étapes doivent être suivies strictement mais plutôt d’un modèle qui identifie les étapes du processus de production statistique et les interdépendances entre elles. Bien que la présentation suive la séquence logique des étapes de la plupart des processus, les éléments du modèle peuvent apparaître selon des ordres différents en fonction des circonstances. Dans cette perspective, le GSBPM vise à être suffisamment générique pour être largement applicable, et pour encourager une vision commune des processus statistiques, sans devenir ni trop restrictif, ni trop abstrait et théorique.

 

8.               Dans quelques cas, il peut être approprié de grouper des éléments du modèle. Par exemple, les phases 1 à 3 peuvent être considérées comme une unique phase dans la planification. Dans d’autres cas, il peut être nécessaire d’ajouter un autre niveau d’analyse, plus détaillé, à la structure présentée plus bas pour identifier séparément différents composants des sous-processus. Il peut aussi être nécessaire de faire un découpage formel entre phases, pour signifier qu’un produit d’une phase est certifié comme entrant de la suivante. Cette possibilité de validation formelle est implicite dans le modèle mais peut être implémentée de différentes manières en fonction des besoins organisationnels. Le GSBPM doit être vu comme suffisamment flexible pour s’appliquer à tous les scénarios ci-dessus.

 

Structure

 

9.               Le GSBPM comprend quatre niveaux   :

 

       Niveau 0, le processus statistique   ;

       Niveau 1, les neuf phases du processus   ;

       Niveau 2, les sous-processus à l’intérieur de chaque phase   ;

       Niveau 3, la composition de chacun des sous-processus.

 

10.               Des niveaux de détail plus fins peuvent être nécessaires pour décrire certains processus ou certaines organisations mais il est fort peu probable qu’ils soient suffisamment génériques pour être inclus dans ce modèle. Un diagramme montrant les phases (niveau 1) et les sous-processus (niveau 2) est inclus dans la section IV. Les sous-processus sont décrits en détail dans la section V.

 

11.               Selon la théorie de la modélisation des processus, chaque sous-processus a un certain nombre d’attributs clairement identifiés, dont   :

 

       les intrants   ;

       les sorties (livrables)   ;

       l’objectif (la valeur ajoutée)   ;

       le propriétaire   ;

       les guides (par exemple, manuels et documentation)   ;

       les acteurs (personnes et systèmes)   ;

       les boucles ou mécanismes de rétroaction.

 

Cependant, ces attributs peuvent varier, au moins dans une certaine mesure, selon les processus et les instituts. Pour cette raison, les attributs sont rarement mentionnés spécifiquement dans ce modèle générique. Il est néanmoins fortement recommandé de les identifier lorsque l’on applique le modèle à un processus statistique spécifique.

 

12.               Le GSBPM identifie également quelques processus transverses qui s’appliquent à l’ensemble des neuf phases et à l’ensemble des processus statistiques. Ils peuvent être regroupés en deux catégories, ceux qui ont une composante statistique et ceux plus généraux qui peuvent s’appliquer dans tout institut. Le premier groupe est considéré comme plus important dans le contexte de ce modèle, mais le second groupe apparaît comme ayant des impacts (souvent indirects) sur plusieurs parties du modèle.

 

13.               Les processus statistiques transverses comprennent les items indiqués ci-dessous. Les deux premiers sont très adhérents au modèle et sont donc inclus dans les diagrammes du modèle et décrits plus loin dans la section VI.

 

       Gestion de la qualité - ce processus inclut la certification de la qualité et les mécanismes de contrôle. Il reconnaît l’importance de l’évaluation et des remontées d’information concernant les processus.

       Gestion des métadonnées - les métadonnées sont générées et traitées au sein de chaque phase, un système de gestion des métadonnées est fortement requis pour s’assurer que les métadonnées appropriées conservent leur lien avec les données tout au long du GSBPM.

       Gestion d’un cadre statistique - ceci inclut les standards de développement, par exemple les méthodologies, les concepts et les nomenclatures qui sont à l’œuvre dans de multiples processus.

       Administration du programme statistique - ceci inclut le suivi systématique et le recensement des besoins d’informations nouvelles ainsi que l’évolution des sources de données pour chaque domaine statistique. Cela peut conduire à la définition de nouveaux processus ou à la révision de processus existants.

       Gestion de la connaissance - ceci assure que les processus soient rejouables, principalement par entretien de leur documentation.

       Gestion des données - ceci inclut des considérations indépendantes des processus comme la sécurité générale des données, leur surveillance et leur propriété.

       Gestion des données de processus - ceci inclut la gestion des données et des métadonnées générées par et fournissant de l’information sur toutes les parties du processus statistique.

       Gestion des fournisseurs - ceci inclut la gestion de la charge totale de réponse, aussi bien que des sujets tels que le profilage et la gestion des contacts (et ainsi a des liens forts avec les processus de gestion des répertoires).  

       Gestion des clients - ceci inclut les activités de marketing, la promotion de la culture statistique, et la manière de prendre en compte les réactions des clients usuels.

 

14.               Des processus transverses plus généraux incluent   :

 

       la gestion des ressources humaines   ;

       la gestion financière   ;

       la gestion de projet   ;

       la gestion du cadre juridique   ;

       la gestion du cadre organisationnel   ;

       la planification stratégique.

 

 

 


III.               Relations avec d’autres modèles ou standards

 

15.               Le GSBPM a été développé en s’appuyant fortement sur le GSBPM développé par Statistics New Zealand, augmenté des apports de Statistics Canada relatifs à la phase 8 (Archivage) et d’autres instituts statistiques ayant l’expérience de la modélisation du processus statistique. Cependant, nombre de modèles et de standards en lien avec le GSBPM existent pour différents besoins et au sein de différents organismes, nationaux ou internationaux. Détailler les différents modèles nationaux ne serait guère praticable [6] . En revanche, les principaux modèles et standards internationaux sont considérés ci-dessous, à travers leur relation au GSBPM. Un diagramme de ces relations est inclus à la fin de cette section et montre comment le GSBPM peut être vu comme une réunion des autres modèles, dans la mesure où il reflète tous leurs composants.

 

 

Architecture des systèmes d’information des instituts statistiques nationaux ou internationaux

 

16.               Cet ensemble de préconisations et de recommandations a été publié par les Nations Unies en 1999.

Il contient le modèle des phases et processus de gestion d’enquête indiqué ci-dessous.

Bien que la présentation soit différente dans le GSBPM, le contenu est largement similaire.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Source   : Information Systems Architecture for National and International Statistical Offices – Guidelines and Recommendations, United Nations, 1999, http://www.unece.org/stats/documents/information_systems_architecture/1.e.pdf

 

 

Le modèle “Cycle de Vie des Données"   (CVD) d’Eurostat

 

17.               Le projet CVD ( Cycle de Vie des Données ) vise à réviser de manière fondamentale la façon dont Eurostat traite les données statistiques, en fournissant un ensemble cohérent de concepts, de structures de métadonnées et d’outils informatiques à appliquer à tous les domaines statistiques. Il vise aussi à obtenir des bénéfices significatifs, comme des économies d’échelle pour le développement, l’évolution des outils de calcul et la poursuite d’objectifs organisationnels importants, comme la prise en compte de la qualité et une mobilité facilitée des gestionnaires de domaine. Le projet CVD se centre sur les métadonnées considérées comme le concept d’intégration de base, reconnaissant que les métadonnées ont un rôle omniprésent et décisif dans le processus de production statistique.Il prend aussi en compte le GSBPM pour la modélisation des processus statistiques. Les standards et manuels SDMX jouent un rôle-clé dans l’ensemble du CVD, depuis la transmission de données jusqu’à la diffusion, ainsi que pour l’échange de données entre composants du système de production.

 

 

Le modèle DDI 3.0

 

18.               Ce modèle a été développé au sein de l’initiative DDI (Data Documentation Initiative), effort international visant à établir un standard pour la documentation technique qui décrit les données en sciences sociales. L’Alliance DDI se compose principalement d’institutions académiques et de recherche, le champ de ce modèle étant donc sensiblement différent du GSBPM, qui s’applique spécifiquement aux instituts de statistique officiels. Malgré cela, le processus statistique apparaît sensiblement similaire, entre producteurs de statistiques officielles ou non-officielles, comme l’indique le haut niveau de cohérence entre leurs modèles.

 

19.               Les principales différences entre ces modèles sont   :

 

       Le GSBPM situe l’archivage des données à la fin du processus, après la phase d’analyse. Il peut aussi constituer la fin du processus dans une mise en œuvre spécifique du modèle DDI, mais la différence essentielle est que le modèle DDI n’est pas nécessairement limité aux processus internes à une organisation. Des étapes comme l’analyse des données ou la réanalyse peuvent être menées par des organismes distincts de ceux qui ont collecté les données.

       Le modèle DDI remplace la phase de diffusion par la «   distribution des données   » qui s’effectue avant l’analyse. Ceci reflète une différence d’appréciation entre le monde de la recherche et celui de la statistique officielle, ce dernier portant une attention plus grande à la diffusion des données qu’à la recherche sur des données diffusées par d’autres.

       Le modèle DDI inclut le processus de «   réanalyse   » [7] , défini comme l’utilisation secondaire des données, ou la création d’un fichier de données harmonisé, réel ou virtuel. Ceci fait généralement référence à une réutilisation de données dans une optique qui n’était pas initialement prévue dans les phases de conception et de collecte. Ceci est couvert par la phase 1 du GSBPM (spécification des besoins), où un sous-processus vise à vérifier la disponibilité de données existantes et à les utiliser si c’est possible. Cela transparaît aussi dans le sous-processus d’intégration des données au sein de la phase 5 (traitement).

       Le modèle DDI présente des phases différentes pour l’exploration des données et l’analyse des données, tandis que ces fonctions sont confondues dans la phase 6 (analyse) du GSBPM. Dans quelques cas, des éléments de la phase d’analyse du GSBPM peuvent être couverts par la phase DDI de «   traitement des données   », en fonction de l’étendue du travail d’analyse préalable à la phase de «   diffusion des données   ».

Source   : Data Documentation Initiative (DDI) Technical Specification, Part I: Overview, Version 3.0, April 2008, http://www.ddialliance.org .

 

SDMX

 

20.               Le standard SDMX (Statistical Data and Metadata eXchange) [8] ne fournit pas un modèle des processus statistiques au même titre que les trois cas présentés ci-dessus. Cependant, il fournit une terminologie standard pour les données et métadonnées statistiques, ainsi que des standards techniques et des recommandations orientées contenu pour le transfert de données ou de métadonnées, qui peuvent aussi être appliqués entre sous-processus au sein d’un institut statistique. L’usage de structures de données et de métadonnées communément acceptées permet de mettre en correspondance ou de traduire les données et métadonnées échangées à partir ou à destination des systèmes internes. Pour faciliter cet usage, les promoteurs du SDMX ont publié un ensemble de concepts multi-domaines en janvier 2009. L’utilisation de ces concepts communs peut fournir une aide à la standardisation et à l’amélioration des transmissions de données et de métadonnées entre différentes institutions, quand bien même leurs modèles et leurs systèmes seraient différents. En ce qui concerne la transmission de métadonnées, la mise en correspondance des concepts de métadonnées utilisés par les différents organismes internationaux, qui figure également dans l’ensemble de recommandations orientées contenu de SDMX, accrédite l’idée d’échange ouvert et de partage des métadonnées, sur la base d’une terminologie commune.

 

21.               La relation entre le modèle et SDMX a été discutée lors de la rencontre d’avril 2008 du groupe METIS. Le rapport final de cette réunion [9] (paragraphe 22) suggère d’incorporer le modèle dans le Vocabulaire Commun des Métadonnées et/ou d’introduire SDMX comme un concept multi-domaines. SDMX vise, au travers des recommandations orientées contenu, à harmoniser la terminologie et la qualité des données et métadonnées, tout autant qu’à fournir des standards de transmission. Le GSBPM, en offrant une terminologie standard pour les différentes phases et sous-processus du travail statistique, apparaît complémentaire aux recommandations orientées contenu de SDMX et semble s’y adapter logiquement.


Relations entre les différents modèles

 

Modèle générique du processus de production statistique

 

Modèle d’architecture des systèmes d’information

 

Modèle combiné du cycle de vie DDI 3.0

 

 

 

 

 

 

1 Définir les besoins

 

 

 

Planification

Spécification du contenu de l’enquête

Etablissement de la méthodologie d’enquête/ de collecte

 

 

Etude des concepts

Réanalyse (partiel)

 

2 Concevoir

 

 

3 Construire

 

 

4 Collecter

 

Opérations (partiel)
- Création de la base de sondage

- Échantillonnage

- Mesure

 

 

Collecte des données

 

5 Traiter

 

 

Opérations (partiel)

- Préparation des données

- Création du fichier d’observation

 

 

Traitement des données (Majeure partie)

Réanalyse (partiel)

 

 

6 Analyser

 

Opérations (partiel)

- Estimation et analyse

 

Ếvaluation (partiel)

- Vérification des résultats de l’enquête

 

Exploration des données

 

Analyse des données

 

Traitement des données (partiel)

 

 

7 Diffuser

 

 

Opérations (partiel)

- Mise en forme et diffusion

 

 

Mise à disposition des données

 

8 Archiver

 

 

 

Archivage des données

 

9 Ếvaluer

 

 

Ếvaluation (partiel)

- Évaluation des métadonnées de réaction

 

 

 

 

 

 

Gestion de la qualité

 

 

 

 

Gestion des métadonnées

 

 

 


IV Niveaux 1 et 2 du modèle générique du processus de production statistique

 

 


 

V. Niveaux 2 et 3 du modèle générique du processus de production statistique

 

22.               Cette section examine tour à tour chacune des phases, en identifiant les sous-processus qui les composent et en décrivant leur contenu. Elle couvre donc les niveaux 2 et 3 du modèle GSBPM.

 

Phase 1 – Définir les besoins

 

 

 

 

 

 

 

 

 

 

 

 

 

23.               Cette phase est initialisée lorsqu’un besoin de nouvelle statistique est identifié, ou quand les retours d’information sur des statistiques existantes déclenchent un audit. Elle détermine s’il y a réellement une demande non satisfaite, en interne ou en externe, pour cette statistique et si l’organisation statistique peut produire l’information demandée.

 

24.               Pendant cette phase, l’organisation   :

 détermine le besoin pour cette statistique   ;

 valide, de façon plus détaillée, les besoins des différentes parties prenantes   ;

 établit les objectifs stratégiques des produits statistiques   ;

 identifie les concepts et variables pertinents pour lesquels des données sont nécessaires   ;

 vérifie si les données et methodologies existantes peuvent répondre aux besoins   ;

 prépare l’étude de faisabilité qui permettra d’obtenir le feu vert pour produire la statistique.

 

25.               Cette phase est divisée en six sous-processus. Ces sous-processus sont à considérer séquentiellement, de la gauche vers la droite, mais peuvent aussi se dérouler en parallèle ou sous forme itérative.

 

Ces sous-processus sont   :

 

1.1. Déterminer les besoins d’information - Ce sous-processus inclut les investigations initiales qui permettront d’identifier quelles statistiques sont nécessaires et pour quels besoins.

Il comprend également l’examen des pratiques d’autres organisations statistiques (nationales ou internationales) produisant des données similaires, et en particulier des méthodes utilisées par ces organisations.

 

1.2. Consulter sur les besoins et les valider - Ce sous-processus met l’accent sur la consultation des parties prenantes et la confirmation détaillée des besoins de statistiques. Une bonne compréhension des besoins des utilisateurs est nécessaire pour que l’organisation statistique sache non seulement ce qu’ils attendent, mais aussi quand, comment et surtout pourquoi. Pour les itérations suivantes de cette phase, le plus important sera de déterminer, parmi les besoins précédemment identifiés, ceux qui ont changé. Cette compréhension détaillée des besoins des utilisateurs est le point critique de ce sous-processus.

 

1.3. Ếtablir les objectifs en termes de produits - Ce sous-processus identifie les produits statistiques nécessaires pour répondre aux besoins des utilisateurs, identifiés dans le sous-processus 1.2 ( Échanger sur les besoins et les valider ). Il comprend l’obtention d’un accord avec les utilisateurs sur l’adéquation des produits aux besoins et sur la qualité requise.

 

1.4. Identifier les concepts - Ce sous-processus clarifie les concepts qui doivent être mesurés par le processus statistique, du point de vue de l’utilisateur. Ầ ce stade, les concepts identifiés peuvent ne pas être alignés avec les normes statistiques existantes. Cet alignement, ainsi que le choix et la définition des concepts et variables statistiques à utiliser, relèvent du sous-processus 2.2.

 

1.5. Vérifier la disponibilité des données - Ce sous-processus vérifie si des sources de données existantes pourraient répondre aux besoins des utilisateurs, et examine leurs conditions de disponibilité et les éventuelles restrictions d’usage. Une évaluation des solutions alternatives possibles devrait normalement inclure la recherche de sources de données administratives potentielles et l’examen de leurs méthodes d’élaboration, pour déterminer si elles seraient exploitables dans un but statistique.

Lorsque les sources existantes ont été évaluées, une stratégie visant à combler les éventuelles lacunes en termes de données nécessaires est définie .

Ce sous-processus comprend également une évaluation plus générale du cadre juridique dans lequel les données seraient collectées et utilisées , et permet donc d’identifier d’éventuelles propositions d’évolution de la législation existante .

 

1.6. Préparer et réaliser l’étude de faisabilité - Ce sous-processus rassemble les apports des autres sous-processus de la phase sous la forme d’une étude de faisabilité afin d’obtenir l’autorisation de mettre en œuvre le nouveau processus de production statistique, ou sa version modifiée.

Une telle étude de faisabilité devrait typiquement comporter :

       Une description du processus de production existant (s’il en existe un), avec des informations sur la façon dont les statistiques actuelles sont produites, en mettant en évidence les inefficacités et les problèmes à traiter   ;

       La solution-cible envisagée, détaillant la manière dont le processus statistique pourrait être développé pour produire les statistiques nouvelles ou révisées   ;

       Une évaluation des coûts et avantages, ainsi que la liste des contraintes externes .

 

 

Phase 2 – Concevoir

 

 

26.               Cette phase décrit les activités de développement et de conception , ainsi que tous les travaux de recherche associés, nécessaires pour définir les produits statistiques, les concepts, méthodologies, instruments de collecte et processus opérationnels. Dans le cas de productions statistiques régulières, cette phase intervient lors de la première itération puis à chaque fois que des actions d'amélioration sont identifiées en phase 9 (Évaluer) d’une précédente iteration.

 

27.               Cette phase est divisée en 6 sous-processus. Ces sous-processus sont à considérer séquentiellement, de la gauche vers la droite, mais peuvent aussi se dérouler en parallèle ou sous forme itérative.

 

Ces sous-processus sont   :

 

2.1. Concevoir les produits Ce sous-processus comporte la conception détaillée des résultats statistiques à produire, y compris les travaux de développement liés et la préparation des systèmes et des outils utilisés dans la phase 7 (Diffuser). Les produits devraient être conçus, autant que possible, selon les standards existants, afin que les intrants de ce processus puissent incorporer des métadonnées provenant de collectes précédentes ou similaires, des normes internationales et des informations sur les pratiques d'autres organismes statistiques, comme indiqué dans le sous-processus 1.1 (Déterminer les besoins d’information).

 

2.2. Élaborer la description des variables – Ce sous-processus définit les variables statistiques à recueillir par le dispositif de collecte de données, les variables qui en seront dérivées, via le sous-processus 5.5 (Dériver de nouvelles variables et unités statistiques), ainsi que les nomenclatures à utiliser. Il est entendu que les normes nationales et internationales existantes seront respectées autant que possible . Ce sous-processus peut devoir se dérouler en parallèle au sous-processus 2.3 (Définir la méthode de collecte des données), dans la mesure où les variables à collecter et le choix de l’instrument de collecte semblent dans une certaine mesure inter-dépendants. La préparation des métadonnées décrivant les variables collectées ou dérivées et les nomenclatures utilisées est une condition préalable au déroulement des phases ultérieures.

 

2.3. Définir la méthode de collecte des données - Ce sous-processus définit les méthodes et instruments de collecte les plus appropriés. Les activités de ce sous-processus seront différentes selon le type d'instruments de collecte nécessaires, qui peuvent inclure des interviews assistées par ordinateur, des questionnaires papier, des transmissions de données administratives et des techniques d'intégration de données. Ce sous-processus inclut la conception des questions et des cadres de réponse (en conjonction avec les variables et nomenclatures conçues lors du sous-processus 2.2 ( Élaborer la description des variables ). Il inclut aussi la mise au point de tous accords formels nécessaires à la fourniture de données , sous forme de protocoles d’accord par exemple, et la confirmation du fondement juridique de la collecte de données.

Ce sous-processus est facilité par des outils tels que des bibliothèques de questions (pour faciliter la réutilisation des questions et des attributs liés), des outils d’élaboration de questionnaires (afin de permettre la compilation rapide et facile des questions dans des formats adaptés aux tests cognitifs) et des modèles pour les protocoles d’accord (pour aider à la standardisation des termes et conditions). Ce sous-processus comprend également la conception de systèmes de gestion des différents modes de livraison des données.

 

2.4. Définir la méthodologie d’échantillonnage - Ce sous-processus identifie et spécifie la population cible, définit une base de sondage (et, le cas échéant, le répertoire dont elle est dérivée), détermine les critères et la méthodologie de sondage les plus appropriés (ce qui peut inclure une énumération complète). Les sources couramment utilisées sont des répertoires administratifs et statistiques, des recensements et des enquêtes par sondage. Ce sous-processus décrit comment ces sources peuvent être combinées si nécessaire. Il conviendrait de vérifier que la base de sondage inclut effectivement la population cible. Un plan de sondage doit être préparé. L'échantillon effectif est créé lors du sous-processus 4.1 (Tirer l’échantillon), en utilisant la méthodologie spécifiée dans ce sous-processus.

 

2.5. Concevoir la méthodologie de traitement statistique - Ce sous-processus conçoit la méthodologie de traitement statistique à appliquer pendant la phase 5 ( Traiter les données ) et la phase 6 (Analyser). Cela peut inclure la spécification des programmes de codage, de vérification, d'imputation, d'estimation, d’appariement, de validation et de finalisation des fichiers de données.

 

2.6. Définir le système de production et de gestion des flux - Ce sous-processus permet de préciser le workflow, de la collecte de données à l'archivage, en ayant une vue d'ensemble sur tous les processus mis en oeuvre, en veillant à ce qu'ils s’enchaînent efficacement sans lacunes ni redondances.

Différents systèmes et bases de données sont utilisés tout au long du processus. Un principe général consiste à réutiliser les mêmes processus et technologies pour différents processus statistiques   : il convient donc d’examiner les systèmes et bases de données existants afin de déterminer dans quelle mesure ils sont aptes à servir un processus spécifique, et de ne concevoir de nouvelles solutions que si des manques sont identifiés.

Ce sous-processus examine également comment le personnel interagira avec les systèmes, et qui sera responsable de quoi et quand.

 

 

 

 

 

 


Phase 3 – Construire

 

28.               Cette phase construit et teste les systèmes de production jusqu’au moment où ils sont prêts pour une utilisation dans l’environnement de production. Pour la production régulière de résultats statistiques, cette phase a généralement lieu lors de la première mise en oeuvre, ou à l’occasion d’un audit ou d’un changement de la méthodologie, plutôt qu’à chaque itération. Elle est décomposée en six sous-processus, qui sont généralement séquentiels, de gauche à droite, mais qui peuvent aussi se dérouler en parallèle et peuvent être itérés. Ces sous-processus sont   :

 

3.1. Construire les outils de collecte - Ce sous-processus décrit les activités de construction des outils de collecte qui seront utilisé dans la phase 4 (Collecter). Les outils de collecte sont générés ou construits à partir des spécifications de conception élaborées dans la phase 2 (Conception). La collecte peut utiliser un ou plusieurs modes d’acquisition des données, par exemple entretiens en tête à tête ou au téléphone   ; questionnaires papier, électroniques ou internet   ; hubs SDMX. Les outils de collecte peuvent aussi être des programmes d’extraction de données utilisés pour rassembler les données à partir de sources statistiques ou administratives existantes. Ce sous-processus inclut également la préparation et le test du contenu et du fonctionnement des outils de collecte (par exemple, tester les questions d’un questionnaire). Il est recommandé d’envisager une connexion directe entre les outils de collecte et le système de métadonnées statistiques, afin que la saisie des métadonnées soit facilitée lors de la phase de collecte. La connexion entre les métadonnées et les données au moment de la saisie peut économiser du travail dans les phases ultérieures. Capter les métriques de collecte des données (paradata) est également un élément important dans ce sous-processus.

 

3.2. Créer ou enrichir les composants des traitements - ce sous processus décrit les activités visant la construction de nouveaux composants logiciels et l’enrichissement de composants logiciels existants, conformément à ce qui a été prévu dans la phase 2 (Concevoir). Ces composants peuvent inclure des fonctions de tableau de bord, des réceptacles de données, des outils de transformation, des composants de structure de workflow, des outils de gestion des fournisseurs de données et des métadonnées.

 

3.3. Configurer la gestion des flux - Ce sous-processus configure le workflow, les systèmes et les transformations utilisées dans les processus statistiques, depuis la collecte des données jusqu’à l'archivage des produits statistiques finals. Il garantit que le workflow spécifié dans le sous-processus 2.6 ( Définir le système de production et de gestion des flux ) fonctionne en pratique.

 

3.4. Tester le système de production – Dans ce sous-processus se déroulent les tests des systèmes informatiques et des outils. Il comprend les essais techniques et la validation des nouveaux programmes et composants, ainsi que la confirmation que les composants existants provenant d'autres processus statistiques sont aptes à être utilisés dans ce cas . Tandis que la partie de cette activité qui concerne les tests de composants individuels pourrait logiquement être liée au sous-processus 3.2 (Construire ou enrichir les composants des traitements), ce sous-processus inclut également les tests d'interaction entre les composants et la validation du fait que le système de production fonctionne comme un ensemble cohérent de composants.

 

3.5. Tester le processus de production   - Ce sous-processus décrit les activités qui permettent de gérer un test sur le terrain ou un pilote du processus statistique métier. En général, il comporte une collecte de données à petite échelle, pour tester les outils de collecte, suivie par le traitement et l'analyse des données collectées, pour s’assurer que le processus statistique fonctionne comme attendu. À la suite du projet pilote, il peut s’avérer nécessaire de revenir à une étape précédente et de procéder à des ajustements des outils, des systèmes ou des composants. Pour un processus statistique majeur, par exemple un recensement de population, il peut y avoir plusieurs itérations jusqu'à ce que le processus fonctionne de manière satisfaisante .

 

3 .6. Finaliser le système de production - Ce sous-processus comprend les activités visant à remettre le processus, y compris les systèmes de workflow, les composants modifiés ou nouvellement construits, dans l’environnement de production prêt à l'emploi par les métiers concernés. Les activités comprennent   :

 

       Produire la documentation sur les composants du processus, y compris la documentation technique et les manuels de l'utilisateur   ;

       Former les utilisateurs du métier sur la façon d'opérer le processus   ;

       Mettre dans l’environnement de production les composants du processus, et s'assurer qu'ils fonctionnent comme prévu dans cet environnement (cette activité peut également faire partie du sous-processus 3.4 (tester la production)).

 

Phase 4 – Collecter

 

29.               Cette phase permet de collecter toutes les données nécessaires, en utilisant différents modes de collecte (y compris des extractions à partir de répertoires et de bases de données administratifs ou statistiques), et de les charger dans le dispositif de stockage approprié. Elle ne comprend pas les transformations opérées sur les données recueillies, car elles sont toutes exécutées en phase 5 (Traiter les données). Pour la production de statistiques régulières, cette phase est exécutée à chaque itération.

 

30.               La phase «   Collecter   » est divisée en quatre sous-processus, qui sont généralement séquentiels, de gauche à droite, mais peuvent également s’exécuter en parallèle et peuvent être itérés. Ces sous-processus sont   :

 

4.1. Tirer l’échantillon - Ce sous-processus établit la base de sondage et tire l'échantillon pour cette itération de la collecte, comme spécifié au sous-processus 2.4 (Définir la méthodologie d'échantillonnage). Il comprend également la coordination des échantillons entre les occurrences d'un même processus statistique métier (pour gérer par exemple les chevauchements ou les rotations), et entre les différents processus utilisant une base de sondage ou une source communs (pour gérer les chevauchements par exemple ou répartir la charge de gestion des réponses). L’assurance qualité, la validation et la maintenance de la base de sondage et de l'échantillon tiré sont également effectuées dans ce sous-processus, bien que la maintenance des répertoires sous-jacents, dont les bases de sondage utilisées par plusieurs processus statistiques opérationnels sont tirées, soit traitée comme un processus métier distinct. Le volet échantillonnage de ce sous-processus n'est généralement pas pertinent pour les processus entièrement basés sur l'utilisation de sources de données pré-existantes (par exemple, des données administratives), dans la mesure où de tels processus créent généralement des bases de sondage à partir des données disponibles et suivent ensuite une démarche de recensement.

 

4.2. Mettre en place le processus de collecte - Ce sous-processus permet de s'assurer que les personnes, les processus et la technologie sont prêts pour la collecte les données, dans tous les modes prévus. Il se déroule sur une période de temps, car il comprend la stratégie, la planification et la formation en préparation pour l’occurrence considérée du processus statistique métier. Lorsque le processus est répété régulièrement, certaines (ou toutes) de ces activités peuvent ne pas être explicitement requises à chaque itération. Pour les processus non répétitifs ou nouveaux, ces activités peuvent prendre du temps. Ce sous-processus comprend les activités suivantes   :

       Préparer une stratégie de collecte   ;

       Former le personnel de collecte   ;

       S’assurer que les ressources nécessaires à la collecte sont disponibles (par exemple, ordinateurs portables)   ;

       Configurer les systèmes de collecte pour l’enquête et la réception des données   ;

       Assurer la sécurité des données à collecter   ;

       P réparer les outils de collecte (par exemple   : imprimer les questionnaires, les pré-remplir avec les données existantes, charger les questionnaires et les données sur les ordinateurs des enquêteurs, etc.).

 

4.3. Procéder à la collecte - Ce sous-processus est celui où la collecte est mise en œuvre, avec les différents outils de collecte utilisés pour collecter les données. Il comprend le premier contact avec les enquêtés et toutes les actions ultérieures de suivi ou de rappel. Il enregistre quand et comment les enquêtés ont été contactés et s’ils ont répondu. Ce sous-processus comprend aussi la gestion des enquêtés impliqués dans la collecte en cours, s'assurant que la relation entre l'organisation statistique et les enquêtés reste positive, enregistrant et répondant aux commentaires, requêtes et plaintes. Pour les données administratives, ce processus est court : le fournisseur de ces données est soit contacté pour qu’il envoie les données, ou les envoie à une date prévue. Lorsque la collecte répond à ses objectifs (généralement basés sur des taux de réponse) la collecte est close et un bilan de collecte est produit.

 

4.4. Finaliser la collecte - Ce sous-processus inclut le chargement des données et des métadonnées collectées dans un environnement électronique approprié aux traitements ultérieurs de la phase 5 (Traiter les données). Il peut inclure une acquisition automatique des données, par exemple en utilisant des outils de reconnaissance optique des caractères pour extraire des données des questionnaires papier, ou en convertissant les formats des fichiers de données reçus d'autres organisations. Dans les cas où il existe un outil matérialisé de collecte de données, comme un questionnaire papier, qui n'est pas nécessaire pour les traitements ultérieurs, ce sous-processus gère l'archivage de ce matériel en conformité avec les principes établis dans la phase 8 (Archiver).

 

Phase 5 –Traiter les données

 

 

31.               Cette phase décrit l’apurement des données et leur préparation pour l'analyse. Elle est composée de sous-processus qui vérifient, apurent et transforment les données collectées et peut être répétée plusieurs fois. Pour la production des statistiques produites régulièrement, cette phase a lieu à chaque itération. Les sous-processus de cette phase peuvent s'appliquer aux données provenant de sources à la fois statistiques et non statistiques (avec l'exception possible du sous-processus 5.6 (Calculer les pondérations), qui est en général spécifique des données d'enquête).

 

32.               Les phases «Traiter les données» et «Analyser» peuvent être itérées et se dérouler en parallèle. L'analyse peut révéler une compréhension plus fine des données, qui pourrait faire apparaître qu’un traitement complémentaire des données est nécessaire. Les activités au sein des phases "Traiter les données" et "Analyser" peuvent commencer avant la fin de la phase "Collecter". Cela permet la compilation de résultats provisoires lorsque l'actualité est une préoccupation importante pour les utilisateurs, et augmente le temps disponible pour l'analyse. La différence clé entre ces phases est que "Traiter les données" concerne des transformations des microdonnées, tandis que «Analyser» concerne le traitement ultérieur des agrégats statistiques.

 

33.               Cette phase se décompose en huit sous-processus, qui peuvent être séquentiels, de gauche à droite, mais peuvent également se dérouler en parallèle et peuvent être itérés. Ces sous-processus sont   :

 

5.1. Intégrer les données - Ce sous-processus intègre les données d'une ou plusieurs sources. Les données en entrée peuvent être à la fois de sources externes ou internes, et correspondre à différents modes de collecte, incluant des extraits de sources administratives. Le résultat est un fichier de données harmonisées. L'intégration des données comporte typiquement   :

       des programmes d’appariement / couplage d'enregistrements, dans le but de relier les données provenant de différentes sources, lorsque ces données se rapportent à la même unité   ;

       La p riorisation, lorsque deux ou plusieurs sources contiennent des données pour la même variable (avec éventuellement des valeurs différentes).

L’intégration de données peut avoir lieu à n'importe quel moment dans cette phase, avant ou après l'un des autres sous-processus. Il peut également y avoir plusieurs occurences d'intégration de données dans tout processus statistique. Suite à l'intégration, selon les exigences définies en matière de protection des données, les données peuvent être anonymisées, c’est à dire dépouillées d'éléments d'identification tels que le nom et l'adresse, pour aider à protéger la confidentialité.

 

5.2. Classer et coder les données - Ce sous-processus classe et code les données en entrée. Par exemple des routines de codage automatique (ou de bureau) peuvent attribuer des codes numériques aux réponses textuelles selon une classification pré-déterminée.

 

5.3. Contrôler, qualifier, redresser les données - C e sous-processus s'applique aux micro-données collectées, et examine chaque enregistrement pour essayer d'identifier (et le cas échéant, redresser) les problèmes potentiels, les erreurs et les écarts tels que les valeurs aberrantes, les non-réponses partielles et les erreurs de codage. On y fait également référence comme processus de validation des données en entrée. Il peut être exécuté de manière itérative, en validant les données vis-à-vis de règles prédéfinies, généralement dans un ordre défini. Il peut appliquer des corrections automatiques, ou signaler des alertes pour une vérification et un redressement manuel des données. Ce processus peut s'appliquer aux enregistrements unitaires provenant d'enquêtes aussi bien que de sources administratives, avant et après l'intégration. Dans certains cas, l'imputation des données (sous-processus 5.4) peut être utilisée comme une forme d’apurement.

 

5.4. Imputer les données - Lorsque les données sont manquantes ou non fiables, des estimations peuvent être imputées, souvent sur la base de règles. Les étapes spécifiques comprennent généralement   :

       L'identification des erreurs potentielles et des données manquantes   ;

       La sélection des données à inclure ou exclure des routines d'imputation   ;

       L’imputation, utilisant une ou plusieurs méthodes pré-définies, par exemple le «   hot-deck   » ou le «   cold-deck   »   ;

       L’enregistrement des données imputées dans le fichier et leur marquage en tant que données imputées   ;

       La production de métadonnées sur le processus d'imputation.

 

5.5. Dériver de nouvelles variables et unités statistques - C e sous-processus déduit (les valeurs pour) les variables et les unités statistiques qui ne sont pas explicitement prévues dans la collecte, mais qui sont nécessaires pour fournir les produits attendus. Il dérive de nouvelles variables en appliquant des formules arithmétiques à une ou plusieurs des variables qui sont déjà présentes dans la base. Cette opération peut avoir besoin d’être itérée, car certaines variables dérivées peuvent elles-mêmes être fondées sur d'autres variables dérivées. Il est donc important de s'assurer que les variables sont dérivées dans le bon ordre. De nouvelles unités statistiques peuvent être calculés par agrégation ou fractionnement des données des unités de collecte, ou par diverses autres méthodes d'estimation. Les exemples incluent la dérivation d’unités ménages à partir d’unités de collecte personnes ou la dérvation d’unités entreprises à partir d’unités de collecte entités juridiques.

 

5.6. Calculer les pondérations - Ce sous-processus crée des pondérations pour les enregistrements unitaires, selon la méthodologie définie dans le sous-processus 2.5 (Concevoir la méthodologie de traitement statistique). Ces pondérations peuvent être utilisées pour «majorer» des résultats d’enquêtes par sondage afin de les rendre représentatif de la population cible, ou pour tenir compte des non-répondants dans les totaux.

 

5.7. Calculer les  agrégats - Ce sous-processus crée des données agrégées et des totaux de population à partir des micro-données. Il comprend le calcul d’agrégats pour les sous-populations partageant certaines caractéristiques, la détermination de mesures de moyenne et de dispersion et l'application des pondérations du sous-processus 5.6 aux données d'enquête par sondage pour obtenir les totaux de population.

 

5.8. Finaliser les fichiers de données Ce sous-processus rassemble les résultats des autres sous-processus de cette phase et les résultats dans un fichier de données (généralement des macro-données), qui est utilisé comme entrée de la phase 6 (Analyser). Parfois, cela peut être une version intermédiaire plutôt que le fichier final, en particulier pour les processus métier où il y a des contraintes de délai fortes, et une exigence de production d’estimations préliminaires puis finales.

 

Phase 6 – Analyser

 

 

 

 

.              

34               Dans cette phase, les statistiques sont produites, examinées en détail et préparées pour la diffusion. Cette phase comprend les sous-processus et activités qui permettent aux statisticiens analystes de comprendre les statistiques produites. Pour la production des statistiques périodiques, cette phase se produit à chaque itération. La phase d'analyse et ses sous-processus sont génériques pour tous les produits statistiques, indépendamment de l’origine des données.

 

35.               La phase d'analyse se décompose en cinq sous-processus, qui sont généralement séquentiels, de gauche à droite, mais qui peuvent également se dérouler en parallèle, et de façon itérée. Les sous-processus sont :

 

6.1. Préparer la version préliminaire des résultats - Ce sous-processus est celui par lequel les données collectées sont transformées en produits statistiques. Il comprend l'élaboration de statistiques supplémentaires telles que des indices, des tendances ou des séries corrigées des variations saisonnières, ainsi que l'enregistrement des indicateurs de qualité.

 

6.2. Valider les résultats - Ce sous-processus est celui où les statisticiens valident la qualité des produits réalisés, en conformité avec un cadre général d’assurance qualité et avec les attentes. Ce sous-processus comprend également les activités contribuant à la compréhension du domaine d’analyse, par construction cumulative d’un corpus de connaissances sur un domaine statistique spécifique. Cette connaissance est ensuite utilisée à la collecte en cours, dans le contexte présent, pour identifier toute divergence par rapport aux attentes et permettre des analyses éclairées. Les activités de validation peuvent comprendre :

       Vérifier que la couverture de la population et les taux de réponse correspondent à ce qui était requis   ;

       Comparer les statistiques avec les cycles précédents (le cas échéant)   ;

       Confronter les statistiques à d'autres données pertinentes (internes et externes)   ;

       Rechercher les incohérences dans les statistiques   ;

       Exécuter des macro-contrôles   ;

       Valider les statistiques par rapport aux valeurs attendues et à la compréhension du domaine d’information.

 

6.3. Analyser et expliquer - Ce sous-processus est celui où les statisticiens acquièrent une compréhension approfondie des résultats. Ils utilisent cette compréhension pour vérifier et expliquer les statistiques produites pour le présent cycle, en évaluant la façon dont les statistiques reflètent leurs attentes, en examinant les statistiques de plusieurs points de vue, en utilisant différents outils ou médias et en réalisant des analyses statistiques en profondeur.

 

6.4. Appliquer les contrôles de confidentialité Ce sous-processus garantit que les données (et métadonnées) qui seront diffusées ne violent pas les règles retenues en matière de confidentialité. Ceci peut inclure les contrôles primaires et secondaires de divulgation, ainsi que l’application de techniques de suppression ou de perturbation de données.

 

6.5. Finaliser les résultats - Ce sous-processus permet de s’assurer que les statistiques et les informations associées sont conformes aux objectifs et atteignent le niveau de qualité requis, et sont donc prêtes à l'emploi. Il comprend les activités suivantes :

       Achever les contrôles de cohérence   ;

       Déterminer le niveau de détail de la diffusion et mettre en place les avertissements   ;

       Collationner l’information d’appui, qui inclut les commentaires d’interprétation, les notes, les mesures d'incertitude et toutes autres métadonnées utiles   ;

       Produire les documents d’appui internes   ;

       Discuter sur un pilote de sortie avec les experts internes appropriés   ;

       Approuver le contenu statistique pour publication.

 

 

Phase 7 – Diffuser

 

36.               Cette phase gère la publication des produits statistiques pour les clients. Pour les statistiques produites régulièrement, cette phase a lieu à chaque itération. Elle est composée de cinq sous-processus, qui sont généralement séquentiels, de gauche à droite, mais peuvent également se dérouler en parallèle, et de façon itérée. Ces sous-processus sont   :

 

7.1. Mettre à jour les sytèmes de diffusion - C e sous-processus gère la mise à jour des systèmes où les données et les métadonnées sont stockées à des fins de diffusion   ; il comprend :

Le formatage des données et des métadonnées, prêtes à être déposées dans les bases de données de diffusion   ;

Le chargement de données et de métadonnées dans les bases de données de diffusion   ;

La vérification que les données sont liées aux métadonnées pertinentes.

Note   : le formatage, le chargement et la liaison des métadonnées devraient de préférence avoir lieu principalement pendant les phases antérieures, mais ce sous-processus comporte une vérification de la présence de toutes les métadonnées nécessaires pour la diffusion.

 

7.2. Produire les produits de diffusion - Ce sous-processus produit les produits, comme conçus précédemment (au sous-processus 2.1), pour répondre aux besoins des utilisateurs. Les produits peuvent prendre de nombreuses formes telles que des publications imprimées, des communiqués de presse et des sites Web. Les étapes habituelles incluent   :

Préparer les composants du produit (textes explicatifs, tableaux, graphiques, etc.)   ;

Assembler les composants dans les produits   ;

Éditer les produits et vérifier qu'ils répondent aux normes de publication.

 

7.3. Gérer la sortie des produits de diffusion - Ce sous-processus permet de s'assurer que tous les éléments pour la publication sont en place notamment pour la gestion du calendrier de diffusion. Il comprend des réunions d'information pour des groupes d’utilisateurs spécifiques tels que la presse ou les ministres, ainsi que les modalités de gestion des embargos. Il comprend également la mise à disposition des produits aux abonnés .

 

7.4. Promouvoir les produits de diffusion   - Alors que le marketing en général peut être considérée comme un processus transversal, ce sous-processus concerne la promotion active des produits statistiques d’un processus métier spécifique , pour les aider à atteindre le plus large public possible. Elle comprend l'utilisation d'outils de gestion des relations avec les clients, afin de mieux cibler les utilisateurs potentiels des produits, ainsi que l'utilisation d'outils tels que les sites Web, les wikis et les blogs pour faciliter le processus de communication des informations statistiques aux utilisateurs.

 

7.5. Gérer l’assistance aux utilisateurs - Ce sous-processus garantit que les requêtes des clients sont enregistrées et que les réponses sont fournies dans les délais convenus. Ces requêtes devraient être examinées régulièrement en tant que contribution au processus transversal de gestion de la qualité, car elles peuvent signaler des besoins nouveaux ou changeants des utilisateurs.

 

Phase 8 – Archiver

 

 

37.               Cette phase gère l'archivage et la destruction des données et métadonnées statistiques. Compte tenu de la réduction des coûts de stockage de données, il est possible que la stratégie d'archivage adoptée par un organisme statistique ne comprenne pas de dispositions visant l'élimination d’archives, de sorte que le dernier sous-processus peut ne pas être pertinent pour tous les processus statistique métier. Dans d'autres cas, l'élimination peut se limiter aux fichiers intermédiaires des itérations précédentes, plutôt que concerner des données diffusées.

 

38.               Pour les statistiques produites régulièrement, l'archivage intervient à chaque itération   ; toutefois, le processus de définition des règles d'archivage est susceptible d’intervenir moins régulièrement. Cette phase est constituée de quatre sous-processus, qui sont généralement séquentiels, de gauche à droite, mais peuvent également se dérouler en parallèle, et de façon itérée. Ces sous-processus sont   :

 

8.1. Définir les règles d’archivage Ce sous-processus est celui où les règles d'archivage des données et des métadonnées statistiques résultant d'un processus statistique d'entreprises sont déterminées. L'obligation d'archiver les résultats intermédiaires tels que l’échantillon, les données brutes de la phase de collecte, les résultats des différentes étapes des phases de traitement et d’analyse devraient également être envisagée. Les règles d'archivage employées pour un processus statistique spécifique peuvent être entièrement ou partiellement dépendantes de la politique d'archivage plus générale de l'organisation statistique, ou, pour les organisations nationales, des normes appliquées dans le secteur public. Les règles devraient tenir compte du support et de l'emplacement de l'archive, ainsi que de l'obligation de conserver des copies. Doivent également être étudiées les conditions (le cas échéant) dans lesquelles les données et les métadonnées doivent être éliminées. (Note - ce sous-processus est logiquement fortement lié à la Phase 2 - Concevoir, au moins pour la première itération d'un processus statistique).

 

8.2. Gérer l’entrepôt des archives Ce sous-processus concerne la gestion d'un ou plusieurs dépôts d'archives. Il peut s’agir de bases de données, ou des lieux où les copies des données ou des métadonnées sont stockées. Le sous-processus comprend   :

       La maintenance des catalogues d’archives de données et de métadonnées, avec des informations suffisantes pour garantir que les fichiers de données ou de métadonnées spécifiés peuvent être facilement retrouvés   ;

       Le test des processus de recherche d’archives dans l’entrepôt   ;

       La v érification périodique de l'intégrité des données et métadonnées archivées   ;

       La mise à niveau des formats d’archivage liés à un logiciel particulier en cas de changement de logiciel.

Ce sous-processus peut couvrir un processus statistique spécifique ou un groupe de processus, en fonction du niveau de normalisation atteint au sein de l'organisation. En fin de compte, il peut même être considéré comme un processus transversal si des normes sont mises en place à l'échelle de l’organisation.

 

8.3. Conserver les données et les métadonnées associées- Ce sous-processus est celui où les données et les métadonnées provenant d'un processus statistique spécifique sont archivées. Il comprend   :

       L’identification des données et métadonnées à archiver, en ligne avec les règles définies en 8.1   ;

       Le formatage de ces données et métadonnées pour l’entrepôt   ;

       Le chargement ou le transfert des données et des métadonnées dans l’entrepôt   ;

       Le catalogage des données et métadonnées archivées   ;

       La vérification du bon archivage des données et métadonnées.

 

8.4. Éliminer des données et les métadonnées associées Ce sous-processus est celui au cours duquel les données et les métadonnées provenant d'un processus statistique spécifique sont éliminées. Il comprend   :

       L’identification des données et métadonnées à éliminer, en conformité avec les règles définies en 8.1   ;

       L’élimination de ces données et métadonnées   ;

       L’enregistrement du fait que ces données et métadonnées ont été éliminées.

 

 

Phase 9 – Évaluer

 

39.               Cette phase gère l'évaluation d'une instance particulière d'un processus statistique donné, par opposition au processus transversal de gestion de la qualité statistique décrit à la section VI qui est plus général. Il prend logiquement place à la fin de l'instance sous revue du processus, mais s'appuie sur les contributions rassemblées tout au long de ses différentes phases. Pour la production des statistiques régulières, une évaluation devrait, au moins en théorie, intervenir à chaque itération, pour déterminer si les futures itérations doivent se dérouler, et si oui, si des améliorations devraient être mises en œuvre. Toutefois, dans certains cas, en particulier pour des processus statistiques réguliers et bien établis, l'évaluation peut ne pas être formellement réalisée à chaque itération. Dans ce cas, on peut considérer que cette phase produit la décision de démarrer l’itération suivante à partir de la phase 1 (Définir les besoins) ou d'une phase ultérieure (souvent la phase 4 (Collecter)).

 

40.               Cette phase est constituée de trois sous-processus, qui sont généralement séquentiels, de gauche à droite, mais qui dans la pratique peuvent se chevaucher dans une certaine mesure. Ces sous-processus sont:

 

9.1. Recueillir les contributions d’évaluation Le matériel d’évaluation peut être produit dans n’importe quel autre phase ou sous-processus. Il peut prendre plusieurs formes, dont les commentaires des utilisateurs, des métadonnées de traitement, des mesures prises sur le système et les suggestions du personnel. Un rapport des améliorations réalisées par rapport à un plan d'action convenu lors d'une itération précédente peut également contribuer à l'évaluation des itérations ultérieures. Ce sous-processus rassemble l'ensemble de ces intrants et les rend disponibles pour la personne ou pour l'équipe en charge de l'évaluation.

 

9.2. Effectuer l’évaluation - Ce sous-processus analyse les contributions en entrée et les synthétise dans un rapport d'évaluation. Le rapport résultant devrait noter tous les problèmes de qualité spécifiques à cette itération du processus statistique, et devrait formuler si nécessaire des recommandations pour des changements. Ces recommandations peuvent porter sur des modifications de n’importe quelle phase ou sous-processus pour les suivantes itérations de ce processus ou peut suggérer qu’il ne doit pas être répété.

 

9.3. Convenir d’un plan d’action Ce sous-processus rassemble les décideurs nécessaires pour mettre en forme et convenir d'un plan d'action fondé sur le rapport d'évaluation. Il devrait également inclure la mise au point d'un mécanisme de suivi de l'impact de ces actions, qui peut, à son tour, produire une contribution aux évaluations des itérations ultérieures du processus.

 

 

VI.               Processus transverses

 

 

41.               Ce processus est présent tout au long du modèle. Il est étroitement relié à la phase 9 (Évaluer), dont le rôle spécifique consiste à évaluer des instances particulières d’un processus statistique donné. Toutefois, le processus transverse de gestion de la qualité a une portée à la fois plus profonde et plus large. sS’il est nécessaire d’évaluer les itérations successives d’un processus, il faut également évaluer chaque phase et chaque sous-processus, idéalement à chaque fois qu’ils sont mis en œuvre, tout au moins selon un calendrier établi. Les métadonnées générées par les différents sous-processus présentent elles-mêmes un intérêt en tant qu’input pour la gestion de la qualité du processus. Ces évaluations peuvent s’appliquer à un processus particulier, ou au travers de différents processus utilisant des composants communs.

42.               La gestion de la qualité implique aussi l’évaluation de groupes de processus, permettant d’identifier des doublons ou des manques potentiels. Toutes ces évaluations devraient donner lieu à des bilans, qui devraient servir à améliorer le processus, la phase ou le sous-processus sous revue, de façon à créer un cercle vertueux de la qualité.

 

43.               La gestion de la qualité peut prendre des formes différentes, parmi lesquelles   :

 

       Recherche et analyse de la perception de l’utilisateur   ;

       Revue des opérations et documentation des leçons tirées   ;

       Examen des métadonnées du processus et des autres métriques du système   ;

       Étalonnage ou revue par les pairs avec d’autres instituts.

 

44.               L’évaluation doit normalement s’inscrire dans un cadre général d’assurance qualité spécifique à l’organisme et peut donc prendre différentes formes et aboutir à différents résultats dans des organismes distincts. Les instituts de statistique sont cependant d’accord sur le fait que la qualité devrait être définie selon la norme ISO   9000-2005   : «   niveau auquel un ensemble de caractéristiques propres satisfait les exigences   » [10] .

 

45.               La qualité est donc un concept multidimensionnel, axé sur l’utilisateur. Les critères de qualité considérés comme les plus importants dépendent des points de vue, des besoins et des priorités des utilisateurs, qui peuvent varier entre processus et entre groupes d’utilisateurs. Quelques organisations statistiques ont développé des listes de critères de qualité, qui, pour ce qui concerne les organismes internationaux, sont en cours d’harmonisation sous la houlette du comité de coordination des activités statistiques (CCSA) [11] .

 

46.               La multiplication actuelle des cadres d’assurance qualité souligne l’importance pour l’évaluation des approches d’étalonnage et de revue par les pairs. Il est difficile de mettre en œuvre ces approches pour chaque itération de chaque partie de chaque processus de production statistique, mais elles pourraient être employées de manière systématique selon un calendrier pré-déterminé qui permettrait une revue des principales parties du processus en un laps de temps donné.

 

 

 

47.               Une bonne gestion des métadonnées est essentielle pour une mise en œuvre efficace des processus de production statistique. Les métadonnées sont présentes dans chaque phase, qu’elles y soient créées ou qu’elles proviennent d’une phase précédente. Dans le contexte de ce modèle, pour le processus transverse de gestion des métadonnées, l’accent est mis sur la création et l’utilisation des métadonnées statistiques bien que les métadonnées sur les sous-processus soient elles aussi intéressantes, y compris comme intrant de la gestion de la qualité. Le point-clé est de s’assurer que les métadonnées sont enregistrées aussi tôt que possible, puis qu’elles sont stockées et transférées de phase en phase en parallèle des données auxquelles elles font référence. La stratégie et les systèmes de gestion des métadonnées sont en conséquence vitaux pour la mise en œuvre de ce modèle.

 

48.               La partie A du cadre commun de métadonnées [12] identifie les seize principes fondamentaux de gestion des métadonnées, l’ensemble devant être traités dans le processus transverse éponyme et devant être pris en compte lors de la préparation du système de métadonnées statistiques (SMS) et lors de son implémentation.

Les principes peuvent être présentés selon le découpage suivant   :

 

Gestion des métadonnées

 

i.                      Modèle de processus statistique   : Gérer les métadonnées en considérant l’ensemble du modèle de processus statistique.

ii.                     Actives et non passives   : Rendre les métadonnées actives le plus possible. Des métadonnées actives sont des métadonnées qui pilotent d’autres processus ou actions. Traiter ainsi les métadonnées permettra qu’elles soient précises et mises à jour.

iii.                   Réutilisation   : Réutiliser les métadonnées lorsque c’est possible, tant pour faciliter la combinaison ou l’intégration de données que pour des raisons d’efficacité.

iv.                   Versions   : Conserver l’historique (anciennes versions) des métadonnées.

Pilotage des métadonnées

i.                      Enregistrement   : S’assurer que le processus d’enregistrement (circuit) associé avec chaque métadonnée est bien documenté, faisant apparaître clairement l’identification du propriétaire, le statut de validation, la date de l’opération, etc.

ii.                     Source unique   : S’assurer qu’une seule autorité (autorité d’enregistrement) existe pour chaque métadonnée.

iii.                   Une seule entrée/mise à jour   : Minimiser les erreurs en saisissant la donnée une seule fois et en la mettant à jour à un seul endroit.

iv.                   Ecarts aux normes   : S’assurer que les écarts aux normes sont bien gérés et approuvés, documentés et visibles.

Relations au

cycle statistique/ processus

 

i.                      Intégrité : Faire du travail sur les métadonnées une partie intégrante du travail statistique au sein de l’organisation.

ii.                     Vérification des métadonnées   : S’assurer que les métadonnées présentées aux utilisateurs finaux correspondent aux métadonnées qui ont piloté le processus ou ont été créées pendant le déroulement de ce processus.

iii.                   Description du flux   : Décrire le circuit des métadonnées dans les processus opérationnel et statistique (en lien avec la logique des flux de données et de l’organisation).  

iv.                   Enregistrement à la source   : Capturer les métadonnées à la source, de préférence automatiquement comme un sous-produit des autres processus.

v.                    Echange et utilisation   : Échanger les métadonnées et les utiliser pour informer à la fois les processus informatiques et les utilisateurs humains. L’infrastructure d‘échange de données et des métadonnées associées devrait être fondée sur des composants faiblement couplés, et sur le choix de langages d’échange standard, comme XML.

Utilisateurs

i.                      Identification des utilisateurs   : S’assurer que les utilisateurs sont clairement identifiés pour tous les processus de métadonnées, et que toute capture de métadonnées sera source de valeur pour eux.

ii.                     Formats différents   : La diversité des métadonnées est reconnue et il y a  plusieurs vues sur les métadonnées qui correspondent à des usages différents des données. Des utilisateurs différents réclameront des niveaux de détail différents. Les métadonnées apparaissent dans différents formats selon les processus et les objectifs pour lesquels elles sont produites et utilisées.

iii.                   Disponibilité   : S’assurer que les métadonnées sont aisément accessibles et utilisables en fonction des besoins d’information des utilisateurs (qu’il soient internes ou externes).

 

 

VII.               Autres usages du GSBPM

 

Comme indiqué dans la section sur les objectifs du GSBPM, le but originel de ce travail était de développer ce modèle de manière à ce qu’il puisse fournir aux instituts de statistique une base terminologique commune pour les aider dans leurs discussions autour des processus et systèmes de métadonnées statistiques. Cependant, au fur et à mesure de son développement, il est apparu évident que le modèle pouvait être utilisé à d’autres fins. Ceci a été confirmé par Statistics New Zealand, qui a appliqué, ou prévu d’appliquer sa propre version du modèle dans différents domaines. La liste ci-dessous vise à souligner les usages potentiels plus que les usages recommandés et à inspirer d’autres idées d’utilisation du GSBPM en pratique.

 

1.               Harmoniser les architectures informatiques statistiques - le GSBPM peut être vu comme un modèle pour une vue opérationnelle de l’architecture informatique statistique. Il identifie les composants clés des opérations statistiques, promeut une terminologie commune et des façons de travailler standardisées pour l’ensemble des processus statistiques. Le potentiel du GSBPM en tant que modèle d’architecture informatique statistique doit être évalué en 2009 dans le cadre d’un projet ESSNet de l’Union européenne sur une architecture [13] commune de référence.

 

2.               Faciliter la mise en commun des logiciels statistiques – En lien avec le point précédent, le GSBPM définit les composants des processus statistiques d’une façon qui non seulement encourage la mise en commun d’outils logiciels non seulement entre processus mais aussi entre instituts de statistique qui appliquent ce modèle. Cela fournit de la matière première au Conseil Consultatif de partage, qui a été créé sous les auspices des groupes de travail UNECE/Eurostat/OCDE sur la gestion des systèmes d’information statistique [14] .

 

3.               Fournir une base d’explication pour l’usage de SDMX dans un institut de statistique dans le manuel d’utilisation de SDMX [15] - Le chapitre A2 de ce manuel explore la façon dont SDMX s’applique au travail statistique dans le cadre d’un modèle de processus métier.

 

4.               Fournir un cadre pour l’évaluation et l’amélioration de la qualité des processus - Si l’approche par étalonnage doit pouvoir s’avérer concluante pour l’évaluation de la qualité des processus, il est nécessaire de standardiser les processus autant que faire se peut. Le GSBPM fournit un mécanisme qui facilite cette standardisation.

 

5.               Mieux intégrer le travail sur la qualité et les métadonnées statistiques - En lien avec le point précédent, le cadre commun fourni par le GSBPM peut aider à consolider le travail international sur les métadonnées statistiques avec celui concernant la qualité statistique en définissant un cadre et une terminologie communs pour décrire les opérations statistiques.

 

6.               Fournir le modèle sous-jacent pour des cadres de standards méthodologiques - Les standards méthodologiques peuvent être reliés à la phase ou sous-processus auxquels ils se rapportent et peuvent donc être classifiés et stockés dans une structure basée sur le GSBPM.

 

7.               Fournir une structure de stockage de documents - De même qu’il peut servir de cadre pour les standards méthodologiques, le GSBPM peut aussi fournir une structure pour organiser et stocker d’autres documents au sein d’un institut, en conjonction avec les outils logiciels de gestion des documents. Il peut fournir une nomenclature basique de stockage des documents qui permette des liens clairs entre les documents et les parties du processus statistique auxquelles ils se rapportent.

 

8.               Fournir un cadre pour la mise en place des moyens organisationnels - LE GSBPM peut être utilisé pour développer un cadre permettant d’évaluer la connaissance et les compétences qui existent déjà au sein d’une organisation, et d’identifier les manques qui doivent être comblés pour améliorer l’efficacité opérationnelle.

 

9.               Fournir des éléments pour la planification stratégique de l’organisation - Le modèle opérationnel national développé par Statistics New Zealand a été utilisé comme matière première en préparant un programme d’enquêtes stratégique.

 

10.               Mettre en place un référentiel des processus métier – Statistics New Zealand a développé une base de données pour stocker les produits de modélisation des processus et permettre de les relier à leur modèle générique de processus statistique. Ils planifient aussi de développer une communauté de pratique de modélisation des processus - c’est-à-dire un forum permanent pour capitaliser la connaissance en modélisation des processus, pour promouvoir leur modèle de processus et en améliorer la compréhension, et pour discuter de l’apport de la modélisation des processus à l’amélioration des processus.

 

11.               Mesurer les coûts opérationnels - Le GSBPM peut conceptuellement s’utiliser comme une base de la mesure des coûts des différentes parties des opérations statistiques. Ceci, ensuite, peut aider à cibler le travail de développement pour améliorer l’efficacité des parties du processus qui sont les plus coûteuses.

 

12.               Mesurer la performance du système - En relation avec le point précédent, le GSBPM peut aussi être utilisé pour identifier les composants qui ne sont pas performants, qui sont redondants ou qui nécessitent d’être remplacés. De façon similaire, il peut aider à identifier les composants qui devraient être développés pour combler des lacunes.


Annexe – Glossaire

 

Note – Ce court glossaire comprend seulement quelques-unes des expressions clés et abréviations utilisées dans ce document. Pour un glossaire plus complet des termes en lien avec le processus de production statistique, voir le vocabulaire commun des métadonnées SDMX. - http://sdmx.org/?page_id=11 .

 

CMF -  Common Metadata Framework (Cadre de métadonnées commun)   : le besoin d’un cadre de métadonnées commun a émergé des discussions menées dans les forums internationaux. Le groupe sur les métadonnées statistiques (METIS), commun à l’UNECE, à l’OCDE et à Eurostat coordonne le travail de mise au point de ce cadre. Le but est d’organiser le vaste fonds d’information sur les métadonnées statistiques dans un cadre commun utilisable par les organismes nationaux et internationaux de statistique.

Voir http://www.unece.org/stats/cmf/

 

Collecte de données (Data collection) – Un processus systématique de collecte des données pour les statistiques officielles (Source   : Vocabulaire commun des métadonnées SDMX, 2009).

Pour les besoins de ce modèle, le terme «   collecte   » inclut l’obtention de données issues de sources administratives, à côté de la collecte traditionnelle de données au moyen d’enquêtes et de recensements.

 

GSBPM – Modéle générique du processus de production statistique (Generic Statistical Business Process Model)   : un outil flexible pour décrire et définir l’ensemble des processus nécessaires pour produire les statistiques officielles.

 

METIS - Le groupe sur les métadonnées statistiques, commun entre l’UNECE, Eurostat et l’OCDE.

 

Over-arching process –Processus transverses - processus qui s’appliquent tout au long et au sein des opérations statistiques. Ils peuvent être regroupés en deux catégories, ceux qui ont une composante statistique et ceux plus généraux et qui peuvent s’appliquer à toutes sortes d’organisations.

 

SDMX –Un ensemble de normes techniques et de recommandations orientées contenu, associé à une architecture et à des outils informatiques, à utiliser pour un échange et un partage efficace des données et métadonnées statistiques.
(Source SDMX Metadata Common Vocabulary, 2009)

 

Statistical business process – Processus statistique   : L’ensemble des sous-processus nécessaires à la production statistique.
(Source SDMX Metadata Common Vocabulary, 2009)

 

Statistical metadata system – Système de métadonnées statistiques   : Un système de traitement de données qui utilise, stocke et produit des métadonnées statistiques.
(Source SDMX Metadata Common Vocabulary, 2009)

 

 


[1] Préparé par Steven Vale ( steven.vale@unece.org ), sur la base des travaux antérieurs de Statistics New Zealand (pour les 7 premières phases) et Statistics Canada (pour la phase Archivage), avec de nombreuses contributions des membres du groupe METIS.

[2] Voir   : http://www.unece.org/stats/cmf/

[3] Voir les documents concernant cet atelier   : http://www.unece.org/stats/documents/2007.07.metis.htm

[4] Voir   : http://www.unece.org/stats/documents/ece/ces/ge.40/2008/wp.17.e.pdf

[5] Voir   : http://www.unece.org/stats/documents/2009.03.metis.htm

[6] Exemples, pour l’ Australie et la Norvège   :

http://www1.unece.org/stat/platform/display/metis/2.+Statistica l +metadata+systems+and+the+statistical+business+process+(Australia)

http://www.ssb.no/english/su b jects/00/90/doc_200817_en/doc_200817_en.pdf

 

[7] En anglais, «   Reporpusing   ».

[8] Voir   : www.sdmx.org

[9] http://www.unece.org/stats/documents/ece/ces/ge.40/2008/zip.9.e.pdf

[10] ISO 9000:2005, Syst è mes de management de la qualit é - Principes essentiels et vocabulaire . International Organization for Standardization

[11] Des cadres généraux d’assurance qualité, spécifiques aux organismes qui les ont mis au point et comportant des listes de critères, existent pour   :l’UNECE   : http://unstats.un.org/unsd/accsub/2007docs-10th/SA-2007-14-Add1-ECERep.pdf , l’OCDE   : http://www.oecd.org/dataoecd/26/38/21687665.pdf , et Eurostat   : http://epp.eurostat.ec.europa.eu/portal/page/portal/ q uality/documents/ess%20quality%20definition.pdf

[12] Voir   : http://www.unece.org/stats/cmf/PartA.html

[13] http://circa.europa.eu/Public/irc/dsis/itsteer/li b rar y ?l=/directors_13-14/proposal_essnetdoc/_EN_1.0_&a=d

[14] Comme proposé par la Task force MSIS sur la mise en commun des logiciels   : http://www.unece.org/stats/ d ocuments/ece/ces/ge.50/2008/crp.2.e.doc

[15] voir   : http://sdmx.or g /index.php?page_id=38 , version 2009