Analyse des données

Introduction

En fonction des questions de recherche auxquelles vous voulez répondre et du type de données que vous avez collectées (données quantitatives ou qualitatives), différents types d’analyse peuvent être effectués. Avant de commencer à analyser les données, on doit considérer les différents publics à atteindre avec les résultats et les recommandations du projet de RMO. Quels sont leurs besoins en information, et quel est le meilleur moyen de les atteindre ? Cliquez sur chacune des rubriques ci-dessous pour voir les explications sur chaque type d’analyse.

Plan d’analyse des données

Pour s’assurer que l’analyse est entreprise de manière systématique, un plan d’analyse doit d’abord être créé. Le plan d’analyse contient une description de la question de recherche et des différentes étapes qui seront réalisées dans le processus de recherche. Il est recommandé de développer votre plan d’analyse de données au début de votre projet, afin d’être sûr de traiter des hypothèses associées aux questions de recherche. Il est possible de modifier le plan d’analyse des données au fur et à mesure que votre recherche progresse.

Le plan d’analyse de données dans un projet de RMO est basé sur le principe que la RMO vise à : (i) comprendre les processus de mise en œuvre pour une intervention donnée, en se concentrant sur les mécanismes qui aident ou nuisent à ces processus ; et (ii) communiquer cette appréciation du processus de mise en œuvre à de multiples parties prenantes, qui peuvent par conséquent contribuer à l’intégration des résultats dans la recherche, les politiques et les programmes actuels ou futurs.

La plupart des propositions RMO utilisent des méthodes mixtes combinant des techniques quantitatives et qualitatives. Dans de nombreuses circonstances, les approches utilisant des méthodes mixtes peuvent fournir une meilleure compréhension du problème que l’une ou l’autre approche ne peut atteindre seule. Cependant, peu de parties prenantes de l’équipe d’un projet de RMO sont susceptibles d’avoir à la fois une connaissance spécialisée des méthodes de recherche quantitatives et qualitatives. Il est donc essentiel que l’analyse et, surtout, la présentation des résultats soient soigneusement considérées afin d’éviter des interprétations erronées pouvant conduire à des conclusions ou réponses inappropriées. L’accent doit être mis sur la simplicité et l’interprétabilité, car les parties prenantes doivent être capables, à la fois, de comprendre les informations fournies et de les interpréter correctement21. L’analyse des données doit avoir lieu parallèlement au processus de collecte des données. Ce processus continu d’analyse des données facilite le partage régulier et la discussion des résultats.

Plan de l’analyse par objectif

Une considération préliminaire importante lors de la conception de votre plan d’analyse des données est de définir clairement les principaux objectifs de l’analyse en identifiant les problèmes spécifiques à traiter. Il est important de se rappeler que les données de la RMO sont, par nature, destinées non seulement à décrire une intervention, mais aussi à l’améliorer.

Par exemple, la recherche de RMO peut se concentrer sur :

l’efficacité : vise à modifier les procédures de mise en œuvre afin d’améliorer la production de retombées positives.
l’efficience : tente d’évaluer les implications d’éventuelles modifications sur le processus de mise en œuvre afin d’augmenter les retombées positives par rapport aux ressources engagées.
l’équité : se concentre sur les problèmes de distribution, c’est-à-dire comment les retombées positives et les coûts des ressources engagées sont répartis.
l’approache durable : se concentre sur l’identification des apports essentiels, des obstacles potentiels à leur disponibilité et d’autres barrières possibles à la viabilité à moyen et long terme.

Analyse de données quantitatives

Avant toute analyse statistique, certains facteurs doivent être pris en compte afin de sélectionner l’analyse statistique la plus appropriée. Ceux-ci sont décrits brièvement ci-dessous.

Echelle de mesure et différentes techniques statistiques

L’échelle de mesure est un moyen de définir et de classer les variables. Il existe quatre échelles de mesure différentes (nominale, ordinale, continue et rapport). Chaque échelle de mesure a des propriétés différentes, qui peuvent être requises pour différentes analyses statistiques. Le Tableau 15 résume les propriétés pour les différentes échelles de mesure, décrites en détail ci-dessous.

L’échelle nominale ne peut que différencier les catégories. On ne peut pas dire qu’une catégorie est supérieure ou meilleure qu’une autre catégorie. Un exemple d’échelle nominale est le sexe. Si on code « masculin » comme 1 et « féminin » comme 2 ou vice versa (c’est-à-dire lorsqu’on saisit la variable dans l’ordinateur), cela ne signifie pas qu’un sexe est meilleur que l’autre. Les numéros 1 et 2 ne représentent que des catégories de données.

Les échelles ordinales représentent une série ordonnée de relations ou d’ordre de classement. Cependant, on ne peut pas quantifier la différence entre les catégories. On peut seulement dire qu’une catégorie est meilleure ou plus élevée que les autres catégories. Un exemple d’échelle ordinale est le classement des établissements de santé (par exemple, primaire, secondaire, tertiaire).

L’échelle continue représente un ordre de classement avec des unités égales de quantité ou de mesure. A noter que dans cette échelle, zéro représente simplement un point de mesure supplémentaire et non la valeur la plus basse. Un exemple d’échelle de mesure est l’échelle de température en degrés Celsius ou Fahrenheit. Dans cette échelle, zéro (0) est un point sur l’échelle avec des valeurs en dessus et en dessous.

L’échelle de rapport est similaire à l’échelle continue, dans laquelle elle représente un ordre de rang avec une unité de quantité ou de mesure égale. Cependant, l’échelle de rapport a un zéro absolu, où zéro est la valeur la plus basse. Un exemple d’échelle de rapport est l’indice de masse corporelle (IMC) dans lequel la valeur la plus faible est (théoriquement) zéro.

Les données sur une échelle continue et de rapport sont considérées comme paramétriques car ces types de données ont certains paramètres concernant la distribution de de la population dans son ensemble (présomption de distribution normale avec la moyenne comme mesure de tendance centrale et la variance comme mesure de dispersion). « Paramétrique » signifie également que les données peuvent être ajoutées, soustraites, multipliées et divisées. L’analyse statistique de ces types de données se fait grâce à des tests paramétriques.

D’autre part, les échelles nominales et ordinales sont appelées non paramétriques. Les données non paramétriques n’ont pas les paramètres que possèdent les données paramétriques. En outre, il manque les valeurs quantifiables, de sorte que les données non paramétriques ne peuvent pas être additionnées, soustraites, multipliées ou divisées. Les données nominales et ordinales sont analysées à l’aide de tests non paramétriques.

Un test paramétrique est considéré comme plus robuste qu’un test non paramétrique. De plus, il y a plus d’options statistiques disponibles pour analyser les données paramétriques. Toutefois, la plupart des tests paramétriques supposent que les données soient normalement distribuées.

Questions de recherche

La façon dont les questions de recherche sont formulées détermine également le type de techniques statistiques à utiliser pour l’analyse. Des exemples de questions de RMO incluent :

Décrire les tendances ou distributions des variables d’étude en termes de « quoi, qui, où et quand ».
Comparer les différences entre groupes.
Explorer les associations / corrélations possibles entre variables indépendantes (expositions) et variables dépendantes (résultats de l’étude).
Explorer la relation causale possible entre les variables indépendantes (expositions) et variables dépendantes (résultats de l’étude).

Statistiques descriptives

La recherche quantitative génère de gros volumes de données qui nécessitent d’être organisées et résumées. Ces opérations facilitent une meilleure compréhension de la façon dont les données varient ou se rapportent les unes aux autres. Les données révèlent la distribution des valeurs des variables d’étude dans la population d’étude. Par exemple :

Le nombre d’enfants de moins de cinq ans dans divers ménages d’une population donnée.
Présence quotidienne de patients ambulatoires dans un établissement de santé.
Le poids à la naissance d’enfants nés dans un établissement de santé particulier pendant une période donnée.
Niveaux d’éducation des mères d’enfants nés dans un établissement de santé particulier.

L’analyse du type de données décrit ci-dessus implique essentiellement l’utilisation de techniques pour résumer ces distributions et estimer dans quelle mesure elles se rapportent à d’autres variables.

L’utilisation de distributions de fréquences à cette fin présente plusieurs avantages :

Utile pour tous les types de variables
Facile à expliquer et à interpréter pour des publics sans connaissances spécialisées.
Peut être présenté graphiquement et sous différents formats pour faciliter l’interprétation (par exemple, tableaux, diagrammes à barres, camemberts, graphiques, etc.).

Les différents formats de présentation de données aident à atteindre différents publics cibles. Les tableaux sont un format de présentation utile lorsque vous souhaitez communiquer au sein de la communauté scientifique. Les présentations de données graphiques aident à communiquer avec un public plus large et moins scientifique dans la communauté ou les décideurs. Vous pouvez en savoir plus sur la présentation des données et sur la façon de présenter les données à différents publics dans le module « Communication et plaidoyer » de cette boîte à outils.

Définir les intervalles pour les distributions de fréquence

Une décision clé dans la construction d’une distribution de fréquence concerne le choix des intervalles sur l’échelle des mesures. Par exemple :

Échelle ordinale : classement des établissements de santé (par exemple, primaire, secondaire, tertiaire).
Échelle continue : température corporelle (par exemple, inférieure à la normale, normale, supérieure à la normale).
Rapport : indice de masse corporelle (IMC) (par exemple, <25, 25-29, 30+).

Il y a deux objectifs contradictoires pour déterminer le nombre d’intervalles :

Limiter la perte d’information en utilisant un nombre relativement important d’intervalles.
Fournir un résumé simple, interprétable et utile grâce à l’utilisation d’un nombre relativement faible d’intervalles.

A noter : les distributions basées sur des intervalles inégaux doivent être utilisées avec prudence, car elles peuvent être facilement mal interprétées, en particulier lorsque les distributions sont présentées graphiquement.

Statistiques récapitulatives et distribution des fréquences

Un examen attentif de la distribution de fréquence d’une variable est une étape cruciale et peut constituer une forme d’analyse extrêmement puissante et robuste. On a souvent tendance à passer trop rapidement au calcul de des statistiques récapitulatives (par exemple, moyenne, variance) qui sont plus simples et sont destinées (mais échouent souvent) à saisir les caractéristiques essentielles d’une distribution.

Les statistiques récapitulatives se limitent généralement à obtenir les mesures indiquant la tendance générale d’une distribution (par exemple, le nombre moyen de personnes malades, pauvres ou éduquées dans la population étudiée) ou à indiquer l’ampleur de la variation au sein d’une population. Cependant, les raisons pour choisir une statistique récapitulative particulière doivent se rapporter à l’objectif pour lequel elle est destinée.

Mesure de la tendance centrale

La tendance centrale mesure la localisation centrale d’une distribution de données. La moyenne est le paramètre le plus couramment utilisé car elle est simple à calculer et à manipuler. Par exemple, il est facile de combiner la moyenne des sous-populations pour calculer la moyenne globale de la population. Cependant, la moyenne est souvent utilisée de façon inappropriée. Elle peut également être mal interprétée comme valeur typique dans une population.

La médiane, définie comme la valeur centrale, est relativement facile à expliquer. Les amplitudes des autres valeurs ne sont pas pertinentes. Par exemple, si la valeur la plus élevée dans une plage donnée augmente ou que la plus petite valeur diminue, la médiane reste inchangée. Quand un ensemble de données n’est pas asymétrique (ou lorsque les données ont une distribution « normale » /Gaussienne), la moyenne et la médiane sont les mêmes (Figure 5). Il est donc préférable d’utiliser la médiane comme mesure de la tendance centrale lorsque l’ensemble de données est asymétrique car la valeur est indépendante de la forme de la distribution de données.

Dans une distribution asymétrique, la moyenne est difficile à interpréter (Figure 6).

Mesure de dispersion

La mesure de la dispersion indique le degré de variabilité dans une population donnée, comme suit :

Faible variabilité : Les mesures de localisation peuvent être considérées comme raisonnablement représentatives de la population globale ; la perte d’information est limitée par l’agrégation.
Grande variabilité : les mesures de localisation sont moins utiles ; il y a un risque important de perte d’information par agrégation, à moins que la nature de la distribution ne soit bien comprise.

Choix des mesures

Les variances, écarts-types et coefficients de variation sont largement utilisés dans l’analyse statistique. Comme avec la moyenne, ce n’est pas toujours parce que ce sont les meilleures mesures de la variabilité (on peut facilement les interpréter pour les variables normalement distribuées mais pas pour les autres distributions), mais principalement parce qu’on peut facilement les calculer et les manipuler.

Par exemple, étant donné les variances de deux sous-groupes de population, il est facile de les combiner pour calculer la variance globale de la population. Cependant, bien qu’elles puissent avoir des avantages techniques, ces mesures présentent de sérieuses limites en termes d’application des politiques.

Autres mesures

Les mesures plus facilement interprétables comprennent les quartiles et les centiles. Les quartiles divisent les données en quatre quarts (Q1 à Q4), avec 25% des données disponibles se trouvant dans chaque quartile:

Q2 est la médiane.
Q1 est la médiane des points de données en dessous de la médiane.
Q3 est la médiane des points de données au-dessus de la médiane.

L’écart interquartile est Q3 moins Q1 (= Q3-Q1), comprenant 50% des données du milieu de la population.

Les centiles divisent les données en deux parties :

p pourcent ont des valeurs inférieures au centile p.
(100 – p) pour cent ont des valeurs plus élevées.
50e centile = médiane ; 25e centile = premier quartile.

Autres percentiles communs:

20ème (qui définit le premier groupe de quintile)
10ème (qui définit le premier groupe de déciles).

Autres statistiques descriptives.

Analyse de sous-groupe

Les résultats d’une intervention peuvent varier considérablement entre différents sous-groupes de la population cible. L’analyse des sous-groupes peut être complexe si les sous-groupes ne sont pas prédéfinis. Étudier une relation au sein d’un sous- groupe simplement parce qu’il semble intéressant peut biaiser les résultats.

La fouille de données (c’est-à-dire l’exploration de bases de données pour découvrir des relations apparentes) est utile pour formuler de nouvelles hypothèses, mais nécessite une grande prudence en RMO. Le contexte dans lequel cette sous-analyse est entreprise doit être considéré avec soin, car les relations entre les variables explicatives et les réponses peuvent être affectées par des variables contextuelles. Par exemple, on peut supposer qu’il soit utile d’entreprendre une analyse des maladies chroniques par groupe d’âge et par sexe, comme le montre le Tableau 16. Pour une interprétation sensée des résultats, le type de maladie chronique et le contexte des patients qui les subissent sont des variables importantes à considérer.

Mesures de risque

Bien que les mesures du risque soient largement utilisées dans la recherche en santé, elles ne sont pas toujours bien comprises. Par exemple, le risque relatif et le rapport des cotes (en anglais odds ratio) sont souvent utilisés de façon interchangeable, mais ils ne signifient pas la même chose :

Risque (P) : nombre de personnes ayant vécu un événement / une population exposés à l’événement.
Risque relatif (RR = PA / PB) : risque dans le groupe A par rapport au risque dans le groupe B.
Cotes (en anglais odds) : nombre de personnes ayant vécu un événement / nombre de personnes n’ayant pas vécu ce même événement = P / (1-P)
Rapport des cotes (Odds ratio): [PA / (1- PA)] / [PB / (1-PB)]

Tests statistiques

Un test statistique est effectué afin de pouvoir faire des inférences concernant certains aspects inconnus d’une population statistique à partir de l’échantillon recueilli pour l’étude. Il existe différents types de tests statistiques qu’on peut utiliser en fonction des questions de recherche, du type d’échelle de mesure et des présomptions concernant la distribution des données. Des analyses univariées et bivariées simples doivent être faites avant qu’une analyse plus sophistiquée telle que l’analyse multivariée soit effectuée.

Trouver une association / corrélation

L’association est une relation entre deux variables qui sont statistiquement dépendantes. Les deux variables sont équivalentes ; il n’y a pas de variable indépendante et dépendante. La corrélation peut être considérée comme un type d’association où la relation entre les variables est linéaire. Il existe plusieurs tests statistiques pour évaluer la corrélation entre les variables (Tableau 17).

Trouver la causalité : comparaison de groupe

L’analyse de comparaison de groupe est utilisée pour explorer les différences statistiquement significatives des résultats entre les groupes. Les groupes peuvent être catégorisés en fonction de leur exposition (en anglais exposure) au cours de l’étude. Quand il y a une différence significative entre les groupes, on suppose que la différence est due à l’exposition ( Tableau 18).

Trouver la causalité : prédiction

L’analyse de régression est le type d’analyse utilisé pour prédire les résultats de l’étude à partir d’un certain nombre de variables indépendantes. Si la variable indépendante est sur une échelle continue ou de rapport et a une distribution normale, la régression linéaire peut être utilisée. Si la variable indépendante est dichotomique (c’est-à-dire binaire, ne prenant que 2 valeurs possibles, par exemple, « oui » ou « non »), une régression logistique peut être utilisée.

Analyse de données qualitatives

Il existe de nombreuses traditions de recherche qualitative et on a plaidé qu’il ne peut pas et ne doit pas y avoir une approche uniforme des méthodes d’analyse qualitative (Bradley et al 2007)²². De même, il existe peu de règles d’or reconnues pour l’analyse qualitative des données, dans le sens de règles communes acceptées pour tirer des conclusions et pour vérifier la robustesse de l’étude²³. De nombreuses études qualitatives adoptent une stratégie itérative : recueillir des données, élaborer des concepts et hypothèses initiaux, tester de nouvelles données, réviser les concepts et hypothèses. Cette approche implique que la collecte et l’analyse des données soient intégrées dans un processus unique et sont entreprises par les mêmes individus. Cependant, avec l’utilisation croissante de la recherche qualitative dans la recherche en santé, les objectifs sont souvent prédéfinis avant le début de la collecte des données, plutôt que d’être développés au fur et à mesure que les données émergent.

Les chercheurs peuvent également utiliser différents logiciels d’analyse de données qualitative (en anglais : qualitative data analysis ou QDA) pour les aider à gérer leurs données. Le terme « logiciel QDA » est légèrement trompeur car le logiciel n’analyse pas réellement les données, mais les organise pour faciliter la recherche et l’identification des thèmes. Les logiciels peuvent également être relativement coûteux (jusqu’à environ 900 USD par utilisateur). Pour ces raisons, certains chercheurs préfèrent analyser les données manuellement. Cependant, au fur et à mesure que les logiciels s’améliorent, les chercheurs trouvent la QDA de plus en plus utile pour aider à analyser les données et gagner du temps. Voici quelques-uns des noms de logiciels QDA les plus courants :

AtlasTi (http://www.atlasti.com) traite les grandes bases de données, codage non structuré, et imite le code papier et les fonctions de tri.
MAXQDA (http://www.maxqda.com) fournit des outils puissants pour analyser entretiens, rapports, tableaux, enquêtes en ligne, vidéos, fichiers audio, images et bases de données bibliographiques.
QSR NVivo (http://www.qsrinternational.com) (précédemment appelé Nud * ist 6) prend en charge le codage non structuré, trouve des modèles et relations dans les codes.
EZ-TEXT 3.06C (http://www.cdc.gov/hiv/topics/surveillance/resources/software/ez-text/index.htm).

Les chercheurs peuvent se sentir libres d’utiliser n’importe quelle méthode d’analyse (avec ou sans logiciel) avec laquelle ils se sentent à l’aise. Quelle que soit l’approche utilisée, toutes les analyses qualitatives impliquent de donner un sens à de grandes quantités de données, d’identifier les tendances marquantes et de communiquer l’essence de ce que révèlent les données.

L’analyse qualitative des données comprend la gestion des données, la réduction des données et le codage des données. En bref, l’objectif est d’identifier les tendances (thèmes) dans les données et les liens qui existent entre elles. Comme mentionné, il n’y a pas de formule établie pour analyser les données qualitatives, mais il y a trois conditions principales de l’analyse qualitative à respecter :

Description détaillée des techniques et méthodes utilisées pour sélectionner les échantillons et générer des données.
Analyse soigneusement définie, en accordant une attention particulière aux questions de validité et de fiabilité.
Triangulation avec d’autres méthodes de collecte de données.

Les étapes suivantes décrivent ces trois composants de base plus en détail :

Description détaillée des techniques et méthodes utilisées pour sélectionner des échantillons et générer des données
- Si vous faites des entretiens ou des discussions de groupe, toutes les sessions doivent être enregistrées (de préférence avec un appareil enregistreur, mais si cela n’est pas accepté par les participants, avec des notes manuscrites).
- Tous les enregistrements doivent être transcrits textuellement (c’est-à-dire tapés en entier, mot à mot).
- Si une observation a été effectuée, documentez l’heure, le lieu et les événements importants (par exemple, interruptions, événements inhabituels, etc.)
- Toutes les informations générales sur les participants (c’est-à-dire leur profil) doivent être ajoutées à chaque transcription.
Analyse soigneusement définie, en accordant une attention particulière aux questions de validité et de fiabilité
- Dans la première étape de l’analyse, le chercheur va lire ou relire l’ensemble des données initiales et écrire des notes, commentaires et observations dans la marge, à propos des données intéressantes qui sont pertinentes pour répondre aux questions de recherche.
- En lisant les données, les chercheurs commencent à dresser une liste préliminaire de catégories émergentes dans laquelle seront regroupées les notes et les commentaires. Ces catégories sont guidées par le but de l’étude, les connaissances et l’orientation des chercheurs et les sujets explicités par les participants²⁴ . Une liste de ces catégories est compilée et jointe aux données.
- L’ensemble suivant de données collectées est ensuite soigneusement lu et, avec en tête la liste de catégories précédemment construite, des notes, commentaires et observations sont de nouveau écrites dans la marge. Cette deuxième série de données est ensuite regroupée en catégories et une liste des catégories est compilée. Les deux listes sont ensuite comparées et fusionnées pour créer une liste principale de catégories. Cette liste reflète les éléments réguliers et récurrents ou les tendances de l’étude.
- Ces catégories sont ensuite nommées. Les noms de catégories peuvent émerger du chercheur, des participants ou de la littérature scientifique. Selon Merriam (1998)²⁴ , ces catégories doivent être : exhaustives ; mutuellement exclusives ; sensible à ce qui se trouve dans les données ; conceptuellement conformes ; et, en fin de compte, répondre aux questions de recherche. Le nom des catégories ou les codes de l’analyse des données peuvent également être dérivés des questions posées dans les outils de collecte de données en fonction des objectifs de l’étude.
- Une fois que les chercheurs sont satisfaits avec le choix des catégories, les données sont attribuées à ces catégories. Prenant une copie propre des données, le chercheur organise les données en unités de sens et les assigne aux catégories pertinentes, en écrivant le code de chaque catégorie dans la marge.
- Les chercheurs créent ensuite des fichiers séparés pour chaque catégorie et copient et collent les unités de sens dans la catégorie correspondante, créant ainsi un fichier contenant toutes les données pertinentes. Il faut veiller à éviter de sortir l’unité de sens de son contexte, pour cela il faut soigneusement ajouter des références croisées pour toutes les unités de sens et les coder avec le pseudonyme du participant, la date de collecte et le numéro de page²⁵.
- Les chercheurs tentent ensuite de relier les catégories de manière judicieuse. Des diagrammes peuvent être utilisés pour faciliter ce processus. Par exemple, dans une étude visant à déterminer les causes du paludisme, un certain nombre de thèmes de prévention ont émergé (Figure 7 ).
Triangulation avec d’autres méthodes de collecte de données
- Passez en revue vos résultats par rapport à ceux recueillis en utilisant d’autres méthodes de collecte de données pour déterminer la validité et la véracité de vos résultats.
- Vérifiez si les sources de données de routine confirment vos résultats.

Rigueur dans la recherche qualitative

L’équipe de recherche doit s’assurer de la rigueur scientifique dans l’analyse des méthodes qualitatives. Par exemple, votre étude fournira-t-elle aux participants une copie de leurs transcriptions d’entretien pour leur donner l’occasion de vérifier et de clarifier leurs points de vue ? Utiliserez-vous un logiciel pour vous aider à gérer vos données et augmenter la rigueur ? Allez-vous effectuer des vérifications d’évaluateurs (plusieurs chercheurs analysent des sections de données pour comparer et vérifier les résultats (appelée fiabilité inter-évaluateurs)) ? Allez- vous trianguler les données pour accroître la rigueur ? Allez-vous rapporter les résultats contradictoires ?

Validité et fiabilité dans l’analyse de la recherche qualitative

Dans les études quantitatives, la fiabilité signifie la répétabilité et l’indépendance des résultats par rapport aux chercheurs spécifiques générant ces résultats. Dans la recherche qualitative, la fiabilité implique que, compte tenu des données collectées, les résultats sont fiables et cohérents10. La force de la recherche qualitative réside dans la validité (fidélité à la vérité). Une bonne recherche qualitative, utilisant une sélection de méthodes de collecte de données, doit toucher le cœur de ce qui se passe plutôt que de se contenter d’une analyse superficielle. Au cours de l’analyse de données qualitatives, recherchez la validité interne grâce à laquelle une compréhension approfondie des données vous permettra de contrer des explications divergentes de vos résultats.

Analyse du matériel textuel

Le processus de base pour l’analyse du texte issu d’entretiens ou de discussions est relativement simple et comprend :

Identification de phrases, de thèmes et de relations similaires entre les thèmes.
Identification de similitudes et de différences entre sous-groupes de la population (par exemple, hommes / femmes, ruraux / urbains, jeunes / vieux, riches / pauvres, etc.).
Tentatives initiales de généralisation en identifiant des tendances cohérentes entre ou dans des sous-groupes.
Revue critique et révision des généralisations, en accordant une attention particulière aux résultats contradictoires et aux valeurs aberrantes.

Analyse de domaines / thèmes

Une approche relativement simple est basée sur l’identification de thèmes clés, appelés « domaines », et des relations entre eux.

Il y a quatre étapes dans l’analyse de domaines / thèmes, il faut :

Identifier les principaux problèmes soulevés par les personnes interrogées – les domaines / thèmes.
Regrouper des sujets plus détaillés au sein de chacun de ces domaines pour construire une classification systématique (appelée aussi taxonomie) des sous-catégories.
Préciser ce qui a été effectivement dit et les composantes au sein de chaque sous-catégorie.
Explorer les interrelations entre les différents domaines.

Identification des domaines / thèmes
- Indexer les textes, en identifiant les sujets ligne par ligne.
- Rassembler ces sujets parmi tous les entretiens pour définir une liste préliminaire.
- Certains sujets apparaitront plus fréquemment que d’autres et certains sujets fréquents peuvent être classifiés en sous-thèmes.
- Combiner systématiquement les sujets reliés pour développer une liste de seulement quelques domaines assez larges.
Après avoir fait la liste des domaines, il est utile de commencer à organiser les segments de texte dans les domaines principaux. Ce processus regroupe les phrases réellement énoncées et permet aux sous-catégories d’émerger directement à partir des propres mots des interviewés.
Identification des domaines / thèmes
Cette étape implique l’identification des relations entre les domaines ou les thèmes pour construire une image globale. Dans l’ensemble des citations réellement énoncées par les répondants, le chercheur doit identifier les déclarations qui relient un sujet à un autre. Par exemple, dans l’étude décrite ci-dessus, les chercheurs ont pu établir des associations entre les domaines qui reliaient les expériences antérieures des femmes, leur perception du risque et leur situation socioéconomique avec leurs évaluations des services de santé (Figure 9).

Systèmes de codage

Après une analyse initiale pour acquérir une compréhension globale des principales caractéristiques des données, de nombreux analystes appliquent une procédure de codage systématique. Les chercheurs déterminent la façon la plus appropriée d’effectuer une analyse systématique, en dévoilant et en documentant les liens entre les domaines, les thèmes et les sous-thèmes²³. Ces codes sont assignés à des occurrences spécifiques de mots ou d’expressions, en soulignant les motifs dans le texte tout en préservant le contexte, comme illustré dans le Tableau 19.

Analyse des données de méthodes mixtes

Dans un projet de RMO avec méthodes mixtes, montrer comment la rigueur scientifique sera assurée tout au long de votre étude est essentiel. Il est important d’examiner la validité (c’est-à-dire être capable de tirer des conclusions significatives d’une population) et la fiabilité (c’est-à-dire la stabilité des résultats des outils au fil du temps) des données quantitatives.

Pour assurer une validation qualitative, le chercheur utilisera un certain nombre de stratégies. En premier lieu, les participants auront l’occasion d’examiner les résultats et de faire des commentaires sur la question de savoir si les résultats reflètent fidèlement leur expérience. Deuxièmement, la triangulation des données sera établie à partir de diverses sources (transcriptions et entretiens individuels) et de plusieurs participants. Enfin, tout résultat « en contradiction » sera rapporté. Ceci afin de s’assurer que les récits fournis par les participants soient dignes de confiance.

Avant de commencer l’analyse, considérez comment l’étude de méthode mixte a été conçue. Reportez-vous au Tableau 7 sur les méthodes mixtes pour examiner l’ordre dans lequel les données ont été recueillies. Cela guidera le processus indiquant quelles données (qualitatives ou quantitatives) doivent être analysées en premier.

L’un des aspects importants de l’analyse des méthodes mixtes est la capacité de présenter ces données de manière à ce que les différentes méthodologies se «parlent» les unes aux autres. Par exemple, si les résultats de l’enquête quantitative montrent que 45% des mères ne fréquentent pas les services prénatals, l’ajout d’une citation directe d’une mère recueillie dans une discussion de groupe va ajouter un élément réel et tangible à ce résultat.

Présentation des données pour votre public

Lorsque vous travaillez à l’analyse des données recueillies dans le projet de RMO, il est important de se rappeler qui recevra les résultats de la recherche. Cela permettra de déterminer comment les résultats de la recherche seront présentés. Par exemple, si les résultats sont diffusés lors de réunions communautaires, il est important d’utiliser des infographies et des citations simples ; en revanche lors de réunions de type atelier avec des décideurs de haut niveau, des informations plus détaillées et des chiffres sont nécessaires. Ceci est traité plus en détail dans le module « Communication et plaidoyer » de cette boîte à outils.