En fonction des questions de recherche auxquelles vous voulez répondre et du type de données que vous avez collectées (données quantitatives ou qualitatives), différents types d’analyse peuvent être effectués. Avant de commencer à analyser les données, on doit considérer les différents publics à atteindre avec les résultats et les recommandations du projet de RMO. Quels sont leurs besoins en information, et quel est le meilleur moyen de les atteindre ? Cliquez sur chacune des rubriques ci-dessous pour voir les explications sur chaque type d’analyse.
Pour s’assurer que l’analyse est entreprise de manière systématique, un plan d’analyse doit d’abord être créé. Le plan d’analyse contient une description de la question de recherche et des différentes étapes qui seront réalisées dans le processus de recherche. Il est recommandé de développer votre plan d’analyse de données au début de votre projet, afin d’être sûr de traiter des hypothèses associées aux questions de recherche. Il est possible de modifier le plan d’analyse des données au fur et à mesure que votre recherche progresse.
Le plan d’analyse de données dans un projet de RMO est basé sur le principe que la RMO vise à : (i) comprendre les processus de mise en œuvre pour une intervention donnée, en se concentrant sur les mécanismes qui aident ou nuisent à ces processus ; et (ii) communiquer cette appréciation du processus de mise en œuvre à de multiples parties prenantes, qui peuvent par conséquent contribuer à l’intégration des résultats dans la recherche, les politiques et les programmes actuels ou futurs.
La plupart des propositions RMO utilisent des méthodes mixtes combinant des techniques quantitatives et qualitatives. Dans de nombreuses circonstances, les approches utilisant des méthodes mixtes peuvent fournir une meilleure compréhension du problème que l’une ou l’autre approche ne peut atteindre seule. Cependant, peu de parties prenantes de l’équipe d’un projet de RMO sont susceptibles d’avoir à la fois une connaissance spécialisée des méthodes de recherche quantitatives et qualitatives. Il est donc essentiel que l’analyse et, surtout, la présentation des résultats soient soigneusement considérées afin d’éviter des interprétations erronées pouvant conduire à des conclusions ou réponses inappropriées. L’accent doit être mis sur la simplicité et l’interprétabilité, car les parties prenantes doivent être capables, à la fois, de comprendre les informations fournies et de les interpréter correctement21. L’analyse des données doit avoir lieu parallèlement au processus de collecte des données. Ce processus continu d’analyse des données facilite le partage régulier et la discussion des résultats.
Une considération préliminaire importante lors de la conception de votre plan d’analyse des données est de définir clairement les principaux objectifs de l’analyse en identifiant les problèmes spécifiques à traiter. Il est important de se rappeler que les données de la RMO sont, par nature, destinées non seulement à décrire une intervention, mais aussi à l’améliorer.
Par exemple, la recherche de RMO peut se concentrer sur :
Avant toute analyse statistique, certains facteurs doivent être pris en compte afin de sélectionner l’analyse statistique la plus appropriée. Ceux-ci sont décrits brièvement ci-dessous.
L’échelle de mesure est un moyen de définir et de classer les variables. Il existe quatre échelles de mesure différentes (nominale, ordinale, continue et rapport).
Chaque échelle de mesure a des propriétés différentes, qui peuvent être requises pour différentes analyses statistiques. Le Tableau 15 résume les propriétés pour les différentes échelles de mesure, décrites en détail ci-dessous.
L’échelle nominale ne peut que différencier les catégories. On ne peut pas dire qu’une catégorie est supérieure ou meilleure qu’une autre catégorie. Un exemple d’échelle nominale est le sexe. Si on code « masculin » comme 1 et « féminin » comme 2 ou vice versa (c’est-à-dire lorsqu’on saisit la variable dans l’ordinateur), cela ne signifie pas qu’un sexe est meilleur que l’autre. Les numéros 1 et 2 ne représentent que des catégories de données.
Les échelles ordinales représentent une série ordonnée de relations ou d’ordre de classement. Cependant, on ne peut pas quantifier la différence entre les catégories. On peut seulement dire qu’une catégorie est meilleure ou plus élevée que les autres catégories. Un exemple d’échelle ordinale est le classement des établissements de santé (par exemple, primaire, secondaire, tertiaire).
L’échelle continue représente un ordre de classement avec des unités égales de quantité ou de mesure. A noter que dans cette échelle, zéro représente simplement un point de mesure supplémentaire et non la valeur la plus basse. Un exemple d’échelle de mesure est l’échelle de température en degrés Celsius ou Fahrenheit. Dans cette échelle, zéro (0) est un point sur l’échelle avec des valeurs en dessus et en dessous.
L’échelle de rapport est similaire à l’échelle continue, dans laquelle elle représente un ordre de rang avec une unité de quantité ou de mesure égale. Cependant, l’échelle de rapport a un zéro absolu, où zéro est la valeur la plus basse. Un exemple d’échelle de rapport est l’indice de masse corporelle (IMC) dans lequel la valeur la plus faible est (théoriquement) zéro.
Les données sur une échelle continue et de rapport sont considérées comme paramétriques car ces types de données ont certains paramètres concernant la distribution de de la population dans son ensemble (présomption de distribution normale avec la moyenne comme mesure de tendance centrale et la variance comme mesure de dispersion). « Paramétrique » signifie également que les données peuvent être ajoutées, soustraites, multipliées et divisées. L’analyse statistique de ces types de données se fait grâce à des tests paramétriques.
D’autre part, les échelles nominales et ordinales sont appelées non paramétriques. Les données non paramétriques n’ont pas les paramètres que possèdent les données paramétriques. En outre, il manque les valeurs quantifiables, de sorte que les données non paramétriques ne peuvent pas être additionnées, soustraites, multipliées ou divisées. Les données nominales et ordinales sont analysées à l’aide de tests non paramétriques.
Un test paramétrique est considéré comme plus robuste qu’un test non paramétrique. De plus, il y a plus d’options statistiques disponibles pour analyser les données paramétriques. Toutefois, la plupart des tests paramétriques supposent que les données soient normalement distribuées.
La façon dont les questions de recherche sont formulées détermine également le type de techniques statistiques à utiliser pour l’analyse. Des exemples de questions de RMO incluent :
La recherche quantitative génère de gros volumes de données qui nécessitent d’être organisées et résumées. Ces opérations facilitent une meilleure compréhension de la façon dont les données varient ou se rapportent les unes aux autres. Les données révèlent la distribution des valeurs des variables d’étude dans la population d’étude. Par exemple :
L’analyse du type de données décrit ci-dessus implique essentiellement l’utilisation de techniques pour résumer ces distributions et estimer dans quelle mesure elles se rapportent à d’autres variables.
L’utilisation de distributions de fréquences à cette fin présente plusieurs avantages :
Les différents formats de présentation de données aident à atteindre différents publics cibles. Les tableaux sont un format de présentation utile lorsque vous souhaitez communiquer au sein de la communauté scientifique. Les présentations de données graphiques aident à communiquer avec un public plus large et moins scientifique dans la communauté ou les décideurs.
Vous pouvez en savoir plus sur la présentation des données et sur la façon de présenter les données à différents publics dans le module « Communication et plaidoyer » de cette boîte à outils.
Une décision clé dans la construction d’une distribution de fréquence concerne le choix des intervalles sur l’échelle des mesures. Par exemple :
Il y a deux objectifs contradictoires pour déterminer le nombre d’intervalles :
A noter : les distributions basées sur des intervalles inégaux doivent être utilisées avec prudence, car elles peuvent être facilement mal interprétées, en particulier lorsque les distributions sont présentées graphiquement.
Un examen attentif de la distribution de fréquence d’une variable est une étape cruciale et peut constituer une forme d’analyse extrêmement puissante et robuste. On a souvent tendance à passer trop rapidement au calcul de des statistiques récapitulatives (par exemple, moyenne, variance) qui sont plus simples et sont destinées (mais échouent souvent) à saisir les caractéristiques essentielles d’une distribution.
Les statistiques récapitulatives se limitent généralement à obtenir les mesures indiquant la tendance générale d’une distribution (par exemple, le nombre moyen de personnes malades, pauvres ou éduquées dans la population étudiée) ou à indiquer l’ampleur de la variation au sein d’une population. Cependant, les raisons pour choisir une statistique récapitulative particulière doivent se rapporter à l’objectif pour lequel elle est destinée.
La tendance centrale mesure la localisation centrale d’une distribution de données. La moyenne est le paramètre le plus couramment utilisé car elle est simple à calculer et à manipuler.
Par exemple, il est facile de combiner la moyenne des sous-populations pour calculer la moyenne globale de la population. Cependant, la moyenne est souvent utilisée de façon inappropriée. Elle peut également être mal interprétée comme valeur typique dans une population.
La médiane, définie comme la valeur centrale, est relativement facile à expliquer. Les amplitudes des autres valeurs ne sont pas pertinentes. Par exemple, si la valeur la plus élevée dans une plage donnée augmente ou que la plus petite valeur diminue, la médiane reste inchangée.
Quand un ensemble de données n’est pas asymétrique (ou lorsque les données ont une distribution « normale » /Gaussienne), la moyenne et la médiane sont les mêmes (Figure 5). Il est donc préférable d’utiliser la médiane comme mesure de la tendance centrale lorsque l’ensemble de données est asymétrique car la valeur est indépendante de la forme de la distribution de données.
Dans une distribution asymétrique, la moyenne est difficile à interpréter (Figure 6).
La mesure de la dispersion indique le degré de variabilité dans une population donnée, comme suit :
Les variances, écarts-types et coefficients de variation sont largement utilisés dans l’analyse statistique. Comme avec la moyenne, ce n’est pas toujours parce que ce sont les meilleures mesures de la variabilité (on peut facilement les interpréter pour les variables normalement distribuées mais pas pour les autres distributions), mais principalement parce qu’on peut facilement les calculer et les manipuler.
Par exemple, étant donné les variances de deux sous-groupes de population, il est facile de les combiner pour calculer la variance globale de la population. Cependant, bien qu’elles puissent avoir des avantages techniques, ces mesures présentent de sérieuses limites en termes d’application des politiques.
Les mesures plus facilement interprétables comprennent les quartiles et les centiles. Les quartiles divisent les données en quatre quarts (Q1 à Q4), avec 25% des données disponibles se trouvant dans chaque quartile:
L’écart interquartile est Q3 moins Q1 (= Q3-Q1), comprenant 50% des données du milieu de la population.
Les centiles divisent les données en deux parties :
Autres percentiles communs:
Autres statistiques descriptives.
Les résultats d’une intervention peuvent varier considérablement entre différents sous-groupes de la population cible. L’analyse des sous-groupes peut être complexe si les sous-groupes ne sont pas prédéfinis. Étudier une relation au sein d’un sous- groupe simplement parce qu’il semble intéressant peut biaiser les résultats.
La fouille de données (c’est-à-dire l’exploration de bases de données pour découvrir des relations apparentes) est utile pour formuler de nouvelles hypothèses, mais nécessite une grande prudence en RMO. Le contexte dans lequel cette sous-analyse est entreprise doit être considéré avec soin, car les relations entre les variables explicatives et les réponses peuvent être affectées par des variables contextuelles. Par exemple, on peut supposer qu’il soit utile d’entreprendre une analyse des maladies chroniques par groupe d’âge et par sexe,
comme le montre le Tableau 16. Pour une interprétation sensée des résultats, le type de maladie chronique et le contexte des patients qui les subissent sont des variables importantes à considérer.
Bien que les mesures du risque soient largement utilisées dans la recherche en santé, elles ne sont pas toujours bien comprises.
Par exemple, le risque relatif et le rapport des cotes (en anglais odds ratio) sont souvent utilisés de façon interchangeable, mais ils ne signifient pas la même chose :
Un test statistique est effectué afin de pouvoir faire des inférences concernant certains aspects inconnus d’une population statistique à partir de l’échantillon recueilli pour l’étude. Il existe différents types de tests statistiques qu’on peut utiliser en fonction des questions de recherche, du type d’échelle de mesure et des présomptions concernant la distribution des données. Des analyses univariées et bivariées simples doivent être faites avant qu’une analyse plus sophistiquée telle que l’analyse multivariée soit effectuée.
L’association est une relation entre deux variables qui sont statistiquement dépendantes. Les deux variables sont équivalentes ; il n’y a pas de variable indépendante et dépendante.
La corrélation peut être considérée comme un type d’association où la relation entre les variables est linéaire. Il existe plusieurs tests statistiques pour évaluer la corrélation entre les variables (Tableau 17).
L’analyse de comparaison de groupe est utilisée pour explorer les différences statistiquement significatives des résultats entre les groupes.
Les groupes peuvent être catégorisés en fonction de leur exposition (en anglais exposure) au cours de l’étude. Quand il y a une différence significative entre les groupes, on suppose que la différence est due à l’exposition ( Tableau 18).
L’analyse de régression est le type d’analyse utilisé pour prédire les résultats de l’étude à partir d’un certain nombre de variables indépendantes. Si la variable indépendante est sur une échelle continue ou de rapport et a une distribution normale, la régression linéaire peut être utilisée. Si la variable indépendante est dichotomique (c’est-à-dire binaire, ne prenant que 2 valeurs possibles, par exemple, « oui » ou « non »), une régression logistique peut être utilisée.
Il existe de nombreuses traditions de recherche qualitative et on a plaidé qu’il ne peut pas et ne doit pas y avoir une approche uniforme des méthodes d’analyse qualitative (Bradley et al 2007)22. De même, il existe peu de règles d’or reconnues pour l’analyse qualitative des données, dans le sens de règles communes acceptées pour tirer des conclusions et pour vérifier la robustesse de l’étude23. De nombreuses études qualitatives adoptent une stratégie itérative : recueillir des données, élaborer des concepts et hypothèses initiaux, tester de nouvelles données, réviser les concepts et hypothèses. Cette approche implique que la collecte et l’analyse des données soient intégrées dans un processus unique et sont entreprises par les mêmes individus. Cependant, avec l’utilisation croissante de la recherche qualitative dans la recherche en santé, les objectifs sont souvent prédéfinis avant le début de la collecte des données, plutôt que d’être développés au fur et à mesure que les données émergent.
Les chercheurs peuvent également utiliser différents logiciels d’analyse de données qualitative (en anglais : qualitative data analysis ou QDA) pour les aider à gérer leurs données. Le terme « logiciel QDA » est légèrement trompeur car le logiciel n’analyse pas réellement les données, mais les organise pour faciliter la recherche et l’identification des thèmes. Les logiciels peuvent également être relativement coûteux (jusqu’à environ 900 USD par utilisateur). Pour ces raisons, certains chercheurs préfèrent analyser les données manuellement. Cependant, au fur et à mesure que les logiciels s’améliorent, les chercheurs trouvent la QDA de plus en plus utile pour aider à analyser les données et gagner du temps. Voici quelques-uns des noms de logiciels QDA les plus courants :
Les chercheurs peuvent se sentir libres d’utiliser n’importe quelle méthode d’analyse (avec ou sans logiciel) avec laquelle ils se sentent à l’aise. Quelle que soit l’approche utilisée, toutes les analyses qualitatives impliquent de donner un sens à de grandes quantités de données, d’identifier les tendances marquantes et de communiquer l’essence de ce que révèlent les données.
L’analyse qualitative des données comprend la gestion des données, la réduction des données et le codage des données. En bref, l’objectif est d’identifier les tendances (thèmes) dans les données et les liens qui existent entre elles. Comme mentionné, il n’y a pas de formule établie pour analyser les données qualitatives, mais il y a trois conditions principales de l’analyse qualitative à respecter :
Les étapes suivantes décrivent ces trois composants de base plus en détail :
L’équipe de recherche doit s’assurer de la rigueur scientifique dans l’analyse des méthodes qualitatives. Par exemple, votre étude fournira-t-elle aux participants une copie de leurs transcriptions d’entretien pour leur donner l’occasion de vérifier et de clarifier leurs points de vue ? Utiliserez-vous un logiciel pour vous aider à gérer vos données et augmenter la rigueur ? Allez-vous effectuer des vérifications d’évaluateurs (plusieurs chercheurs analysent des sections de données pour comparer et vérifier les résultats (appelée fiabilité inter-évaluateurs)) ? Allez- vous trianguler les données pour accroître la rigueur ? Allez-vous rapporter les résultats contradictoires ?
Dans les études quantitatives, la fiabilité signifie la répétabilité et l’indépendance des résultats par rapport aux chercheurs spécifiques générant ces résultats. Dans la recherche qualitative, la fiabilité implique que, compte tenu des données collectées, les résultats sont fiables et cohérents10. La force de la recherche qualitative réside dans la validité (fidélité à la vérité). Une bonne recherche qualitative, utilisant une sélection de méthodes de collecte de données, doit toucher le cœur de ce qui se passe plutôt que de se contenter d’une analyse superficielle. Au cours de l’analyse de données qualitatives, recherchez la validité interne grâce à laquelle une compréhension approfondie des données vous permettra de contrer des explications divergentes de vos résultats.
Le processus de base pour l’analyse du texte issu d’entretiens ou de discussions est relativement simple et comprend :
Une approche relativement simple est basée sur l’identification de thèmes clés, appelés « domaines », et des relations entre eux.
Il y a quatre étapes dans l’analyse de domaines / thèmes, il faut :
Après avoir fait la liste des domaines, il est utile de commencer à organiser les segments de texte dans les domaines principaux. Ce processus regroupe les phrases réellement énoncées et permet aux sous-catégories d’émerger directement à partir des propres mots des interviewés.
Cette étape implique l’identification des relations entre les domaines ou les thèmes pour construire une image globale. Dans l’ensemble des citations réellement énoncées par les répondants, le chercheur doit identifier les déclarations qui relient un sujet à un autre. Par exemple, dans l’étude décrite ci-dessus,
les chercheurs ont pu établir des associations entre les domaines qui reliaient les expériences antérieures des femmes, leur perception du risque et leur situation socioéconomique avec leurs évaluations des services de santé (Figure 9).
Après une analyse initiale pour acquérir une compréhension globale des principales caractéristiques des données, de nombreux analystes appliquent une procédure de codage systématique. Les chercheurs déterminent la façon la plus appropriée d’effectuer une analyse systématique, en dévoilant et en documentant les liens entre les domaines, les thèmes et les sous-thèmes23.
Ces codes sont assignés à des occurrences spécifiques de mots ou d’expressions, en soulignant les motifs dans le texte tout en préservant le contexte, comme illustré dans le Tableau 19.
Dans un projet de RMO avec méthodes mixtes, montrer comment la rigueur scientifique sera assurée tout au long de votre étude est essentiel. Il est important d’examiner la validité (c’est-à-dire être capable de tirer des conclusions significatives d’une population) et la fiabilité (c’est-à-dire la stabilité des résultats des outils au fil du temps) des données quantitatives.
Pour assurer une validation qualitative, le chercheur utilisera un certain nombre de stratégies. En premier lieu, les participants auront l’occasion d’examiner les résultats et de faire des commentaires sur la question de savoir si les résultats reflètent fidèlement leur expérience. Deuxièmement, la triangulation des données sera établie à partir de diverses sources (transcriptions et entretiens individuels) et de plusieurs participants. Enfin, tout résultat « en contradiction » sera rapporté. Ceci afin de s’assurer que les récits fournis par les participants soient dignes de confiance.
Avant de commencer l’analyse, considérez comment l’étude de méthode mixte a été conçue. Reportez-vous au Tableau 7 sur les méthodes mixtes pour examiner l’ordre dans lequel les données ont été recueillies. Cela guidera le processus indiquant quelles données (qualitatives ou quantitatives) doivent être analysées en premier.
L’un des aspects importants de l’analyse des méthodes mixtes est la capacité de présenter ces données de manière à ce que les différentes méthodologies se «parlent» les unes aux autres. Par exemple, si les résultats de l’enquête quantitative montrent que 45% des mères ne fréquentent pas les services prénatals, l’ajout d’une citation directe d’une mère recueillie dans une discussion de groupe va ajouter un élément réel et tangible à ce résultat.
Lorsque vous travaillez à l’analyse des données recueillies dans le projet de RMO, il est important de se rappeler qui recevra les résultats de la recherche. Cela permettra de déterminer comment les résultats de la recherche seront présentés. Par exemple, si les résultats sont diffusés lors de réunions communautaires, il est important d’utiliser des infographies et des citations simples ;
en revanche lors de réunions de type atelier avec des décideurs de haut niveau, des informations plus détaillées et des chiffres sont nécessaires. Ceci est traité plus en détail dans le module « Communication et plaidoyer » de cette boîte à outils.
Français
English