Agence de la santé publique du Canada
Symbole du gouvernement du Canada

Partagez cette page

Évaluation de la qualité de vie des personnes atteintes de troubles mentaux chroniques : Analyse critique des mesures et des méthodes

Précédente | Prochaine | Table des matières

3. Comparaisons psychométriques des instruments et des méthodes

La fiabilité et la validité des instruments sont à la base de toute activité de mesure, et il est nécessaire de bien saisir ces concepts si l'on veut prendre des décisions éclairées lors de la planification, de la mise en œuvre et de l'analyse de tout projet de recherche ou d'évaluation. La fiabilité désigne la cohérence dans la collecte des données au moyen d'un instrument ou d'une méthode de mesure. On considère que la cohérence interne d'un instrument est bonne lorsque les sujets répondent de manière cohérente à des items similaires du même instrument. On estime que la cohérence temporelle d'un instrument est bonne lorsque les mêmes sujets, évalués à deux reprises (à des moments différents), obtiennent essentiellement des scores identiques (à condition que les caractéristiques étudiées n'aient pas changé). La validité s'entend du degré de signification de l'instrument et des données qu'il permet d'obtenir. Les questions telles que : Que mesure-t-on réellement? Que signifient les résultats? Les résultats s'appliquent-ils à d'autres personnes? concernent toutes la signification ou la validité de l'évaluation, des méthodes et des résultats.

En gros, deux types d'erreurs dans les réponses ont pour effet de réduire la cohérence des ensembles de données (de réduire le niveau de fiabilité) et sapent la confiance que l'on peut avoir dans les résultats obtenus. En premier lieu, il y a l'erreur non systématique, ou aléatoire, qui se produit lorsque les scores obtenus par les sujets sont influencés par le hasard. Ce type d'erreur diminue la précision de la valeur estimée d'un paramètre en augmentant la variation inexpliquée dans l'ensemble de données. Lorsque l'ensemble de données est trop flou, les différences importantes qui pourraient s'y trouver risquent davantage de passer inaperçues (erreurs d'inférence du type II). En second lieu, il y a l'erreur systématique qui se produit lorsqu'il y a un élément systématique et imprévu qui affecte toutes les observations dans le même sens et fausse les conclusions (erreurs d'inférence du type I). La possibilité d'une erreur systématique compromet la signification ou la validité de toute conclusion importante.

Les sources d'erreur aléatoire ou systématique sont nombreuses et il y a lieu de tout faire, à l'étape de la planification, pour accroître la précision de l'évaluation et mieux déceler les possibilités d'erreur systématique à l'étape de la planification. Bien qu'une analyse complète de ce processus déborde le cadre de ce document (le lecteur est prié de consulter un bon ouvrage sur la conception des plans d'enquête; p. ex. Portney et Watkins, 1993), il existe plusieurs sources d'erreur aléatoire et systématique qui sont nécessairement liées à la conception et à l'application des instruments. Ces sujets sont abordés plus loin.

3.1 Fiabilité des instruments

Cohérence interne : La cohérence interne d'une échelle renvoie à la « cohésion structurale » des items qui la composent. Si une échelle est formée d'items étroitement liés, son indice de cohérence interne (généralement le coefficient Alpha de Cronbach, Cronbach, 1951) est plus élevé que si elle se compose de questions disparates ou si elle sollicite des réponses disjointes. Il importe que toutes les échelles soient cohérentes sur le plan structural, autrement dit que leur indice de cohérence interne soit satisfaisant (généralement, > 0,80) puisque le degré de cohérence interne fixe la limite supérieure de toute autre estimation de la fiabilité ou de la validité de l'échelle. Toutefois, certains facteurs doivent être pris en considération lorsqu'on applique uniformément ce principe général.

Plus le nombre d'items d'une échelle est élevé, plus sa fiabilité (cohérence interne) est grande. Ainsi, tous autres facteurs étant égaux, un questionnaire relatif à la qualité de vie qui compte moins d'items, sera moins cohérent qu'un instrument plus long, et donnera lieu à plus de fluctuations dans les scores obtenus par les patients, en raison des réponses au hasard. Par conséquent, il ne suffit pas de comparer les coefficients Alpha de Cronbach lorsqu'on recherche un instrument fiable, puisque ce coefficient sera moins élevé à la fois parce que l'instrument comptera moins d'items et parce que l'échelle manquera de cohérence interne. Les coefficients de confiance peuvent être rajustés (standardisés) en fonction du nombre d'items, au moyen de la formule de Spearman Brown [Prophecy Formula], qui est bien décrite dans tout ouvrage portant sur les tests (par exemple Aiken, 1991). Toutefois, les ouvrages indiquent rarement les valeurs rajustées (et la plupart des lecteurs ne soumettent pas les données signalées à une nouvelle analyse statistique).

Outre les considérations mathématiques, diverses raisons expliquent pourquoi les échelles à catégories multiples sont dans l'ensemble plus cohérentes que les instruments qui font appel à des catégories uniques. Une théorie intéressante a été avancée pour rendre compte de ce phénomène, à savoir que les instruments à catégories multiples incitent généralement les sujets à fouiller dans leur mémoire afin d'y trouver des expériences pertinentes qui orienteront leurs réponses. Il semblerait que cette recherche d'éléments d'information pertinents ait pour effet de réduire l'impact des « jugements rapides » et des pensées préconscientes, qui ne sont que tangentiellement liés à la raison d'être première de la question (Pavot et Deiner, 1993a). Il existe d'autres moyens d'accroître la cohérence des réponses, soit demander aux répondants de trouver et d'énumérer les domaines qu'ils jugent les plus importants (cf., Schedule for the Evaluation of Individual's Quality of Life - voir XXVI, chapitre 5), ou encore rattacher les catégories à leurs expériences de vie récentes. Cette façon de procéder comporte d'autres avantages, car les intervieweurs peuvent aussi constater rapidement dans quelle mesure l'item est bien saisi par le sujet et présente de l'intérêt pour lui.

Fiabilité test-retest et fiabilité des formes parallèles : Un autre moyen d'évaluer la précision d'une échelle consiste à déterminer dans quelle mesure deux évaluations faites à deux moments différents, à l'aide de la même échelle et avec les mêmes sujets, se recoupent, autrement dit, à établir le degré de corrélation entre les résultats. Bien entendu, on part ici du principe que l'intervalle de temps est suffisamment bref pour qu'on ait l'assurance que les caractéristiques mesurées n'ont pas changé entre les deux séances d'évaluation; mais suffisamment long pour qu'on ait l'assurance que les sujets ne répondent pas de mémoire. Le coefficient de confiance test-retest indique dans quelle mesure les réponses aux mêmes items sont identiques lorsqu'un même test est administré auprès des mêmes sujets à des moments différents. En général, l'indice de constance test-retest est légèrement inférieur à l'indice de cohérence interne (de manière générale, un coefficient >0,75 indique une constance test-retest suffisante). Il arrive que l'on se serve de formes alternées ou parallèles du même instrument (p. ex. le Life Satisfaction Index - voir IX, chapitre 5) pour écarter la possibilité que le souvenir qu'ont les répondants des items n'affecte les résultats obtenus lors d'un retest. Les coefficients de constance des formes parallèles indiquent généralement la corrélation entre les scores obtenus par des sujets qui répondent au même moment à deux formes différentes d'un même instrument. Là aussi, un coefficient supérieur à 0,75 indique une constance des formes parallèles.

3.2 Validité des instruments

La validité d'un instrument ou d'une méthode désigne son « degré de vérité ». La détermination de la signification ou de la vérité d'une mesure est une question complexe qui suppose que l'on analyse sérieusement le rendement d'un instrument par rapport à celui d'autres instruments ou critères dûment éprouvés pour établir dans quelle mesure il remplit la fonction attendue de l'activité d'évaluation. On dénombre plusieurs types de validité, notamment la validité apparente/la validité de contenu, la validité de construct, la validité convergente et la validité prédictive (Weiner et Stewart, 1984; Aiken, 1991). Nous nous pencherons ci-après sur la détermination de la validité apparente/de contenu et de la validité convergente/prédictive puisqu'il s'agit de concepts que les évaluateurs devraient connaître à fond.

Validité apparente et validité de contenu : On entend par validité apparente le degré auquel un instrument paraît poser des questions sur un contenu qui a trait à la fois à l'objectif mesuré et à l'expérience du répondant. Autrement dit, si un instrument de mesure de la qualité de vie semble sans rapport avec l'expérience de la vie du répondant, les réponses données risquent davantage de contenir des erreurs attribuables à des interprétations erronées ou à l'absence de motivation, source possible d'inattention de la part du répondant. En outre, les items peu pertinents peuvent susciter des réponses impossibles à interpréter. C'est le cas par exemple lorsqu'on pose à un groupe de sujets schizophrènes des questions au sujet de leur satisfaction à l'égard de leur conjoint alors qu'en fait très peu d'entre eux sont mariés. La validité de contenu est proche de la validité apparente, la principale différence entre les deux étant que, dans le premier cas, c'est un groupe d'experts qui examine l'instrument et détermine à quel degré les questions d'un instrument servent à mesurer les caractéristiques étudiées. La convergence de vues entre des personnes parfaitement familiarisées avec un sujet, à propos du contenu d'un instrument, contribue à valider son contenu (Streiner, 1993).

Il est fréquent que la validité d'un instrument soit compromise lorsque les répondants interprètent différemment le sens d'un item. Par exemple, si l'énoncé « Dans quelle mesure êtes-vous proche des membres de votre famille? » est interprété de telle sorte que les « membres de la famille » évoquent pour certains « la descendance » et pour d'autres « l'ascendance », les données relatives au groupe deviennent impossibles à interpréter. D'où la nécessité de bien tenir compte des interprétations auxquelles les items pourraient donner lieu chez les personnes censées répondre à un questionnaire sur la qualité de vie. D'où aussi la nécessité de parcourir un instrument afin de déterminer si les items et les échelles sont adaptés au niveau de compréhension des répondants (vocabulaire, niveau d'instruction, etc.).

Validité de construct : Tout au cours de ce document, nous avons employé le terme « construct », un concept théorique qui a été créé pour « expliquer et structurer certains aspects des connaissances [et des observations] » - traduction libre - (American Psychological Association, 1974, p. 29). Parmi les constructs utilisés dans les instruments de mesure de la qualité de vie figurent la satisfaction, l'importance et le fonctionnement dans les domaines de la vie personnelle, familiale, sociale et communautaire. La mise au point d'instruments ou d'échelles qui permettent de bien mesurer de tels constructs est un processus dit de validation de construct.

Des mesures faites à l'aide d'un instrument qui possède une bonne validité de construct donneront des résultats en corrélation avec ceux d'autres instruments qui portent théoriquement sur les mêmes constructs. Par exemple, si un chercheur qui aborde la qualité de vie d'un point de vue objectif élaborait une nouvelle mesure du fonctionnement intellectuel, on pourrait (en principe) s'attendre à une corrélation entre les résultats obtenus à l'aide de cet instrument et ceux d'autres mesures dûment éprouvées et validées des habiletés, du fonctionnement et du rendement intellectuels. Une autre méthode couramment utilisée pour déterminer la validité de construct d'un instrument est l'analyse factorielle de validation. Il s'agit d'une méthode statistique qui consiste à évaluer les réponses données aux items d'un instrument afin d'établir si elles se regroupent, comme elles le devraient théoriquement. Ainsi, il devrait y avoir une forte corrélation entre les items qui reposent sur le construct de la satisfaction globale; par contre, la corrélation entre les items fondés sur le construct du fonctionnement physique et ceux qui misent sur la satisfaction globale ne devrait pas être très élevée.

Validité convergente et validité prédictive : La validité convergente et prédictive d'un instrument désigne le degré de corrélation entre les indicateurs qu'il permet d'obtenir et ceux qui ressortent d'autres instruments communément admis et qui sont mesurés soit au même moment (validité convergente), soit à une période ultérieure (validité prédictive). Ainsi, le concepteur d'un nouvel instrument de mesure de la qualité de vie qui veut savoir s'il mesure effectivement la qualité de vie des patients pourrait choisir un instrument bien connu, dont les qualités psychométriques sont éprouvées, pour fins de comparaison. Une telle comparaison pourrait consister à demander aux patients de remplir les deux instruments et à établir la corrélation entre les résultats; si les réponses se recoupent, cela veut dire qu'il y a accord entre le nouvel instrument et l'instrument de référence choisi. La détermination de la validité prédictive implique aussi le recours à une norme externe à partir de laquelle on déterminera le degré de vérité d'un instrument. Dans ce cas, toutefois, la norme est soit un critère soit un événement théoriquement associés à la dimension qu'un instrument est censé évaluer. Par exemple, les scores obtenus à partir d'une échelle de mesure de l'autonomie nouvellement conçue pourraient être comparés à l'évaluation de l'autonomie des patients par rapport aux intervenants en santé (un critère) ou à leur futur statut professionnel (une prédiction).

Validité externe : Une forme de validité que l'on tient souvent pour acquise consiste à savoir dans quelle mesure les inférences faites à partir des résultats décrivent l'ensemble de la population. Plus précisément, la validité externe désigne l'adéquation entre les instruments et les méthodes, d'une part, et l'objet de l'enquête, d'autre part. Lorsqu'on néglige d'établir la corrélation entre l'instrument et l'objectif mesuré, on peut mettre en doute la signification de toute observation et on risque davantage de n'aboutir à aucune conclusion (erreur de Type II). Le choix de l'instrument et la conception de l'enquête/de l'évaluation influent sur la capacité de déceler des changements entre les individus observés.

Comme nous l'avons souligné plus tôt, les instruments de mesure de la qualité de vie ont été élaborés à partir de différents modèles de la santé et de la maladie. Ainsi, certains instruments font appel à un modèle fonctionnel de la santé, alors que d'autres utilisent un modèle expérimental, en ce sens qu'ils tiennent compte des expériences du sujet par rapport à la maladie (cf. Costain et coll., 1993). Chaque catégorie d'instruments aborde dans une optique différente les problèmes des consommateurs. Il est aussi souhaitable d'envisager la spécificité (application spécifique) et la sensibilité (finesse discriminative) d'un instrument sous l'angle des domaines visés par l'enquête (Santé Canada, 1994b). Certaines mesures sont plus globales et s'appliquent moins spécifiquement à la maladie ou au traitement. Ces instruments visent à décrire les répercussions de la santé sur les expériences de vie plus générales de la personne. Si les résultats obtenus au moyen de ces mesures sont souvent comparables d'un programme à l'autre, leurs liens avec les effets dus aux traitements sont moins évidents. Certains instruments, par contre, s'appliquent très précisément à certaines étapes de la maladie et décèlent avec une grande sensibilité les effets de certains traitements. Une telle spécificité peut cependant nuire aux comparaisons entre les programmes. De plus, des instruments d'une grande sensibilité peuvent déceler des différences qui sont trop faibles pour être très significatives d'un point de vue clinique - voir Santé Canada, 1994b, p. 13, en ce qui concerne une analyse des « différences minimalement importantes ».

Évaluations de la fiabilité et de la validité des instruments de mesure de la qualité de vie : Le Tableau 4 (voir la page no 21) présente les 28 instruments sur lesquels repose notre analyse quinquennale et l'évaluation que nous avons faite de leur fiabilité et de leur validité. Il ne nous a pas été facile de déterminer la qualité des instruments. Comme nous l'avons souligné, les coefficients de confiance varie selon le nombre d'items. Nous n'avons pas tenté de rajuster ces coefficients en tenant compte du nombre d'items. De plus, il peut être préférable, lorsqu'on entreprend une évaluation, de choisir un instrument bref, facile à administrer et moins fidèle qu'un indicateur long, très stable et très fiable. De même, les instruments qui mesurent le comportement ou les symptômes des individus sont généralement moins homogènes, de sorte que leur cohérence interne est moins grande que les échelles composées d'items plus généraux et évaluatifs. Nos décisions ont également été influencées par le choix et l'accessibilité d'analyses psychométriques. Dans le cas de certains instruments très couramment utilisés (p. ex. la Medical Outcomes Study, voir X, chapitre 5), nous avons sélectionné des études représentatives parmi des centaines qui existaient en tenant compte de l'intérêt qu'elles présentaient pour des populations psychiatriques ou des questions de santé mentale. En ce qui concerne d'autres instruments, nous n'avons pu mettre la main que sur une ou deux sources de référence qui, dans certains cas, ont traité à fond la question de la validité de l'instrument, dans certains cas, pas. Autre réserve, la validité de tout instrument s'établit surtout au regard de l'objectif de l'étude. Ainsi, un instrument de mesure de la qualité de vie très sensible et très spécifique ne serait pas très utile dans le cadre d'une étude visant à comparer divers programmes et divers centres.

Pour toutes les raisons évoquées plus haut, le tableau ci-après n'est présenté qu'à titre indicatif et ne prétend pas apporter de réponses définitives aux questions qui se posent, car les instruments varient quant à leur façon d'obtenir les éléments d'information, à la puissance des sous-échelles et au degré auquel ils ont été validés en fonction des objectifs visés et des populations auprès desquelles ils seront utilisés. On trouvera au chapitre 5 plus de détails au sujet des instruments spécifiques et des sources de référence y afférentes.

Tableau 4 : Évaluation psychométrique des instruments de mesure de la qualité de vie

Instrument de mesure de la qualité de vie Utilisé auprès d'une population psychiatrique Fiabilité Validité Observations
ComQoL Scale Non Passable Passable Renferme un test sur les aptitudes des patients à faire preuve de jugement. Est utilisé auprès de personnes atteintes de déficience intellectuelle.
Questionnaire sur l'état de santé Oui Passable à bonne Passable à bonne Instrument le plus couramment utilisé dans le domaine de la santé mentale. Accent mis sur l'évaluation de la détresse et de l'angoisse névrotiques.
Gottenberg QoL Instrument Non Passable à bonne Passable à bonne Accent mis sur la symptomatologie, mesure de l'anxiété, de la concentration, de la dépression et de la fatigue.
Health Measurement Question. Oui Passable à bonne Passable à bonne Utile dans un contexte de psychiatrie de liaison, auprès de maladies mentaux aigus et chroniques, hospitalisés ou consultants externes.
Lancashire QoL Profile Oui Passable à bonne Passable à bonne Comprend une mesure des erreurs dues aux répondants - une opinion professionnelle au sujet de la fiabilité des réponses données par les patients, à utiliser auprès des schizophrènes et d'une population mixte.
Lehman’s QoL Interview Oui Passable à bonne Bonne Bien documentée, les échelles objectives manquent un peu de constance, tient compte de tous les cas graves et chroniques.
Life-As-A-Whole Index (échelle unidimensionnelle) Non Passable Passable Échelle unidimensionnelle, rapide à administrer.
Life Experiences Checklist Non Passable Passable Facile àadministrer, pas parfaitement au point sur le plan
Life Satisfaction Index Oui Passable à bonne Passable à bonne Souvent utilisé auprès de patients atteints de déficience intellectuelle et pourrait également être appliqué auprès de populations psychiatriques pour obtenir une mesure de leur bien-être.
Medical Outcomes Study (MOS) SF-36 Oui Bonne Bonne Très couramment utilisé, ne s'applique pas spécifiquement aux malades mentaux, mais pourrait servir auprès de patients déprimés.
Multifaceted Lifestyle Satisfaction Scale Non Passable à bonne Passable à bonne Doit être validé avant d'être utilisé auprès de malades mentaux. Utilisé auprès des sujets atteints de déficience intellectuelle.
Nottingham Health Profile Oui Passable à bonne Passable Pose un problème en ce sens que les répondants ne signalent «aucun» problème dans toutes les échelles, de sorte que les scores obtenus par des sujets plus normaux pourraient être minimaux.
QoL in Depression Scale Oui Bonne Bonne Très grande validit éapparente pour les patients; facile à administrer, ne s'applique qu'à des sujets souffrant de dépression.
QoL Enjoyment and Satisfaction Questionnaire Oui Bonne Bonne Solidité de l'évaluation et grande pertinence clinique pour une population de malades déprimés.
QoL Index (5 échelles globales) Non Passable à bonne Passable à bonne S'administre très rapidement et fait appel à cinq échelles d'évaluation clinique globale.
QoL Index for Mental Health Oui Bonne Passable à bonne Instrument nouveau et prometteur, échelles de mesure des objectifs et des symptômes utiles pour les comparaisons patientthérapeute, utilisé auprès de populations mixtes de cas graves et chroniques.
QoL Interview Schedule Oui Passable à bonne Passable à bonne Certaines échelles manquent de cohérence interne; instrument utilisé auprès de populations mixtes de cas chroniques et graves.
QoL Inventory Oui Passable à bonne Bonne Fait une grande place aux jugements de valeur, évaluation de l'écart entre l'importance et la satisfaction.
QoL Questionnaire (Shalock) Non Passable à bonne Passable à bonne Conçu pour l'évaluation des problèmes de développement.
QoL Questionnaire/Interview (Bigelow) Oui Passable à bonne Bonne Fortement axé sur l'emploi, contient des échelles d'évaluation de la consommation/de l'abus de substances et de la tolérance au stress. Les échelles semblent manquer quelque peu de constance. Utilisé auprès de populations mixtes.
QoL Scale Oui Bonne Passable à bonne Comprend diverses échelles qui mettent l'accent sur les dimensions intrapsychiques et qui sont utiles aux évaluations cliniques - vise les populations de schizophrènes.
QoL Self-Assessment Inventory Oui Passable à bonne Passable à bonne Nouvel instrument prometteur, perfectible. Utilisé auprès de patients schizophrènes et de populations mixtes de cas chroniques et graves.
Inventaire systémique de la qualité de vie Non Passable à bonne Passable à bonne Fiabilité accrue par l'utilisation d'aides visuelles. Son utilisation auprès de malades mentaux devrait être mieux validée. Démarche novatrice et agréable, fondée sur des interviews interactives.
Quality of Well-being Scale Non Bonne Bonne Indice de l'état de santé bien conçu aux fins de la gestion des soins (calcul de coûts et planification), ne s'applique pas spécifiquement à la santé mentale.
Satisfaction with Life Scale Oui Bonne Bonne Cinq échelles globales, administration rapide; celles-ci portent sur le volet de jugement dans l'évaluation de bien-être.
Schedule for the Evaluation on Individual QoL Non Bonne Bonne Rend très bien compte de la cohérence des réponses données par la même personne. Les facteurs liés au jugement influeront sur la validité des résultats.
Sickness Impact Profile Oui Bonne Bonne Couramment utilisé, deux aspects (psycho-social et physique) concernent les malades mentaux; utilisé auprès de sujets déprimés.
SmithKline Beecham QoL Scale Oui Bonne Bonne Évaluation (Ideal-Self, Sick-Self et Self-Now) de fonctionnement global sur les plans physique et social.

 

Chaque instrument répertorié dans le Tableau 4 a reçu une cote variant de passable à bon selon la fiabilité de ses échelles et de l'ensemble du questionnaire (soit la cohérence interne, la constance test-retest et la constance des formes parallèles) et en fonction de l'évaluation de sa validité (soit la validité apparente, la validité de contenu, la validité de construct et la validité convergente/prédictive). Nous sommes partis du principe que pour avoir droit à la cote « bon », les instruments (et les échelles) devaient avoir un coefficient de cohérence interne supérieur à 0,85, et un coefficient de confiance test-retest ou de confiance des formes parallèles de plus de 0,75. Les instruments jugés « passables à bons » avaient un coefficient de confiance moindre, l'indice de cohérence interne d'une échelle ou plus se situant entre 0,75 et 0,85, et/ou la fiabilité test-retest étant inférieure à 0,75. Les instruments considérés comme « passables » manquaient de cohérence interne et/ou de fiabilité test-retest.

Le tableau fait également état des évaluations de la validité faites à partir des informations fournies dans notre analyse. Pour qu'ils soient considérés comme bien validés, les instruments devaient comprendre des items dotés d'une bonne validité de contenu et d'une bonne validité apparente; être dotés d'une structure constante et cohérente (validité de construct) et la corrélation convergente entre les instruments en question et d'autres échelles cliniques et mesures de la qualité de vie devait être moyenne ou élevée (>0,60). Les instruments jugés « bons à passables » n'avaient pas fait leurs preuves dans un ou plusieurs des domaines évalués ou possédaient un coefficient de validité plus faible (0,50 à 0,60). Les instruments étaient jugés « passables » lorsque leur validité n'avait pas clairement été établie. Certains instruments recensés ici en étaient encore au stade de l'élaboration. Dans pareil cas, nous avons signalé la chose dans la colonne « observations ».

Bien que nous soyons tentés de dresser une liste des meilleurs instruments à utiliser dans les milieux psychiatriques, il nous est impossible de le faire. Les coordonnateurs de l'évaluation dans les milieux cliniques sont les mieux placés pour connaître les types de populations auxquels ils ont affaire; pour régler les problèmes de mesure et d'application propres à leur contexte; par exemple déterminer quels sont les aspects de la qualité de vie qui concernent leur clientèle; décider s'il convient d'utiliser des mesures spécifiques ou globales; concilier les exigences de rentabilité et de rigueur scientifique; choisir d'utiliser des instruments grand public ou d'en faire l'acquisition et déterminer à quelles fins doit servir l'évaluation (p. ex. des fins thérapeutiques, épidémiologiques ou administratives). Plusieurs instruments étaient couramment utilisés et validés auprès d'une population psychiatrique mixte, ce qui constitue un assez bon indice de leur valeur psychométrique. Au nombre de ces instruments figurent le Health Measurement Questionnaire, le Lethman's QoL Interview, le QoL Interview Schedule, le QoL Inventory et le QoL Questionnaire/Interview. D'autres instruments pourraient donner des résultats intéressants auprès de populations précises, entre autres le Questionnaire sur l'état de santé général, le MOS ou le SF-36, le QoL in Depression Scale, le QoL Enjoyment and Satisfaction Questionnaire, la Satisfaction with Life Scale, le Sickness Impact Profile et la SmithKline Beecham QoL Scale. Deux échelles récemment créées pourraient s'avérer particulièrement prometteuses, soit le QoL Index for Mental Health et le QoL Self-Assessment Inventory.

3.3 Méthodes d'application et d'évaluation

Divers problèmes complexes se posent à quiconque entreprend de mettre en œuvre un projet ou un programme d'évaluation. Pourtant, tous le cadres n'ont pas les moyens de recourir aux services d'un coordonnateur de l'évaluation, de sorte que la responsabilité de la collecte des données et de la gestion du projet peut incomber au personnel clinique. Le phénomène risque de se généraliser à mesure que seront lancées des initiatives de surveillance de la santé de la population. Peu importe la personne qui acceptera la responsabilité de gérer le projet, si l'on veut que les choses se déroulent harmonieusement, plusieurs points méritent d'être pris en considération.

Rigueur de l'évaluation : Tout plan de recherche expérimentale ou quasi expérimentale doit viser avant tout à déterminer le pourquoi de tout changement ou écart observé dans les mesures choisies. Cette rigueur est essentielle si les évaluateurs ou chercheurs veulent être assez sûrs de la signification de leurs observations. De nombreux facteurs peuvent compromettre la validité des constatations, et bien qu'il nous soit impossible de tous les passer en revue ici, nous montrerons, à l'aide de quelques exemples, pourquoi il est important d'utiliser des méthodes solides lorsqu'on applique et interprète les résultats d'évaluations.

On fait souvent appel à un plan d'évaluation prétest - post-test lorsqu'on veut vérifier si une variable mesurée a changé au cours d'une période donnée. Un tel changement n'est pas uniquement attribuable aux effets d'un traitement. Le choix du moment où l'on effectuera la première évaluation (prétest) et la deuxième évaluation (post-test) peut systématiquement fausser les résultats dans le sens de la détection de différences. Ainsi, si des patients sont évalués au moment où ils adhèrent à un programme et, une fois de plus, au bout de huit semaines de participation au programme, l'amélioration observée pourrait s'expliquer par une inévitable baisse d'intensité (des symptômes, de la détresse, etc.), puisque les malades sont généralement inscrits à un programme au moment où leur maladie en est au stade le plus aigu. Dans ces conditions, comment distinguer les effets des changements dus au temps qui seraient normalement survenus lors de l'évolution de la maladie du patient des effets du traitement? Une solution consisterait peut-être à faire appel à un groupe témoin de sujets dont la maladie en est au même stade d'évolution, mais qui ne se voient offrir aucun traitement. Pour plus de rigueur encore, on pourrait apparier les patients des groupes expérimental et témoin selon des caractéristiques qui pourraient affecter les résultats, ou les affecter au hasard soit au groupe expérimental soit au groupe témoin. Ce surplus de rigueur suppose que l'on double la taille de l'échantillon et que l'on apparie les sujets expérimentaux aux sujets témoins et soulève d'importants problèmes d'ordre moral (par exemple le fait de priver le groupe témoin d'un traitement qui pourrait lui être bénéfique). Compte tenu des dépenses, des efforts et des difficultés associés aux études rigoureuses, il se peut que l'on ne puisse appliquer couramment et systématiquement une telle démarche para-clinique.

Qualité des données et collaboration : Outre les erreurs imputables au manque de fiabilité et de validité des instruments, une foule de facteurs sociaux, économiques et politiques peuvent affecter la qualité des données. Il est important que la méthode d'évaluation soit valable aux yeux des principaux responsables de la gestion des projets d'évaluation. Les patients et les cliniciens peuvent considérer que les activités de collecte de données n'ont aucune utilité clinique, représentent un fardeau administratif excessif, voire qu'il s'agit d'un moyen de faciliter les restrictions et de réduire les ressources. De telles croyances nuiront à la qualité des données recueillies. Au mieux, la résistance passive risque de se traduire par des données incomplètes et recueillies négligemment. Il y a des risques d'erreur systématique dans la mesure où les répondants faussent les ensembles de données pour servir les intérêts de leur programme. De telles situations risquent davantage de se produire lorsqu'il y a des raisons apparemment justifiées de manipuler les résultats.

Les coordonnateurs de l'évaluation devraient appliquer un certain nombre de principes pour obtenir la collaboration optimale du personnel et veiller ainsi à la qualité des données. Ils doivent expliquer aux employés la raison d'être de la collecte de données avant que le projet ne soit mis en œuvre. Lors de ces premières rencontres, ils doivent être à l'écoute des besoins en information de leur personnel et de leurs collaborateurs et en tenir compte dans l'objectif de l'évaluation. Au moins une partie des données recueillies devrait présenter un intérêt direct sur le plan clinique, ce qui aiderait les cliniciens et les patients à se rendre compte de la pertinence de la collecte des données et à jouer un rôle actif dans le processus. Il y a lieu de faire part au personnel des intentions d'autres intervenants qui s'intéressent aux données pour d'autres raisons. Si le personnel n'est pas familiarisé avec le concept de l'évaluation formative et sommative, il s'agit de le lui expliquer (Guba et Lincoln, 1989). Enfin, les personnes qui s'occupent directement de la collecte de données doivent être au courant des indices possibles de problèmes de fiabilité ou de validité que pourraient poser les instruments ou les méthodes de collecte de données. Ces personnes devraient participer activement à la gestion continue du projet.

Afin de compléter l'analyse qui précède, de susciter une réflexion sur l'évaluation et de faciliter la planification de projets d'évaluation, le Tableau 5, qui repose sur l'étude de Patrick et Erickson (1993, pp 206-208), résume les principales étapes à suivre pour évaluer la pertinence des instruments et des méthodes de mesure de la qualité de vie liée à la santé.

Tableau 5 : Comment évaluer des mesures de la qualité de vie liée à la santé Définir la raison d'être de l'évaluation

  • Cet instrument est adapté aux principaux objectifs de l'évaluation.
  • Cet instrument permettra de vérifier les hypothèses concernant les déterminants de la qualité de vie liée à la santé.
  • Cet instrument permettra de déceler des changements dans les domaines de la qualité de vie qui intéressent tous les intervenants (p. ex. les patients et leur famille, ainsi que les praticiens et les planificateurs des services).
  • Cet instrument permettra de distinguer, de prévoir ou d'apprécier d'importants changements survenus dans les groupes observés.
  • Cet instrument permettra de comparer les effets des différentes interventions sur la qualité de vie.
  • Cet instrument permettra de dégager des tendances à partir d'études transversales ou d'études de cohorte répétées portant sur la qualité de vie.

Déterminer l'importance des ressources accessibles : (la somme de temps, d'argent et de ressources humaines dont on dispose pour l'évaluation)

  • Sélectionner une mesure qui existe déjà, touchant à des domaines en rapport avec les variables que l'on veut mesurer ou avec la population visée

- ou -

  • Déterminer les ressources et le temps voulus pour mettre au point un nouvel instrument.
  • Déterminer l'écart entre les ressources disponibles et les exigences administratives.
  • Il s'agit d'un questionnaire auquel les répondants peuvent répondre tout seuls par courrier ou en personne

- ou -

  • d'un instrument que doit administrer un intervieweur par téléphone ou en personne.

Demander:

  • Combien de temps doit-on consacrer à la formation des intervieweurs ou des préposés à la collecte des données?
  • Y a-t-il des instructions, des guides ou des manuels?
  • Quel est le temps requis en moyenne pour répondre au questionnaire?
  • L'instrument renferme-t-il des items sensibles et pertinents aux répondants?

Description de la population : (le degré d'incapacité, l'âge, les aptitudes intellectuelles et l'identité ethnique et culturelle de la population cible)

  • Tenir compte du degré d'incapacité de la population dans les domaines abordés dans l'instrument : assurer que l'instrument touche à des aspects de la qualité de vie en rapport avec l'état de santé ou l'état morbide de la population et avec les objectifs de l'évaluation (discrimination, prédiction, évaluation).
  • Apparier les capacités fonctionnelles et les domaines d'intérêt à l'âge de la population : assurer que les aspects de la qualité de vie dont traite l'instrument concernent davantage les nouveau-nés, les jeunes enfants, les adolescents, les adultes en âge de travailler ou les personnes âgées.
  • Apparier le fardeau du répondant et les aspects de la qualité de vie aux capacités intellectuelles de la population : décider s'il faudra demander à une autre personne de répondre en nom des sujets.
  • Déterminer si l'instrument tient compte de la réalité culturelle de la population cible; si l'instrument touche à des domaines d'intérêt et utilise une langue et des échelles qui conviennent aux groupes cibles.

Conceptualisation des résultats de l'évaluation : (l'objet et la longueur de l'instrument d'évaluation)

  • Déterminer quels sont les résultats de l'évaluation (prévus ou imprévus) qui devraient intéresser au premier chef les consommateurs/les patients, les familles, les cliniciens, les décideurs et l'ensemble de la société : l'instrument ou la batterie d'instruments touchent-ils aux domaines généraux et spécifiques (survie, incapacité, aptitudes fonctionnelles, perceptions) qui intéressent particulièrement la population étudiée?
  • Évaluer si l'instrument ou la batterie d'instruments touchent aux domaines essentiels qui permettent d'établir des distinctions entre les populations, de prédire l'évolution future ou d'évaluer les changements.

Évaluation des caractéristiques méthodologiques : (la fiabilité, la validité et la sensibilité des instruments envisagés)

  • Apparier le nombre d'items, le type d'instrument et le système de pondération à l'application et aux principaux objectifs de l'évaluation.
  • Évaluer la fiabilité connue/constatée de l'instrument en tenant compte de l'objectif de l'évaluation : la cohérence interne, la reproductibilité et/ou le coefficient d'objectivité des instruments envisagés. L'instrument permet-il de distinguer les différents niveaux de qualité de vie dans les populations cibles?

Évaluer la sensibilité :

  • L'instrument permet de détecter des différences minimes qui ressortent des évaluations répétées de la qualité de vie dans les populations cibles. L'instrument contient-il des items ou des questions qui mesurent directement le changement, p. ex. les questions qui révèlent une transition?

Évaluer la validité de construct :

  • Examiner la puissance de l'association entre l'instrument envisagé et d'autres instruments présumés analogues ou différents sur le plan structural.

Choix des mesures de la qualité de vie :

  • Évaluer comment on concilie les différents facteurs qui entrent en ligne de compte : contenu, population, considérations méthodologiques, soutien de l'enquêteur et ressources nécessaires.

Réalisation d'un prétest ou d'une étude pilote :

  • Déterminer le rendement que l'on peut espérer de l'instrument dans le cadre de l'étude.
  • Choisir entre le prétest ou l'étude pilote : l'instrument ou la batterie d'instruments ont-ils déjà été appliqués dans cette population et dans ce cadre? Est-il nécessaire d'obtenir des données concernant la validité ou la fiabilité de l'instrument dans ce type de contexte?

Préparation de la collecte et de l'analyse de données :

  • Identifier les ressources dont on a besoin pour préparer les données en vue d'une analyse, et décider comment on devrait procéder pour l'analyse des données.
  • Élaborer un plan de mise en œuvre : par exemple, les travaux de codage, de préparation et de renotation qu'impliquent la collecte des données et la préparation des fichiers en vue de l'analyse. Existe-t-il des logiciels concernant la notation?
  • Dresser un plan d'analyse des données : Penser aux tableaux, données descriptives et analyses dont on a besoin pour vérifier les hypothèses de travail.

Assurer la qualité des données recueillies : (poursuivre l'amélioration de la qualité des données à recueillir)

  • Uniformiser les méthodes de collecte, faisant appel à des intervieweurs chevronnés qui ont reçu tous les mêmes instructions et la même formation.
  • Surveiller la qualit é des données recueillies : Faire en sorte que les intervieweurs lisent textuellement les questions, utilisent les mêmes questions nécessitant approfondissement et fournissent des réponses uniformes. Évaluer la somme de données qui manquent dans les questionnaires remplis par des intervieweurs ou dans des questionnaires auto-administrés.

Préparation des résultats :

  • Déterminer la meilleure façon de procéder pour présenter les résultats au public-cible.
  • Choisir une m éthode pour la présentation des résultats et pour l'explication des résultats aux patients, aux cliniciens, aux décideurs, aux autres chercheurs ou à l'ensemble de la population.
  • Concevoir des tableaux, des figures et d'autres modes de pr ésentation : demander si les représentations graphiques et les tableaux sont conformes à la logique de l'enquête et s'ils sont brefs et en même temps informatifs.

Le lecteur désireux d'en savoir plus long sur les méthodes et sur les problèmes posés par l'évaluation des programmes de santé mentale aurait intérêt à consulter une étude préparée par Ron Goeree pour le compte de Santé Canada (1994b), intitulée « Évaluation des programmes de traitement de la schizophrénie : une perspective économique médicale ». Il s'agit d'un document très accessible qui traite des problèmes pratiques que pose l'évaluation des programmes de traitement destinés aux malades mentaux chroniques. Les sujets analysés sont divers : répercussions économiques, approches multidimensionnelles et quantitatives utilisées pour apprécier les résultats, qualité de vie liée à la santé, satisfaction des patients, utilisation des ressources et calcul des prix unitaires et recours à des groupes témoins. Une autre étude, également réalisée par Ron Goeree, à titre de suivi, et commandée par Santé Canada (1996a), « Évaluation des programmes de traitement de la schizophrénie : partie II - étude de cinq programmes au Canada », est également intéressante en ce qu'elle illustre, à l'aide d'exemples concrets, les principes défendus dans la publication antérieure. Les deux études complètent très bien le présent document.

Précédente | Prochaine | Table des matières