Analyse des données de PCR/qPCR
A Technical Guide to PCR Technologies
- Analyse qualitative des données de PCR/qPCR
- Analyse des données de qPCR
- Calcul de valeurs de Cq précises
- Positionnement du seuil
- Stratégies de quantification en qPCR
- Quantification par courbe étalon
- Quantification relative ou comparative
- Normalisation
- Sélection de gènes de référence
- Analyse de la stabilité des gènes de référence
- Autres techniques de normalisation
- Analyse statistique et visualisation des données
- Techniques de visualisation en analyse univariée
- Tests statistiques
- Regroupement hiérarchique
- Analyse en composantes principales
Analyse qualitative des données de PCR/qPCR
Après une PCR classique, les données sont analysées par séparation sur gel d'agarose, ou depuis peu, au moyen d'un système d'électrophorèse capillaire. Certaines applications nécessitent la réalisation d'une qPCR et l'analyse s'effectue alors sur les données finales, par exemple pour le génotypage de polymorphismes mononucléotidiques. Dans les deux cas, les données finales permettent de réaliser une analyse qualitative lorsque la PCR a atteint sa phase de plateau. Il est parfois possible d'analyser les données finales pour effectuer une analyse semi-quantitative du rendement de la PCR, mais les mesures quantitatives sont plus souvent obtenues par qPCR et analyse des valeurs de cycle de quantification (Cq)1.
Analyse des données de qPCR
Ce guide met en évidence les facteurs responsables des variations observées dans la mesure de l'acide nucléique en PCR ou en qPCR. Chacun de ces facteurs doit être optimisé pour que la quantité de gène (cible) détectée par le test soit la plus proche possible de la quantité réellement présente dans la réaction. Ces optimisations aboutissent à la création d'un ensemble de valeurs de Cq pour chaque cible présente dans chaque échantillon. Ce chapitre décrit la façon dont ces valeurs sont calculées et analysées pour fournir des données fiables représentatives de l'histoire biologique.
Calcul de valeurs de Cq précises
Correction de la ligne de base
Il s'agit ici de déterminer une valeur de Cq pour chaque cible dans chaque échantillon. Les logiciels d'analyse qui sont associés aux différents instruments utilisent des approches différentes pour déterminer le cycle de quantification (Cq) ; ils emploient aussi des dénominations différentes, comme Ct ("threshold cycle") ou Cp ("crossing point"). Ce guide n'entrera pas dans le détail de tous ces algorithmes. On notera toutefois que les mesures de qPCR basées sur les courbes d'amplification sont sensibles à la fluorescence de fond. Une telle fluorescence peut être due à de multiples facteurs : choix de la verrerie plastique, fluorescence résiduelle de sondes non éteintes, pénétration de lumière dans les puits, différences de détection optique sur un même puits d'une plaque de microtitrage, etc. Dans les tests bien conçus, le signal de fond est faible par rapport au signal amplifié. Ses fluctuations peuvent toutefois perturber la comparaison quantitative de différents échantillons. Il est donc important de corriger les fluctuations de la fluorescence de fond qui font varier la ligne de base (Figure 10.1).
Figure 10.1Composantes des courbes d'amplification. Ce graphique illustre l'augmentation de la fluorescence en fonction du nombre de cycles pour différents échantillons. Le seuil est positionné au-dessus de la limite de détection, mais bien en dessous de la phase de plateau au cours de laquelle le rythme d'amplification ralentit.
Une approche courante consiste à utiliser l'intensité de la fluorescence observée au cours des premiers cycles, par exemple entre les cycles 5 et 15, afin d'identifier une composante constante et linéaire de la fluorescence de fond. Cette dernière est ensuite définie comme le signal de fond ou la ligne de base de la courbe d'amplification. En raison d'effets transitoires, il est déconseillé d'utiliser les premiers cycles (par exemple, les cycles 1 à 5) pour définir la ligne de base, car ils contiennent souvent des artéfacts liés à la stabilisation de la réaction. Plus le nombre de cycles utilisés pour la correction de la ligne de base est important et plus la composante linéaire des fluctuations de la ligne de base pourra être précise. De nombreux logiciels permettent de paramétrer manuellement les cycles à prendre en compte pour définir la ligne de base. L'utilisateur devra explorer ces fonctions et résister à la tentation d'accepter les paramètres par défaut.
La Figure 10.1 illustre l'effet de la définition de la ligne de base. Comme on peut le constater, une définition précise de la ligne de base a une incidence sur les valeurs de Cq et la forme apparente de la courbe d'amplification. Dans cet exemple, la ligne de base de la courbe C3 a fait l'objet d'un mauvais ajustement manuel : elle a été calculée à partir des données des cycles 5 à 31. Elle passe ainsi en dessous du niveau zéro de la ligne de base (Figure 10.2A) et la valeur de Cq s'établit à 28,80. Pour corriger cette anomalie, il faut regarder les données brutes (R) et identifier le dernier cycle du signal de fond linéaire (dernier cycle avant l'amplification). La Figure 10.2B montre qu'il s'agit du cycle 22. Il faut ensuite définir correctement la ligne de base comme étant le niveau zéro entre les cycles 5 et 22 (Figure 10.2C), puis corriger la courbe d'amplification en conséquence (Figure 10.2D). La valeur de Cq ainsi rectifiée s'établit à 26,12. On remarque qu'il existe donc une différence significative entre les valeurs de Cq obtenues avec les bons et les mauvais paramètres de ligne de base, de sorte qu'une bonne définition de la ligne de base constitue une étape importante dans l'analyse des données.
Figure 10.2A–B. A)Exemple type de données passant sous le niveau zéro du signal de fluorescence normalisé en cas de mauvaise définition de la ligne de base (courbe d'amplification bleue). B) Données brutes des mêmes courbes d'amplification montrant la limite de la partie linéaire de la ligne de base et démontrant que les données ne sont pas en cause.
Figure 10.2C–D. C)Les limites de début et de fin de la ligne de base sont définies au niveau des paramètres prévus à cet effet dans le logiciel. D) L'application de la ligne de base corrigée permet d'obtenir des données de qualité.
Positionnement du seuil
Si certains chercheurs recommandent de cartographier chaque courbe d'amplification individuellement pour estimer l'efficacité d'amplification et la quantité de chaque cible dans les échantillons testés2,3,4, une approche originale, qui est également la plus courante pour calculer les valeurs de Cq, consiste à utiliser un seuil. La large adoption de cette méthode de quantification tient probablement à sa simplicité et à son efficacité.
Son principe est le suivant : pour être détectable, le signal de fluorescence associé à l'amplification par qPCR doit dépasser la limite de détection de l'instrument (et donc, la ligne de base ; voir Figure 10.1). Le nombre de cycles nécessaires pour que cela se produise est proportionnel au nombre de copies de la cible initialement présentes dans l'échantillon. Par conséquent, plus le nombre initial de copies est faible, plus il faut de cycles pour que le signal passe au-dessus de la ligne de base, et inversement, plus le nombre initial de copies est important, moins il faudra de cycles. Sachant que la ligne de base est fixée au niveau de la limite de détection du système, une mesure réalisée à la ligne de base serait très imprécise. Ainsi, au lieu de mesurer l'intensité de la plus petite fluorescence détectable par le système, la solution consiste à choisir une fluorescence plus élevée et à introduire un seuil artificiel.
Le choix de cette intensité seuil doit obéir à quelques principes fondamentaux. Il est important de positionner le seuil au niveau d'une intensité fixe pour une cible donnée ainsi que pour tous les échantillons à comparer. Si les échantillons sont trop nombreux pour tenir sur une seule plaque, on utilisera un système d'étalonnage inter-plaque, par exemple un témoin répété servant d'étalon inter-plaque ou une dilution en série permettant de créer une courbe d'étalonnage. En théorie, le seuil peut être positionné à n'importe quel endroit de la phase linéaire de la courbe d'amplification. Toutefois, dans la pratique, la phase linéaire de la courbe d'amplification peut être perturbée par une dérive de la ligne de base de la fluorescence de fond, par la phase de plateau ou par des différences d'efficacité entre les tests, et donc, par le gradient de la courbe d'amplification à partir d'un certain nombre de cycles. Il est recommandé de positionner le seuil comme suit :
- Suffisamment au-dessus de la ligne de base de la fluorescence de fond, pour éviter que la courbe d'amplification ne franchisse le seuil prématurément du fait de la fluorescence de fond.
- Dans la phase exponentielle de la courbe d'amplification, où il n'est pas affecté par la phase de plateau (une vue logarithmique des courbes d'amplification permet une meilleure visualisation ; voir Figure 10.3A).
- À un endroit où les phases exponentielles de toutes les courbes d'amplification sont parallèles.
La Figure 10.3 illustre la procédure de positionnement du seuil. Sur la Figure 10.3A, les courbes d'amplification sont représentées avec une échelle logarithmique sur l'axe des ordonnées, ce qui permet d'obtenir un grossissement de la phase exponentielle de la courbe d'amplification et de la visualiser comme une partie linéaire de la courbe d'amplification. Le seuil est positionné au niveau de la plus haute intensité de fluorescence (voir l'axe des ordonnées), à savoir dans la phase exponentielle où toutes les courbes d'amplification sont parallèles. On repasse ensuite en échelle linéaire (Figure 10.3B), où l'on voit le plus haut niveau qui satisfait aux exigences de définition du seuil. Une autre méthode consiste à positionner le seuil à l'extrémité inférieure de la phase exponentielle (Figures 10.3C et 10.3D). Tant que les phases exponentielles des courbes d'amplification sont parallèles, le positionnement du seuil n'a pas d'incidence sur la différence de Cq (ΔCq) entre les échantillons.
Figure 10.3Le positionnement du seuil influence le Cq absolu enregistré et peut avoir une incidence sur le ΔCq entre les échantillons. A) En présentant les données en échelles logarithmique/linéaire, on positionne le seuil au niveau de la plus haute intensité de fluorescence, où les courbes d'amplification ont des phases exponentielles parallèles. B) On conserve le seuil positionné en A) et on l'affiche en échelles linéaire/linéaire. C) En présentant les données en échelles logarithmique/linéaire, on positionne le seuil au niveau de la plus basse intensité de fluorescence, où les courbes d'amplification ont des phases exponentielles parallèles. D) On conserve le seuil positionné en C) et on l'affiche en échelles linéaire/linéaire. Les valeurs de ΔCq entre les échantillons sont les mêmes dans les deux cas.
La nécessité de positionner le seuil à un endroit où les phases linéaires des courbes d'amplification sont parallèles gagne en pertinence lorsque l'analyse inclut des données obtenues après un certain nombre de cycles. La procédure de positionnement du seuil décrite pour les données de la Figure 10.3 a été répétée sur un ensemble de données obtenu avec un Cq plus élevé et les résultats sont présentés sur la Figure 10.4 Les données de Cq indiquées dans le Tableau 10.1 servent à illustrer la variabilité du Cq, et surtout, les valeurs de ΔCq de trois courbes d'amplification avec trois seuils positionnés différemment (Figure 10.4). Les valeurs de ΔCq, et donc, l'estimation de la quantité relative de cible présente dans chaque échantillon dépendent fortement de la position du seuil (Figure 10.4), car les courbes d'amplification ne sont pas parallèles.
Figure 10.4.On répète l'analyse réalisée et illustrée sur la Figure 10.3 avec un ensemble de données différent. Ici, les courbes d'amplification ne sont pas parallèles en raison d'une différence d'efficacité de la réaction lorsque le Cq est élevé. Les seuils positionnés bas (graphiques A et B) donnent des valeurs de ΔCq différentes de celles obtenues lorsque les seuils sont positionnés haut (graphiques C et D) (données du Tableau 10.1).
Stratégies de quantification en qPCR
Il est impératif de définir la ligne de base et le seuil avec précision pour une quantification fiable. Une fois ces paramètres définis, on crée une valeur de Cq qui sert de base à la quantification. On détermine ensuite la quantité de cible présente dans un échantillon donné au moyen d'une courbe étalon ou par quantification relative ou comparative.
Quantification par courbe étalon
Comme son nom l'indique, cette méthode de quantification fait appel à une courbe étalon pour déterminer la quantité de cible présente dans les échantillons testés. Toutes les quantités déterminées pour les différents échantillons sont donc relatives à la quantité attribuée à la courbe étalon. Cela nécessite l'utilisation d'étalons externes supplémentaires sur chaque série de réactions des échantillons. Le choix de la matrice de la courbe étalon se révèle important pour éliminer les éventuelles différences de quantification dues à des différences d'efficacité entre les tests, dans les échantillons et dans les étalons. Les sites de liaison des amorces des étalons externes doivent être les mêmes que ceux de la cible ; ils doivent contenir les mêmes séquences que la cible, avoir une complexité équivalente et leur manipulation doit être la plus similaire possible. De ce fait, lors de la mesure de la concentration d'une cible dans de l'ADNc, il est préférable de mesurer le même ADNc dans une dilution en série d'un échantillon témoin. Toutefois, dans certaines études, cela s'avère impossible pour des raisons pratiques ; il est donc important de reproduire le plus fidèlement possible les conditions de l'échantillon, par exemple en ajoutant de l'ADNg d'une espèce non apparentée à l'espèce testée dans un oligonucléotide artificiel témoin ou un plasmide linéarisé contenant la séquence témoin. Dès qu'une construction ou un amplicon approprié est identifié, on trace une courbe étalon à partir de dilutions en série. On détermine le Cq de la cible pour chacun des étalons et on représente ces valeurs graphiquement en fonction de la concentration ou de la concentration relative/facteur de dilution en échelle logarithmique. On obtient une courbe étalon qui peut ensuite servir à déterminer la concentration des échantillons à tester, par comparaison des valeurs de Cq issues de l'amplification des échantillons inconnus. Lors d'une quantification par courbe étalon, la position du seuil doit rester constante pour la détermination des Cq de l'étalon et des échantillons d'une même plaque. Le seuil peut varier d'une plaque à l'autre.
Quantification relative ou comparative
La quantification relative ou comparative utilise la différence de Cq comme déterminant des différences de concentration de la séquence cible dans différents échantillons. Contrairement à la quantification par courbe étalon qui mesure la quantité de cible présente dans chaque échantillon, cette méthode permet d'obtenir des ensembles de données qui présentent des variations relatives entre les échantillons.
Dans la version initiale de cette méthode5, on partait du principe que tous les tests avaient une efficacité de 100 %, ce qui permettait de supposer qu'une différence de Cq de 1 (ΔCq = 1) résultait d'une variation de 200 % de la quantité de cible. Pour déterminer une variation relative de la cible ou du gène d'intérêt (GOI pour "gene of interest"), les données doivent également se rapporter à un témoin de charge (gène de référence, REF ; voir plus loin pour une description de la normalisation des données).
Figure 10.5.Construction d'une courbe étalon. Le Cq enregistré pour chaque échantillon d'une série de dilutions est représenté en échelle logarithmique/linéaire en fonction de la concentration relative.
Dans l'Équation 1, la mesure du rapport du gène d'intérêt, après correction par rapport au gène de référence, dans 2 échantillons (A vs B) est égale à : 2 (en supposant que les réactions sont efficaces à 100 %) élevé à la puissance des différences des valeurs de Cq pour le gène d'intérêt, divisé par 2 élevé à la puissance des différences des valeurs de Cq pour le gène de référence.
Équation 1.Modèle de quantification relative initial (Livak).
Néanmoins, comme le montre la page Optimisation et validation des tests, l'efficacité des réactions varie considérablement, ce qui peut avoir des répercussions importantes sur les données. On a donc retravaillé les hypothèses de l'Équation 1 (Équation 2)6 pour que les analyses puissent tenir compte des différences d'efficacité entre les réactions. Ici, le facteur d'amplification 2 est remplacé par l'efficacité réelle de la PCR (déterminée par une analyse par courbe étalon ; voir Optimisation et validation des tests).
Équation 2.Modèle de quantification relative adapté pour l'efficacité (Pfaffl)
Le Tableau 10.2 présente une série de valeurs de Cq qui illustrent l'utilisation du modèle de quantification relative adapté pour l'efficacité (Équation 2). L'efficacité est de 1,8 pour le gène d'intérêt et de 1,94 pour le gène de référence.
Il s'agit d'un exemple très simple d'une étude où il faut mesurer la variation relative d'un gène entre deux échantillons, après normalisation par rapport à un seul gène de référence. Le ratio montre la variation relative du gène d'intérêt dans l'échantillon 2 comparativement à l'échantillon 1, après correction par rapport au gène de référence. Or, il est souvent impossible de choisir un seul gène de référence approprié, c'est pourquoi des techniques de normalisation plus élaborées ont été proposées.
Normalisation
Le principal objectif de la plupart des expériences de PCR est de savoir si la cible est présente dans l'échantillon (inconnu, UNK). La réponse la plus simple consiste à effectuer une migration sur gel et à examiner les fragments pour déterminer la présence ou l'absence du gène d'intérêt. Lorsque le fragment est présent, la confirmation de sa taille corrobore un résultat positif. Mais lorsqu'il est absent, il existe un risque de faux négatif. Il est donc très important de répéter le test et de réaliser au moins une PCR supplémentaire pour disposer d'un témoin de charge et d'un témoin positif. Le test à témoin d'inhibition universel, également appelé test SPUD (voir Purification des échantillons et évaluation de la qualité), peut être utilisé pour corroborer un résultat négatif. Une autre méthode consiste à réaliser un test qui est spécifique d'un ou plusieurs gènes de référence. Les tests de PCR permettant de détecter les gènes de référence codant la GAPDH, l'ARN ribosomique 18S ou la β-actine étaient habituellement réalisés en même temps que ceux destinés à détecter le gène d'intérêt, et les fragments résultants étaient visualisés sur un gel. Étant donné que les gènes de la GAPDH, de l'ARN ribosomique 18S et de la β-actine sont exprimés de manière constitutive, ils étaient utilisés comme témoins de charge dans des analyses semi-quantitatives. Cependant, on s'est rapidement rendu compte que ces gènes ne sont pas exprimés de manière ubiquitaire à la même concentration dans toutes les cellules, et ce, quel que soit le protocole expérimental. Il a donc fallu trouver une référence stable pour mesurer la concentration relative des acides nucléiques, en général de l'ADNc mais aussi de l'ADNg, par exemple pour l'analyse de la variation du nombre de copies d'un gène.
La normalisation consiste à corriger des mesures techniques par rapport à une référence stable afin d'examiner leur véritable variation biologique. Il existe une multitude de méthodes de normalisation des écarts techniques, ce qui implique qu'il faut choisir et valider la méthode adaptée à chaque expérience7. Il est très important de savoir que le choix de la mauvaise technique de normalisation peut causer plus de tort au processus analytique global que l'absence de normalisation8.
Effet de la qualité de l'échantillon sur la normalisation du test
L'effet de l'intégrité et de la pureté de l'échantillon sur la mesure de la quantité de cible par qPCR et RT-qPCR a été étudié en détail (voir Purification des échantillons et évaluation de la qualité, Contrôle de la qualité des échantillons et Transcription inverse). Il a été démontré que la présence d'inhibiteurs dans l'échantillon et la dégradation de l'ARN ont des effets différents sur la mesure d'une cible donnée9. Les inhibiteurs affectent la mesure de toutes les cibles, mais à des degrés différents en fonction du protocole expérimental utilisé. La dégradation de l'ARN total affecte quant à elle la mesure des ARNm et des micro-ARN10, ces effets étant là aussi largement fonction du protocole expérimental global. Il est donc très important de tenir compte de l'effet de la concentration de la matrice sur la réaction de transcription inverse, et de l'effet de la qualité de l'échantillon sur les données après normalisation. La normalisation ne permettra jamais de compenser l'effet d'un test ou d'un échantillon de mauvaise qualité (voir Optimisation et validation des tests).
Techniques de normalisation
En principe, les techniques de normalisation compensent la variabilité qui peut être introduite lors des multiples étapes d'une analyse de qPCR (Figure 10.6). Toutefois, une normalisation effectuée à n'importe quel stade du processus ne réduira pas nécessairement les erreurs techniques ou les biais introduits antérieurement ou postérieurement. Étant donné que les différentes techniques de normalisation ne sont pas incompatibles entre elles, il est conseillé d'en combiner plusieurs11.
Figure 10.6.La qPCR est un processus en plusieurs étapes qui doivent toutes être maîtrisées. La normalisation doit être envisagée dans le cadre d'une série de mesures de réduction des erreurs.
La normalisation a pour but de donner un point de repère stable auquel les mesures peuvent se rapporter ; le facteur de normalisation choisi doit donc être une mesure qui reste stable pendant toute la durée de l'expérience. Il peut s'agir d'un ou plusieurs gènes de référence stables ou d'une autre mesure stable, comme le nombre de cellules, la masse tissulaire, la concentration en ARN/ADN, un normalisateur externe12, ou d'une mesure représentative de l'expression génique globale.
Sélection de gènes de référence
Les gènes de référence sont des cibles dont la quantité ne varie pas au cours de l'expérience. Lors de la quantification de la variation du nombre de copies de l'ADN, où le nombre de copies de la séquence d'intérêt peut varier, la mesure est simplement normalisée en ciblant une autre région génomique connue pour être stable. Un exemple pratique est la mesure de l'amplification génomique du récepteur 2 du facteur de croissance épidermique humain (HER-2)13. L'instabilité génomique du gène HER-2 est un indicateur de pronostic du cancer du sein et il est important de mesurer précisément son statut d'amplification dans le cadre de la prise en charge des patientes. Le statut du gène HER-2 peut être mesuré par qPCR en comparant son nombre de copies à celui d'une autre cible génomique servant de témoin.
Pour la mesure de l'expression génique, les gènes de référence sont des cibles dont la concentration en ARNm ne varie pas au cours de l'expérience. Un exemple peut être la mesure de l'effet de l'ajout d'un composé mitogène à une monocouche de cellules, sur l'expression d'un gène X. La mesure de la variation de l'expression du gène X nécessite un point de repère, d'où la nécessité de mesurer également l'expression d'un ou plusieurs autres gènes connus pour ne pas être influencés par l'agent mitogène employé. Avant de pouvoir étudier le gène d'intérêt, la première difficulté à laquelle le chercheur est confronté est donc de trouver un ARNm cible qui n'est pas influencé par le protocole expérimental. Cette étape de validation des gènes de référence s'avère essentielle pour une mesure précise du gène d'intérêt. La technique de normalisation la plus utilisée consiste à ignorer cette étape et à normaliser les données de l'expression génique par rapport à un seul gène de référence non validé. Cette pratique est déconseillée et va directement à l'encontre des recommandations MIQE ("Minimum Information for publication of Quantitative real-time PCR Experiments")1. La quantification de l'ARNm par RT-qPCR est régulièrement compromise par le choix de mauvais gènes de référence. Il n'est pas acceptable de se livrer à des pratiques relativement répandues consistant à choisir un gène de référence parce que les amorces correspondantes sont disponibles au congélateur, parce que l'on a toujours utilisé ce gène en northern blot, ou parce qu'un collègue ou un autre laboratoire l'utilise pour une autre expérience. Les gènes de référence doivent être validés dans chaque scénario expérimental ; cela permet de s'assurer que leur expression n'est pas affectée par l'expérience. En l'absence d'une telle validation et si l'expérience influence le gène de référence, les résultats pourraient être faussés et les interprétations ultérieures risquent d'aboutir à des données aberrantes8.
Il existe toute une série de publications scientifiques sur les différentes techniques de normalisation7-14 ainsi qu'une infinité d'articles détaillant les protocoles à mettre en place pour identifier les gènes normalisateurs les plus adaptés à un scénario expérimental donné. Alors que la question était jusqu'à présent de savoir s'il fallait sélectionner un seul ou plusieurs gènes de référence, les bonnes pratiques s'orientent désormais, du fait de la baisse des coûts de fonctionnement, vers la mesure de plusieurs gènes de référence.
La sélection de gènes de référence stables nécessite l'évaluation de la stabilité de la qPCR pour un certain nombre d'ARNm cibles candidats (généralement 10 à 20 gènes)7 sur un sous-ensemble d'échantillons représentant les ARNm d'essai et témoins. L'annexe A (protocoles) du présent guide décrit l'intégralité d'un protocole qui peut être couplé à diverses méthodes analytiques grâce à des programmes comme REST15, GeNorm14, Bestkeeper16 ou NormFinder17. La marche à suivre est détaillée dans la partie suivante.
Analyse de la stabilité des gènes de référence
Le gène de référence est la clé de voûte des tests de quantification relative par qPCR. Il est donc crucial, pour la fiabilité de l'ensemble du test, que le gène de référence soit stable. Si son expression varie d'un échantillon à l'autre, la variation se répercutera directement sur les résultats de la quantification et la variabilité introduite pourra masquer l'effet biologique observable recherché, ou pire encore, induire l'apparition totalement artificielle d'un effet biologique non lié au véritable gène d'intérêt. C'est la raison pour laquelle il est fortement recommandé de prendre un certain nombre de précautions pour faire en sorte que la variabilité des gènes de référence soit négligeable et que les mesures des effets biologiques soient les plus significatives possible.
La précaution la plus importante consiste sans aucun doute à utiliser non pas un, mais au moins deux gènes de référence. L'expression de plusieurs gènes de référence peut être moyennée pour limiter la variabilité technique due à la normalisation. Cela peut présenter une utilité pour améliorer la signification des mesures des petits effets biologiques. Mais plus important encore, deux gènes de référence ou plus se régulent mutuellement pour assurer le maintien de la stabilité et éviter la survenue d'événements inattendus susceptibles d'influencer le niveau d'expression de l'un des gènes de référence. Avec un seul gène de référence, des variations inattendues de l'expression génique risquent de ne pas être détectées lors du test.
Une deuxième précaution consiste à associer plusieurs méthodes pour l'identification de gènes de référence stables. L'exemple suivant dévoile plusieurs facettes de la normalisation par rapport à des gènes de référence, notamment l'avantage de pouvoir utiliser les techniques geNorm et NormFinder sur un même ensemble de données.
Le Tableau 10.3 fournit une liste de gènes de référence candidats qui ont été évalués à l'occasion d'un atelier que nous avons organisé avec le Laboratoire européen de biologie moléculaire (EMBL). Des échantillons ont été prélevés sur une culture de cellules humaines divisée en deux groupes de traitement différents. Cet ensemble de données permettra de montrer certaines facettes de la validation de gènes de référence.
Les algorithmes NormFinder et geNorm ont été mis au point en partant du principe que tester une multitude de gènes de référence candidats permet de les classer par ordre de stabilité. Ce principe peut se vérifier, par exemple, si tous les gènes de référence candidats varient stochastiquement autour de niveaux d'expression stables. Cependant, dans les faits, il ne se vérifie pas toujours. Pour éviter d'obtenir des résultats trompeurs, il est donc prudent d'éviter les gènes de référence candidats qui sont régulés, et à fortiori, corégulés.
La liste de gènes de référence candidats figurant dans le Tableau 10.3 a été spécifiquement établie pour inclure des gènes appartenant à différentes classes fonctionnelles, limitant ainsi le risque de corégulation. Une exception notable est le gène GAPDH, présent ici en deux versions. Bien que cela n'ait aucune incidence sur cette analyse, la bonne pratique veut que l'on évite les entrées multiples de gènes suspectés d'être corégulés.
Le premier algorithme présenté est geNorm. Il évalue la stabilité des gènes en calculant une mesure appelée valeur M, qui repose sur des comparaisons par paires entre le gène de référence candidat analysé et tous les autres gènes de référence candidats présents dans l'ensemble de données. Il s'agit d'un processus itératif, ce qui signifie que dans cet exemple, le calcul est d'abord réalisé sur les 15 gènes de référence candidats, le gène le moins stable est éliminé, puis le calcul est répété sur les 14 gènes candidats restants, le deuxième gène le moins stable est éliminé, et ainsi de suite jusqu'à ce qu'il ne reste plus que deux gènes de référence.
L'identification du gène de référence le plus stable relève parfois du tour de force. C'est par exemple le cas lorsque l'intégralité des gènes de référence candidats se révèlent peu performants. Cela peut aussi être le cas lorsque l'intégralité des gènes de référence candidats présentent de bonnes performances. Pour bien distinguer ces deux situations, on retiendra que les gènes de référence dont la valeur M est inférieure à 0,5 peuvent être considérés comme étant exprimés de façon stable.
Le deuxième algorithme présenté est NormFinder, qui est un logiciel d'analyse de gènes de référence téléchargeable gratuitement (voir Annexe B, Autres ressources). Son algorithme évalue la stabilité des gènes de référence par une méthode d'analyse de variance (ANOVA), en ce sens qu'il analyse les variations de l'ensemble complet ainsi que celles des sous-groupes. L'un des avantages de cet algorithme est que les mesures obtenues sont directement liées au niveau d'expression des gènes. Un écart-type de 0,20 en unités Cq représente donc une variation d'environ 15 % du niveau d'expression du nombre de copies du gène de référence candidat.
Pour des raisons pratiques, nous avons accédé à ces deux logiciels d'analyse depuis le logiciel d'analyse de données GenEx (MultiD), mais ces logiciels sont également disponibles en version autonome (voir Annexe B, Autres ressources).
Les histogrammes de la Figure 10.7 montrent les gènes de référence classés par ordre de stabilité selon les valeurs mesurées de ces deux algorithmes. En outre, NormFinder propose un graphique de l'écart-type cumulé qui montre qu'une combinaison de jusqu'à trois des meilleurs gènes de référence peut offrir une plus grande stabilité.
Figure 10.7.Histogrammes des mesures de stabilité : valeur M sur geNorm et écart-type sur NormFinder. En outre, NormFinder propose un graphique de l'écart-type cumulé qui montre qu'une combinaison de jusqu'à trois des meilleurs gènes de référence peut offrir une plus grande stabilité. L'ensemble de données a été constitué à partir de tests conçus pour les gènes de référence candidats indiqués dans le Tableau 10.3 et mesurés sur une culture de cellules humaines divisée en deux groupes de traitement différents. On remarque une absence de consensus, entre les algorithmes geNorm et NormFinder, quant aux gènes de référence les plus stables.
Figure 10.8.Profil d'expression centré sur la moyenne des gènes de référence candidats des deux échantillons de chaque groupe de traitement. Les échantillons 1 et 2 appartiennent au premier groupe de traitement et les échantillons 3 et 4 au second groupe. Le profil d'expression des gènes SDHA et CANX apparaît en rouge. Le profil d'expression du gène UBC apparaît en jaune. Le tableau reprend les mesures de Cq de l'ensemble de données.
Compte tenu de la divergence des profils d'expression, il est possible que les gènes SDHA et CANX soient régulés par les deux traitements différents et qu'ils ne soient donc pas adaptés comme gènes de référence. Lorsque l'on réitère l'analyse après avoir retiré ces gènes de l'ensemble de données, les deux algorithmes parviennent à un consensus et les meilleurs gènes de référence sont EIF4A2 et ATP53 (Figure 10.9). Le calcul des écarts-types cumulés réalisé par NormFinder montre aussi clairement que l'ajout de gènes de référence supplémentaires n'améliore pas la stabilité.
Figure 10.9.L'analyse des profils d'expression et des mesures de Cq (Figure 10.8) a fait craindre que les gènes SDHA et CANX soient corégulés dans ce test, risquant de perturber le calcul de la stabilité des gènes de référence par les algorithmes. Histogrammes des mesures de stabilité : A) valeurs M sur geNorm ; B) écarts-types sur NormFinder. L'ensemble de données est identique à celui utilisé sur la Figure 10.8, mis à part que les données des gènes SDHA et CANX ont été supprimées. On remarque qu'avec cet ensemble de données resserré, les algorithmes geNorm et NormFinder sont d'accord sur les gènes de référence les plus stables.
L'analyse de données présentée ici montre que l'utilisation concomitante des algorithmes geNorm et NormFinder permet d'identifier des gènes de référence candidats corégulés et que le retrait de ces gènes des analyses ultérieures améliore la fiabilité de l'identification finale des gènes de référence à utiliser, par rapport à l'utilisation d'un seul algorithme. L'identification et la sélection de gènes de référence stables permettent de mieux sécuriser l'analyse des données.
Autres techniques de normalisation
Bien que la normalisation par rapport à des gènes de référence soit la méthode la plus courante pour la normalisation des tests, elle ne convient pas à toutes les situations, par exemple lorsqu'il faut comparer un grand nombre de gènes dans un groupe d'échantillons hétérogène ou lors du profilage de micro-ARN. Ces scénarios demandent une autre stratégie.
Normalisation par rapport à la masse tissulaire ou au nombre de cellules
Mesurer le nombre de cellules ou la masse tissulaire pour s'en servir de facteur de normalisation n'est pas aussi simple qu'il y paraît. Les expériences de culture cellulaire sont relativement faciles à normaliser sur la base du nombre de cellules. Toutefois, l'ajout d'un traitement peut potentiellement modifier la morphologie des cellules, compliquant le calcul du rapport entre le nombre de cellules et l'ARN total ou les gènes exprimés, par rapport à une culture témoin. Le traitement expérimental peut provoquer la production de matrice extracellulaire, et donc, des différences au niveau du rendement d'extraction des acides nucléiques.
Les tissus biologiques peuvent présenter une forte hétérogénéité, aussi bien chez un même individu que d'un individu à l'autre, et les différences se creusent entre tissus sains et malades. Même des tissus en apparence moins complexes, comme le sang, peuvent présenter d'énormes disparités en termes de composition ou de nombre de cellules, si bien que l'expression génique varie considérablement entre des donneurs apparemment sains18.
Tout retard pris dans les étapes de purification de l'acide nucléique se répercutera sur la mesure de l'ARN. Ainsi, l'expression génique varie énormément selon le retard pris dans le traitement des cellules mononucléées du sang périphérique et l'extraction de l'ARN des cellules19. Les techniques mises en jeu dans les protocoles d'extraction sont également une source de variation technique importante. Même le procédé d'isolement choisi pour l'échantillonnage des cellules dérivées du sang et la purification de l'ARN fait varier les profils d'expression génique apparents20 Par conséquent, le premier élément à prendre en compte pour la normalisation des données est la stricte équivalence des procédés de collecte et de traitement pour tous les échantillons. Il est ensuite crucial d'effectuer des contrôles qualité adéquats pour vérifier la concentration, l'intégrité et la pureté des échantillons (voir Purification des échantillons et évaluation de la qualité ainsi que les protocoles associés décrits à l'annexe A).
Normalisation par rapport à la concentration en ARN
À minima, il est important d'estimer la concentration de la matrice (ADN en qPCR, ARN en RT-qPCR) ; de plus, comme expliqué sur la page Purification des échantillons et évaluation de la qualité, il est essentiel d'utiliser le même instrument pour toutes les mesures puisque la détermination de la concentration en acide nucléique est également variable et technique-dépendante.
Lors de la mesure de la concentration en ARN total, la grande majorité de l'échantillon est composée d'ARN ribosomique (ARNr) ; seule une petite fraction est constituée de l'ARNm d'intérêt lors de l'analyse de l'expression génique, ou du petit ARN non codant lors de l'analyse de la régulation de l'expression génique. En d'autres termes, si la concentration en ARNr augmente légèrement mais que l'ARNm reste stable, la concentration en ARN total augmentera. La concentration en ARNm doit augmenter significativement pour induire une augmentation apparente de la concentration en ARN total. Par conséquent, la concentration en ARNr n'est pas une mesure fiable de la concentration en ARNm, mais de nombreux protocoles doivent avoir une concentration en ARN identique pour assurer une transcription inverse précise (voir Transcription inverse).
Normalisation par rapport à l'expression génique globale
Lorsqu'il s'agit de mesurer un grand nombre de cibles, l'analyste peut estimer la moyenne globale de l'expression génique totale et identifier les séquences d'ARN régulées qui s'écartent de cette moyenne. Cette méthode est généralement utilisée pour la normalisation de puces d'expression génique. Alternative intéressante à l'utilisation de gènes de référence, elle peut être privilégiée pour la mesure d'un grand nombre de cibles.
Une autre méthode récente est la mesure des éléments répétitifs exprimés de manière endogène (ERE pour "Endogenously expressed Repeat Elements") qui sont présents dans de nombreux ARNm. Bon nombre d'espèces contiennent ces éléments répétés (ALU chez les primates, éléments B chez la souris), qui peuvent fournir une estimation de la fraction d'ARNm. La mesure de ces séquences cibles s'avère aussi performante que les systèmes de normalisation classiques9 (Le Bert et al., sous presse) et elle peut constituer une solution universelle ou une autre méthode de normalisation pour les expériences complexes ne disposant d'aucune combinaison de gènes de référence stables.
Normalisation de données de micro-ARN
Aucun gène de référence universel n'a encore été décrit pour les micro-ARN. Le choix du système de normalisation reste donc assez empirique. Il est parfois possible d'identifier des micro-ARN invariants stables par des approches pangénomiques, c'est-à-dire à l'aide de puces à ADN. Dans certaines expériences, de petits ARN nucléolaires (snoRNA pour "small nucleolar RNA") ont également été utilisés comme gènes de référence. La méthode de l'expression génique globale se révèle également utile pour la normalisation de l'expression des micro-ARN, en l'absence de référence stable connue et après analyse de plusieurs centaines de cibles21,22,23. Elle convient mieux aux techniques qui aboutissent à la capture de tous les micro-ARN sous forme d'ADNc dans un format multiplexé, par exemple les systèmes Exiqon et miQPCR (voir Castoldi et al. dans PCR Technologies: Current Innovations24).
Répétitions biologiques et techniques
La normalisation a pour but d'éviter les erreurs systématiques et de réduire la variabilité des données pour l'analyse statistique finale. Un autre aspect important de la préparation des données pour l'analyse statistique est l'utilisation de répétitions des données.
Des répétitions biologiques s'avèrent indispensables pour cette analyse. Les seuils de signification statistique sont souvent fixés à 5 %. Pour les effets biologiques proches de ce seuil, un minimum de 20 répétitions biologiques peut être nécessaire pour déterminer le seuil de signification des tests (1:20 correspondant à 5 %). En fait, selon certains chercheurs, il faudrait enregistrer au moins 50 fois le nombre d'observations pour obtenir une estimation précise de la signification25, ce qui équivaut à un millier d'échantillons biologiques. Il va de soi que pour des raisons pratiques, il est rarement possible d'avoir un tel niveau de répétitions biologiques. De surcroît, l'estimation précise du nombre de répétitions biologiques permettant d'atteindre un seuil de signification donné dépend également du degré de variabilité des données. Il faut cependant prendre conscience que le nombre de répétitions biologiques nécessaire à l'obtention de conclusions fiables est souvent sous-estimé. Il est conseillé d'effectuer une première étude pilote pour évaluer la variabilité naturelle du test et l'ampleur potentielle de l'effet biologique observable afin de disposer d'une bonne base pour estimer le nombre de répétitions biologiques26 nécessaire.
Les répétitions techniques ne sont pas directement utilisées pour l'analyse statistique. Elles servent plutôt à constituer des "copies de secours" des échantillons (au cas où certains d'entre eux seraient perdus ou détruits lors du traitement technique) ou à améliorer l'évaluation de la précision des données. Les répétitions techniques permettent d'améliorer la précision des données à condition qu'elles varient stochastiquement autour de la valeur exacte à chaque étape du traitement technique. La moyenne des répétitions techniques est plus proche de la valeur exacte. Pour comprendre l'effet du calcul de la moyenne des répétitions techniques, il suffit d'observer la largeur de l'intervalle de confiance sur un ensemble de données simulé de variabilité prédéterminée, à savoir un écart-type de 1. Comme le montre le Tableau 10.4, plus le nombre de répétitions techniques (échantillons) augmente et plus l'intervalle de confiance se réduit, traduisant une estimation précise de la valeur exacte. De plus, le rétrécissement de l'intervalle de confiance est plus flagrant lorsque le nombre de répétitions techniques est faible. En effet, augmenter le nombre de répétitions de 2 à 3 réduit l'intervalle de confiance de 8,99 à 2,48, ce qui équivaut à une estimation trois fois plus précise de la valeur exacte. Si l'ajout de répétitions continue d'améliorer la précision de l'estimation de la mesure, cet effet a tendance à s'amoindrir. Ainsi, lorsque la question de la variabilité du traitement technique se pose, il peut être très avantageux d'utiliser trois répétitions plutôt que deux.
Les répétitions techniques peuvent être prélevées à différents stades du processus de traitement des échantillons (extraction de l'ARN, transcription inverse, détection par qPCR…). La détection de répétitions techniques à différents stades du processus crée un protocole expérimental "emboîté". Une étude pilote basée sur un tel protocole peut servir à identifier les étapes du traitement des échantillons qui occasionnent le plus d'erreurs techniques, permettant de calculer un programme d'échantillonnage optimal27.
Analyse statistique et visualisation des données
L'analyse scientifique des données biologiques s'articule autour de la formulation et de la vérification d'hypothèses. La formulation d'une hypothèse nécessite une compréhension détaillée des conditions et des variables du test. La vérification d'une hypothèse suppose quant à elle une exécution rigoureuse du test et un protocole expérimental approprié afin de maximiser le signal observable recherché tout en minimisant la variabilité technique. À cet effet, il convient de distinguer les études exploratoires des études de confirmation (Figure 10.10).
Figure 10.10.Organigramme illustrant les différentes opérations des analyses statistiques d'exploration et de confirmation. La partie gauche de la figure, avant la flèche en pointillés, montre les opérations d'une étude statistique exploratoire. La partie droite de la figure, après la flèche en pointillés, montre les opérations d'une étude statistique de confirmation.
Une étude exploratoire a pour but d'analyser des données par une ou plusieurs techniques différentes afin d'étayer une hypothèse. L'ensemble de données peut être redéfini et/ou différentes techniques d'analyse peuvent être utilisées à plusieurs reprises afin de confirmer une ou plusieurs hypothèses. L'étude exploratoire est donc très souple, s'adaptant aux spécificités de toutes les questions scientifiques. Toutefois, répéter des tests d'hypothèses sur un même ensemble de données peut poser des problèmes et compromettre les conclusions statistiques. Cela est dû à la multiplicité des tests, à savoir au fait qu'un test statistique entre plusieurs hypothèses indépendantes a plus de chances de donner une signification positive, et que les chances augmentent à mesure que l'on teste de nouvelles hypothèses, même si les distributions de probabilités sous-jacentes sont identiques. Pour éviter les résultats statistiques trompeurs, l'étude exploratoire est donc souvent couplée à une étude de confirmation.
Cette dernière s'appuie sur des critères statistiques beaucoup plus stricts. Tout d'abord, l'hypothèse étudiée, incluant les critères de signification, doit être définie avant la collecte et l'analyse des données. Ensuite, l'ensemble de données à analyser doit avoir été exclusivement collecté aux fins de l'étude en question. Il est statistiquement incorrect de réutiliser l'ensemble de données de l'étude exploratoire dans l'étude de confirmation puisqu'il favoriserait intrinsèquement l'hypothèse proposée. Le résultat final de l'étude de confirmation est le rejet ou l'acceptation de l'hypothèse selon les critères préétablis.
Tests statistiques
Les tests statistiques consistent à analyser la probabilité qu'un phénomène observé se produise par hasard. C'est ce que l'on appelle l'hypothèse nulle28 Si le phénomène observé est rare selon l'hypothèse nulle, alors il est peu probable que l'hypothèse nulle soit vraie. L'hypothèse nulle est rejetée et la probabilité que l'hypothèse alternative soit significative est acceptée.
La probabilité estimée que le phénomène observé soit le fruit du hasard est appelée valeur p. La valeur p est mesurée sur une échelle de 0 à 1 ou en pourcentage, les deux mesures étant équivalentes. Les critères statistiques d'une étude de confirmation comprennent un seuil alpha en dessous duquel les valeurs p calculées montreraient que le phénomène observé est significatif. Si un seuil alpha de 5 % est courant, ce chiffre doit être ajusté en fonction des critères souhaités et exigés propres à l'objet de l'étude.
De nombreux algorithmes ont été mis au point pour calculer des valeurs p avec diverses hypothèses et différentes finalités. Un algorithme classique est le test t de Student qui permet de calculer une valeur p à partir de la différence entre les valeurs moyennes de deux groupes de données. L'hypothèse principale du test t de Student est que les deux groupes de données sont indépendants et suivent une distribution normale. Le test t de Student a l'avantage d'être un outil puissant par rapport aux tests statistiques non paramétriques29. Un test non paramétrique équivalent au test t de Student peut être l'un des tests statistiques non paramétriques les plus connus, le test de Wilcoxon (parfois appelé test U de Mann-Whitney), à ne pas confondre avec le test des rangs signés de Wilcoxon qui sert à comparer deux groupes appariés. À la différence des tests statistiques paramétriques comme le test t de Student, les tests statistiques non paramétriques comme le test de Wilcoxon ont l'avantage de ne pas dépendre d'hypothèses préalables sur la distribution des ensembles de données. Un test de normalité de Kolmogorov-Smirnov peut être utilisé pour décider de réaliser soit le test t de Student soit un test non paramétrique.
En plus du choix de l'algorithme de calcul de la valeur p, il est possible de manipuler les ensembles de données utilisés dans l'algorithme pour faciliter l'observation des propriétés recherchées dans l'ensemble de données. La combinaison des étapes de manipulation des données brutes et du choix de l'algorithme de calcul de la valeur p relève de la construction d'un modèle hypothétique.
La construction de modèles hypothétiques dans la phase exploratoire d'une analyse statistique comporte une grande part de liberté et cela constitue un volet important de la recherche scientifique. Cependant, une hypothèse n'est jamais prouvée par une démarche statistique et scientifique. Une bonne démarche scientifique consiste à formuler une hypothèse nulle, à utiliser un ensemble de données indépendant (de préférence tout juste constitué) et à accepter ou rejeter l'hypothèse nulle en suivant l'organigramme de l'étude de confirmation (Figure 10.10).
Techniques de visualisation en analyse univariée
À l'instar des méthodes d'analyse, il existe un très large choix de techniques de visualisation des données. Pour l'analyse de données univariées, un simple histogramme avec barres d'erreur constitue une technique de visualisation appropriée. Bien qu'il s'agisse d'une technique simple et courante, deux points méritent d'être soulignés. D'une part, les barres d'erreur peuvent représenter différentes sources de variabilité : la variabilité naturelle des données, à savoir l'écart-type (SD pour "Standard Deviation"), ou la précision avec laquelle la valeur moyenne a été déterminée. D'autre part, si la précision avec laquelle la valeur moyenne a été déterminée peut être représentée de différentes manières, elle dépend en définitive d'une combinaison de la variabilité naturelle des données et du nombre d'échantillons (N). Sous sa forme brute, elle est appelée erreur standard de la moyenne (SEM pour "Standard Error of the Mean", Équation 1) :
Équation 1.SEM
La SEM n'est cependant pas une mesure très intuitive et il n'est pas facile de comparer objectivement les SEM de différentes expériences. L'intervalle de confiance (CI pour "Confidence Interval", Équation 2) est un moyen plus courant d'illustrer la précision de la moyenne estimée et de représenter graphiquement la signification statistique :
Équation 10-2.Cl
Dans l'équation de l'intervalle de confiance, on retrouve la SEM sous la forme du rapport entre l'écart-type (SD) et la racine carrée du nombre d'échantillons (N) ; l'intervalle de confiance est donc indéniablement basé sur la SEM. La limite inférieure de l'intervalle de confiance se calcule en soustrayant de la moyenne, la SEM multipliée par un percentile d'une distribution t. La limite supérieure de l'intervalle de confiance se calcule en ajoutant à la moyenne, la SEM multipliée par un percentile d'une distribution t. Le seuil de l'intervalle de confiance est défini par le niveau de confiance associé à la valeur critique t* (généralement un niveau de confiance de 95 %).
La Figure 10.11 est un histogramme avec barres d'erreur illustrant l'intervalle de confiance à 95 % dans chaque groupe expérimental. Cette figure révèle l'incertitude liée à l'estimation de la moyenne pour l'expression d'un gène dans des échantillons de plusieurs organes traités avec différentes doses de médicaments. Y sont également notées, sous forme d'astérisques, les valeurs p de signification statistique par un test t de la différence d'expression génique entre les échantillons témoins et chacun des trois échantillons traités avec des doses différentes. La convention veut qu'un seul astérisque indique une valeur p inférieure à 0,05, deux astérisques une valeur p inférieure à 0,01, et trois astérisques une valeur p inférieure à 0,001.
Figure 10.11.Variation relative (log2) de l'expression d'un gène d'intérêt comparativement à une paire de gènes de référence, par rapport à l'échantillon présentant la plus faible expression dans chaque type d'organe. La hauteur des barres représente l'expression moyenne du gène dans différents groupes d'échantillons : non traités (dose 0) ou traités avec l'une des trois doses de médicament (dose 1, dose 2, dose 3). Les barres d'erreur représentent une estimation de l'intervalle de confiance à 95 % des expressions moyennes. Un seul astérisque indique une différence statistiquement significative entre les moyennes d'un groupe d'échantillons traités et la moyenne du groupe d'échantillons non traités au seuil de 5 % ; deux astérisques indiquent une différence statistiquement significative au seuil de 1 % ; et trois astérisques indiquent une différence statistiquement significative au seuil de 0,1 %.
Étant donné que le système de notation par astérisques ne montre pas la valeur absolue de p, il est souvent recommandé d'inclure un tableau des valeurs absolues de p, comme dans le Tableau 10.5 En effet, une valeur p de 0,032 est à peine plus significative qu'une valeur p de 0,055, par exemple. Ce genre de cas limites peut prêter à confusion lorsqu'il s'agit de déterminer avec précision le seuil à utiliser pour considérer les données comme statistiquement significatives. Dans la pratique, une valeur p de 0,051 pourrait être tout aussi significative qu'une valeur p de 0,049, alors qu'un seuil strict (quoique purement arbitraire) de 0,05 définirait l'une comme significative et l'autre non.
Il existe toutefois un autre mode de visualisation en histogrammes qui utilise l'intervalle de confiance de la différence entre les moyennes pour éviter la plupart des inconvénients, si ce n'est tous, des histogrammes classiques24. L'intervalle de confiance de la différence entre les moyennes permet d'estimer directement la signification statistique grâce aux barres d'erreur associées, tout en mettant en évidence l'ampleur de l'effet biologique et la variabilité des données. La Figure 10.12 montre ce mode de visualisation, avec les données de la Figure 10.11. On remarque que les intervalles de confiance qui n'incluent pas la différence nulle entre les moyennes correspondent à des résultats significatifs au niveau de confiance correspondant au seuil de la valeur p (5 % sur la Figure 10.11 et dans le Tableau 10.5).
Figure 10.12.Histogramme illustrant la différence entre les moyennes du groupe d'échantillons non traités (dose 0) et de l'un des groupes d'échantillons traités (dose 1, dose 2 ou dose 3) dans l'ensemble de données de la Figure 10.11. Les barres d'erreur représentent l'intervalle de confiance de la différence entre les moyennes. Les barres d'erreur qui ne coupent pas l'axe des abscisses indiquent que la comparaison des moyennes correspondantes est statistiquement significative au seuil de 5 % dans un test t. PCR Technology: Current Innovations. 3e éd. Taylor & Francis Group LLC. Reproduit avec l'aimable autorisation des publications Taylor & Francis Group LLC au format "réutilisation dans un livre papier ou électronique" via Copyright Clearance Center.
Des données multivariées sont des données collectées sur différentes variables pour chaque unité d'échantillonnage. Les données utilisées sur les Figures 10.11 et 10.12 sont multivariées, car elles dépendent de variables comme la dose et le type d'organe. En revanche, les analyses statistiques des Figures 10.11 et 10.12 sont univariées, car chaque représentation (barre) n'illustre qu'une seule variable, l'expression génique, par rapport à des mesures fixes des autres variables. Pour l'analyse de données multivariées, le regroupement hiérarchique et l'analyse en composantes principales sont deux solutions intéressantes pour la représentation des données.
Regroupement hiérarchique
L'un des moyens les plus simples et les plus utiles de caractériser les données consiste à les représenter en diagramme de dispersion (en représentant, par exemple, les valeurs de Cq mesurées pour un gène en fonction de celles mesurées pour un autre gène, pour un ensemble d'échantillons biologiques, sur un graphique en deux dimensions). Un graphique en une ou deux dimensions est facile à lire pour l'œil humain. Une autre solution consiste à créer des graphiques en trois dimensions avec des outils appropriés, mais les représentations en plus de deux dimensions sont beaucoup plus difficiles à visualiser. Toutefois, pour les études exploratoires, l'ensemble de données est par nature multidimensionnel ; la représentation d'ensembles de données complets en diagrammes de dispersion peut donc poser des difficultés pratiques. À titre d'exemple, différents gènes et/ou différents types d'échantillons biologiques peuvent être représentés au sein d'un ensemble de données de qPCR.
Une autre façon courante de caractériser et de visualiser les données d'études exploratoires consiste à analyser les distances mesurées entre différents points du diagramme de dispersion. Des exemples comprennent la corrélation euclidienne, la mesure de la distance de Manhattan ou la corrélation de Pearson. La puissance de calcul facilite le calcul de ces distances, même pour des données multidimensionnelles représentées en bien plus de trois dimensions. Le regroupement agglomératif se déroule selon le processus itératif suivant : 1) Identification des deux objets les plus proches et fusion de ces deux objets en un cluster ; 2) Définition du nouveau cluster comme un nouvel objet par une méthode de regroupement ("clustering") ; 3) Répétition des étapes 1) et 2) jusqu'à ce que tous les objets aient été fusionnés en clusters30. D'autres techniques de regroupement comprennent la méthode de Ward, le lien unique ("single linkage") et le lien moyen ("average linkage")31. Les résultats d'un regroupement hiérarchique sont souvent visualisés sous forme de dendrogramme.
L'interprétation de dendrogrammes de données de qPCR permet souvent de tirer des conclusions quant aux similitudes des profils d'expression génique. Dans une étude exploratoire, ces similitudes peuvent alors servir à formuler des hypothèses sur la corégulation de l'expression génique, hypothèses qui peuvent être acceptées ou rejetées lors d'études de confirmation ultérieures. L'un des avantages des dendrogrammes est la clarté avec laquelle les relations de similitude sont présentées. En revanche, l'importance accordée à la mesure des similitudes peut être perçue comme limitante pour la formulation d'hypothèses. En effet, des profils d'expression similaires peuvent constituer des attributs redondants au sein des hypothèses. Il peut être plus utile, pour répondre à l'hypothèse d'intérêt, d'identifier des ensembles de profils d'expression qui se complètent au sein d'une combinaison spécifique.
Analyse en composantes principales
Un autre moyen très courant de caractériser et de visualiser les données d'études exploratoires consiste à exploiter les informations contenues dans l'ensemble de données multidimensionnel, à sélectionner les propriétés souhaitées et à les projeter sur un diagramme de dispersion en un nombre limité de dimensions, par exemple un diagramme en deux ou trois dimensions. Cela peut se faire au moyen d'une analyse en composantes principales (ACP)32,33,34,35. Ici, le système de coordonnées initial de l'ensemble de données (à savoir, les profils d'expression mesurés par qPCR) est transformé en un nouvel espace multidimensionnel dans lequel de nouvelles variables (composantes principales, CP, ou facteurs) sont créées. Chaque CP est une combinaison linéaire des objets de l'ensemble de données de départ. Par convention mathématique, les CP sont extraites par ordre d'importance. Cela signifie que la première CP explique la majeure partie de l'information (variance) présente dans les données, la deuxième un peu moins et ainsi de suite. Par conséquent, les coordonnées des deux ou trois premières CP (appelées scores) peuvent être utilisées pour créer une projection de tout l'ensemble de données sur un nombre volontairement limité de dimensions, convenant à une visualisation en deux ou trois dimensions. L'utilisation des deux ou trois premières CP permet d'obtenir une projection qui représente l'essentiel de la variabilité de l'ensemble de données. Si la variance due aux conditions du protocole expérimental est en principe systématique, les variables confusionnelles sont en principe aléatoires ; cette représentation peut donc être recherchée dans certaines conditions.
Comme nous l'avons vu précédemment pour le regroupement hiérarchique, l'interprétation d'une ACP obtenue à partir de données de qPCR permet souvent de tirer des conclusions quant aux similitudes des profils d'expression génique. Bien que l'ACP et le regroupement hiérarchique puissent apporter des informations complémentaires sur les profils de corégulation de l'expression génique, ces deux techniques se concentrent sur les similitudes des profils d'expression génique. Cela restreint les types d'hypothèses qui peuvent être identifiés dans les études exploratoires qui utilisent uniquement ces techniques. Pour élargir le champ des hypothèses formulées dans les études exploratoires, une approche de l'analyse multivariée fondée sur des hypothèses a récemment été proposée24. Des algorithmes fondés sur des hypothèses conçus sur mesure peuvent identifier des hypothèses biologiquement pertinentes que les techniques d'analyse multivariée classiques peuvent ne pas détecter.
Pour continuer à lire, veuillez vous connecter à votre compte ou en créer un.
Vous n'avez pas de compte ?