- Qualitative Analyse der PCR/qPCR
- qPCR-Datenanalyse
- Ableitung genauer Cq-Werte
- Einstellung des Schwellenwerts
- qPCR-Strategien für die Quantifizierung
- Quantifizierung von Standardkurven
- Relative/Vergleichende Quantifizierung
- Normalisierung
- Auswahl von Referenzgenen
- Analyse der Stabilität von Referenzgenen
- Alternative Normalisierungsmethoden
- Statistische Analyse und Datenvisualisierung
- Visualisierungstechniken für univariate Analysen
- Statistische Tests
- Hierarchische Clusteranalyse
- Analyse der Hauptkomponenten
Qualitative Datenanalyse der PCR/qPCR
Nach Abschluss einer herkömmlichen PCR werden die Daten durch Auflösung in einem Agarosegel oder aktueller in einem Kapillar-Elektrophoresesystem analysiert. Bei einigen Anwendungen wird eine qPCR durchgeführt, wobei die Endpunktdaten für die Analyse verwendet werden, wie z. B. bei der SNP-Genotypisierung. In jedem Fall liefern die Endpunktdaten eine qualitative Analyse, nachdem die PCR die Plateauphase erreicht hat. In einigen Fällen kann es möglich sein, Endpunktdaten zu analysieren, um eine semiquantitative Analyse der PCR-Ausbeute durchzuführen. Quantitative Messungen werden jedoch häufiger mit Hilfe der qPCR und der Analyse der Quantifizierungszykluswerte (Cq)1 durchgeführt.
qPCR-Datenanalyse
In diesem Leitfaden werden die Faktoren hervorgehoben, die zu Abweichungen bei der Messung von Nukleinsäure mittels PCR oder qPCR beitragen. Jeder dieser Faktoren soll optimiert werden, um einen Assay zu erhalten, welcher der tatsächlichen Genmenge (Ziel) in der Reaktion so nahe wie möglich kommt. Das Ergebnis dieser Prozesse ist die Erstellung einer Reihe von Cq-Werten für jedes Ziel in jeder Probe. In diesem Kapitel wird der Prozess der Ableitung und Analyse dieser Cq-Werte vorgestellt, um zuverlässige Daten zu erhalten, welche die biologische Historie darstellen.
Genaue Ableitung von Cq-Werten
Korrektur der Basislinie
Für jedes Ziel in jeder Probe wird ein Cq-Wert bestimmt. Verschiedene Analysepakete, die unterschiedlichen Geräten zugehörig sind, haben alternative Ansätze für die Bestimmung des Cq-Werts (und verwenden auch alternative Bezeichnungen, wie z. B. Ct, Cp, Take-Off-Punkt). Es würde den Rahmen dieses Leitfadens sprengen, sich mit den Feinheiten all dieser Algorithmen zu befassen. Allerdings sind qPCR-Messungen, die auf Amplifikationskurven beruhen, empfindlich gegenüber Hintergrundfluoreszenz. Die Hintergrundfluoreszenz kann durch eine Reihe von Faktoren verursacht werden, wie z. B. die Wahl des Kunststoffs, die verbleibende Fluoreszenz der Sonde, die nicht gequencht wird, das Eindringen von Licht in das Proben-Well und Unterschiede im optischen Nachweis für ein bestimmtes Well der Mikrotiterplatte. Bei gut konzipierten Assays ist der Hintergrund im Vergleich zum amplifizierten Signal gering. Schwankungen im Hintergrundsignal können jedoch den quantitativen Vergleich verschiedener Proben erschweren. Daher ist es wichtig, Schwankungen der Hintergrundfluoreszenz zu korrigieren, die Unterschiede in der Basislinie verursachen (Abbildung 10.1).
Abbildung 10.1Komponenten von Amplifikationskurven Diese Grafik zeigt den Anstieg der Fluoreszenz mit der Anzahl der Zyklen für verschiedene Proben. Der Schwellenwert liegt oberhalb der Nachweisgrenze, aber deutlich unterhalb der Plateauphase, in der sich die Amplifikationsrate verlangsamt.
Ein gängiger Ansatz ist die Verwendung der Fluoreszenzintensität während der ersten Zyklen, z. B. zwischen den Zyklen 5 und 15, um eine konstante und lineare Komponente der Hintergrundfluoreszenz zu ermitteln. Dies wird dann als Hintergrund oder Basislinie für die Amplifikationskurve definiert. Aufgrund von transienten Effekten ist es ratsam, die ersten Zyklen (z. B. Zyklus 1 bis 5) für die Definition der Basislinie zu vermeiden, da diese häufig reaktionsstabilisierende Artefakte aufweisen. Je mehr Zyklen für die Basislinienkorrektur verwendet werden, desto besser ist die potenzielle Genauigkeit der linearen Komponente der Basislinienschwankungen. Viele Gerätesoftwarepakete ermöglichen die manuelle Einstellung der Zyklen, die für die Festlegung der Basislinie berücksichtigt werden sollen. Es ist wichtig, dass Benutzer diese Funktionen genauer kennenlernen. Und es sollte unbedingt vermieden werden, die Standardeinstellungen zu übernehmen.
Ein Beispiel für die Auswirkung der Basislinieneinstellung ist in Abbildung 10.1 dargestellt. Wie zu sehen ist, werden die Cq-Werte und die offensichtliche Form der Amplifikationskurve durch die genaue Einstellung der Basislinie beeinflusst. Im Beispiel wurde die Basislinie für die mit C3 bezeichnete Kurve manuell falsch eingestellt, sodass die Basislinienzyklen aus den Daten der Zyklen 5 bis 31 berechnet wurden. Dies führt dazu, dass die Kurve mit einem Cq-Wert von 28,80 unter den Nullwert der Basislinie fällt (Abbildung 10.2A). Um dies zu korrigieren, werden die Rohdaten (R) betrachtet und der letzte Zyklus des linearen Hintergrunds (der letzte Zyklus vor der Amplifikation) identifiziert. In Abbildung 10.2B wird deutlich, dass dies Zyklus 22 ist. Die Basislinie wird zwischen Zyklus 5 und Zyklus 22 korrekt auf Null gesetzt (Abbildung 10.2C) und die Amplifikationskurve anschließend korrigiert (Abbildung 10.2D). Der korrigierte Cq-Wert ist 26,12. Es ist daher zu beachten, dass es einen erheblichen Unterschied zwischen den Cq-Werten mit den falschen und den richtigen Basislinieneinstellungen gab, was zeigt, dass die Festlegung der richtigen Basislinie eine wichtige Komponente der Datenanalyse ist.
Abbildung 10.2A-B. A)Typisches Beispiel für Daten, die unter den normalisierten Fluoreszenzwert Null fallen, wenn die Basislinieneinstellung nicht korrekt ist (blaue Amplifikationskurve). B) Rohdaten der gleichen Amplifikationskurven, durch welche die Grenze der linearen Basislinie dargestellt und belegt wird, dass die Daten nicht fehlerhaft sind.
Abbildung 10.2C-D. C)Die Grenzen für den Beginn und das Ende der Basislinie werden über die entsprechenden Softwareeinstellungen festgelegt. D) Die Anwendung der korrigierten Basislinieneinstellung führt zu qualitativ hochwertigen Daten
Einstellung des Schwellenwerts
Obwohl einige Forscher das Mapping individueller Amplifikationskurven befürworten, um die Amplifikationseffizienz und die Zielmengen in gemessenen Proben abzuschätzen2,3,4, besteht der ursprüngliche und häufigste Ansatz zur Ableitung des Cq in der Verwendung eines Schwellenwerts. Die breite Akzeptanz dieses Ansatzes ist wahrscheinlich darauf zurückzuführen, dass die Schwellenwertmethode eine einfache und wirksame Quantifizierungsmethode ist.
Das Prinzip der Schwellenwertmethode besteht darin, dass das Signal so ansteigen muss, dass es über der Nachweisgrenze des Geräts (und damit der Basislinie) liegt, damit das zugehörige Fluoreszenzsignal aus der qPCR-Amplifikation sichtbar gemacht wird (Abbildung 10.1). Die Anzahl der dafür erforderlichen Zyklen ist proportional zur anfänglichen Kopienzahl des Ziels in der Probe. Daher sind mehr Zyklen erforderlich, um das Signal über die Basislinie anzuheben, wenn die ursprüngliche Kopienzahl niedrig ist, und weniger Zyklen, wenn die Kopienzahl hoch ist. Da die Basislinie auf die Nachweisgrenze des Systems eingestellt ist, wären Messungen an der Basislinie sehr ungenau. Anstatt bis zur Intensität der geringsten Fluoreszenz zu messen, die das System nachweisen kann, wird daher eine höhere Fluoreszenz gewählt und ein künstlicher Schwellenwert eingeführt.
Bei der Auswahl der Schwellenintensität müssen einige grundlegende Prinzipien beachtet werden. Es ist wichtig, dass der Schwellenwert für ein bestimmtes Ziel und für alle zu vergleichenden Proben auf eine feste Intensität festgelegt wird. Wenn zu viele Proben vorhanden sind, um auf eine einzelne Platte zu passen, muss ein plattenübergreifendes Kalibrierungsschema gewählt werden, z. B. die Einbeziehung einer replizierten Kontrolle, die als plattenübergreifende Kontrolle dient, oder eine serielle Verdünnung der Standardkurve. Theoretisch kann der Schwellenwert an jeder beliebigen Stelle der logarithmischen Phase der Amplifikationskurve eingestellt werden. In der Praxis kann die logarithmische Phase der Amplifikation jedoch durch einen Basisliniendrift der Hintergrundfluoreszenz, die Plateauphase oder Unterschiede in der Assay-Effizienz und damit der Gradient der Amplifikationskurve bei höheren Zyklen gestört werden. Es wird empfohlen, den Schwellenwert wie folgt festzulegen:
- Ausreichend oberhalb der Basislinie der Hintergrundfluoreszenz, um sicher zu sein, dass die Amplifikationskurve den Schwellenwert nicht vorzeitig aufgrund der Hintergrundfluoreszenz überschreitet.
- In der logarithmischen Phase der Amplifikationskurve, in der sie von der Plateauphase unbeeinflusst ist (dies ist am einfachsten zu erkennen, wenn die Amplifikationskurven in einer logarithmischen Ansicht betrachtet werden, Abbildung 10.3A).
- An einer Position, an der die logarithmischen Phasen aller Amplifikationskurven parallel verlaufen.
Der Prozess der Schwellenwerteinstellung ist in Abbildung 10.3 dargestellt. In Abbildung 10.3A werden die Amplifikationskurven auf einer logarithmischen Darstellung der Y-Achse dargestellt, wodurch eine visuelle Erweiterung der logarithmischen Phase der Amplifikation möglich wird und diese als linearer Teil der Amplifikationskurve abgebildet wird. Der Schwellenwert wird bei der höchsten Fluoreszenzintensität (siehe Y-Achse) festgelegt, die innerhalb dieser logarithmischen Phase liegt, und bei der alle Amplifikationskurven parallel verlaufen. Die Skala wird dann auf die lineare Ansicht zurückgesetzt (Abbildung 10.3B) und zeigt den höchsten Wert an, der die Anforderungen an die Schwellenwerteinstellung erfüllt. Alternativ kann der Schwellenwert auch am unteren Ende dieser logarithmischen Phase festgelegt werden (Abbildungen 10.3C und 10.3D). Solange die logarithmische Phase der Amplifikationskurven parallel verläuft, wird der ΔCq-Wert zwischen den Proben nicht durch die Schwellenwerteinstellung beeinflusst.
Abbildung 10.3Die Schwellenwerteinstellung beeinflusst den absoluten Cq-Wert und kann den ΔCq-Wert zwischen den Proben beeinflussen. A). Anhand einer logarithmischen vs. linearen Darstellung der Daten wird der Schwellenwert auf die höchste Fluoreszenzintensität festgelegt, bei der die Amplifikationskurven parallele logarithmische Phasen aufweisen. B). Die Schwellenwerteinstellung von A) wird beibehalten und als "Linear vs. Linear" Auftrag angezeigt. C). Anhand einer logarithmischen vs. linearen Darstellung der Daten wird der Schwellenwert auf die niedrigste Fluoreszenzintensität festgelegt, bei der die Amplifikationskurven parallele logarithmische Phasen aufweisen. D). Die Schwellenwerteinstellung wird von C) beibehalten und als "Linear vs. Linear" Auftrag angezeigt. In allen Fällen sind die ΔCq-Werte zwischen den Proben gleich.
Eine erforderliche Schwellenwerteinstellung an einer Stelle, an der die logarithmischen Phasen der Amplifikationskurven parallel verlaufen, wird noch relevanter, wenn Daten aus höheren Zyklen in die Analyse einbezogen werden. Das Verfahren zur Einstellung der Schwellenwerte, das für die Daten in Abbildung 10.3 beschrieben wurde, wurde für einen Datensatz mit höherem Cq-Wert wiederholt und die Ergebnisse in Abbildung 10.4 dargestellt. Die resultierenden Cq-Daten in Tabelle 10.1 dienen zur Veranschaulichung der Variabilität des Cq und, was noch wichtiger ist, der ΔCq-Werte für drei Amplifikationskurven mit drei Schwellenwerteinstellungen (Abbildung 10.4). Die ΔCq-Werte und damit die Einschätzung der relativen Menge des Ziels in jeder Probe hängen in hohem Maße von der Einstellung des Schwellenwerts ab (Abbildung 10.4), da die Amplifikationskurven nicht parallel verlaufen.
Abbildung 10.4.Die in Abbildung 10.3 dargestellte Analyse wurde mit einem anderen Datensatz wiederholt. In diesem Fall verlaufen die Amplifikationskurven nicht parallel, was auf einen Unterschied in der Effizienz der Reaktion bei hohem Cq zurückzuführen ist. Die niedrigsten Einstellungen für A) und B) führen zu anderen ΔCq-Werten als die höchsten Einstellungen für C) und D) (Zusammenfassung in Tabelle 10.1).
qPCR-Strategien für die Quantifizierung
Eine genaue Basislinie und Schwellenwerteinstellung sind für eine zuverlässige Quantifizierung unerlässlich. Nach der Einstellung jedes dieser Werte wird ein Cq-Wert erzeugt, der als Grundlage für die Quantifizierung verwendet wird. Die Menge des Zielmoleküls in einer gegebenen Probe wird dann entweder anhand einer Standardkurve oder durch relative/vergleichende Quantifizierung bestimmt.
Quantifizierung von Standardkurven
Wie der Name schon sagt, erfordert die Standardkurvenquantifizierung die Verwendung einer Standardkurve zur Bestimmung der Ziele in Testproben. Alle für Proben ermittelten Mengen sind daher relativ zu der der Standardkurve zugeordneten Menge. Dies erfordert die Verwendung zusätzlicher, externer Standards neben jedem Probenreaktionssatz. Die Auswahl des Materials für die Standardkurve ist wichtig, um potenzielle Unterschiede bei der Quantifizierung aufgrund von Unterschieden zwischen den Assay-Effizienzen in Proben und Standards zu beseitigen. Die Primer-Bindungsstellen der externen Standards müssen mit denen des Ziels übereinstimmen, die gleichen Sequenzen wie das Ziel enthalten, eine ähnliche Komplexität aufweisen und möglichst ähnlich gehandhabt werden. Daher ist es bei der Messung der Konzentration eines Ziels in cDNA vorzuziehen, die gleiche cDNA in einer seriellen Verdünnung einer Kontrollprobe zu messen. Bei einigen Studien gibt es jedoch praktische Gründe, die dies verhindern, sodass es wichtig ist, die Probenbedingungen so genau wie möglich zu reproduzieren, z. B. durch Zugabe von gDNA von einer Spezies, die nicht mit der zu testenden Spezies verwandt ist, zu einem künstlichen Oligonukleotidstandard oder einem linearisierten Plasmid, das die Standardsequenz trägt. Sobald ein geeignetes Konstrukt oder Amplikon identifiziert ist, wird eine Standardkurve aus seriellen Verdünnungen erstellt. Der Cq-Wert für das Ziel wird für jeden der Standards bestimmt und auf einer logarithmischen Skala gegen die Konzentration oder relativen Konzentration bzw. zum Verdünnungsfaktor aufgetragen. Daraus ergibt sich eine Standardkurve, die dann zur Bestimmung der Konzentrationen der Testproben durch Vergleich mit den Cq-Werten aus der Amplifikation der unbekannten Proben verwendet wird. Bei Verwendung einer Standardkurve für die Quantifizierung muss die Schwellenwerteinstellung für die Bestimmung von Cq für den Standard und für die Proben auf derselben Platte konstant gehalten werden. Der Schwellenwert kann von Platte zu Platte unterschiedlich sein.
Relative/Vergleichende Quantifizierung
Bei der relativen oder vergleichenden Quantifizierung wird der Unterschied in Cq als Determinante für die Konzentrationsunterschiede der Zielsequenz in verschiedenen Proben verwendet. Anstatt wie bei der Standardkurvenmethode die Menge des Ziels pro Probe zu messen, führt dies zu Datensätzen, welche die relative Änderung zwischen Proben aufzeigen.
In der ursprünglichen Form dieses Ansatzes5 wurde die Effizienz aller Assays mit 100 % angenommen, was zu der Annahme führte, dass ein Cq-Unterschied von 1 (ΔCq = 1) das Ergebnis eines 2-fachen Unterschieds im Ziel ist. Zur Bestimmung einer relativen Änderung im Zielgen oder im Gen von Interesse (GOI) müssen die Daten auch auf eine Ladekontrolle (Referenzgen, ref; siehe nachstehende Abhandlung zur Datennormalisierung) bezogen werden.
Abbildung 10.5.Aufbau einer Standardkurve. Der für jede Probe einer Verdünnungsreihe aufgezeichnete Cq-Wert wird auf einer logarithmischen Skala gegen die relative Konzentration aufgetragen.
In Gleichung 1 wird das Verhältnis des GOI nach Korrektur des Referenzgens in 2 Proben (A im Verhältnis zu B) wie folgt gemessen: 2 (unter der Annahme von 100 % effizienter Reaktionen), erhöht um die Potenz der Unterschiede in den Cq-Werten für die GOI, geteilt durch 2, erhöht um die Potenz der Unterschiede in den Cq-Werten für das Referenzgen
Gleichung 1.Original (Livak) Relatives Quantifizierungsmodell.
Wie jedoch in Assay-Optimierung und -Validierung dargestellt, variiert die Effizienz der Reaktionen beträchtlich, was einen großen Einfluss auf die Daten haben kann. Daher wurden die Annahmen in Gleichung 1 berücksichtigt (Gleichung 2)6, sodass die Unterschiede in den Reaktionswirkungsgraden in die Analysen einbezogen werden konnten. In diesem Fall wird der Amplifikationsfaktor 2 durch die tatsächliche Effizienz der PCR ersetzt (wie durch eine Standardkurvenanalyse bestimmt; siehe Assay-Optimierung und Validierung).
Gleichung 2.Effizienz des angepassten (Pfaffl) relativen Quantifizierungsmodells
Als Beispiel für die Anwendung des an die Effizienz angepassten (Gleichung 2) relativen Quantifizierungsmodells wird in Tabelle 10.2 eine Reihe von Cq-Werten dargestellt. Die Effizienz für die GOI beträgt 1,8 und für das Referenzgen 1,94.
Dies ist ein sehr einfaches Beispiel für eine Studie mit der Anforderung, die Differenz der relativen Änderung zwischen einem Gen in zwei Proben und nach Normalisierung zu einem einzelnen Referenzgen zu messen. Das Verhältnis zeigt die relative Änderung des GOI in Probe 2 im Vergleich zu Probe 1, nach Korrektur zu dem einzelnen Referenzgen. Es hat sich jedoch gezeigt, dass die Auswahl eines einzelnen geeigneten Referenzgens oft nicht möglich ist. Aus diesem Grund wurden anspruchsvollere Ansätze für die Normalisierung vorgeschlagen.
Normalisierung
Das Hauptziel der meisten PCR-basierten Experimente besteht darin, die grundlegende Frage zu klären, ob das Ziel in der Probe vorhanden ist (unbekannt, UNK). Am einfachsten lässt sich diese Frage beantworten, indem ein Geldurchlauf erfolgt und die Fragmente auf das Vorhandensein oder Fehlen der gewünschten GOI untersucht werden. Wenn das Fragment vorhanden ist, gibt die Bestätigung der Fragmentgröße die Gewissheit eines positiven Ergebnisses. Bei Abwesenheit besteht jedoch die Möglichkeit eines falsch negativen Ergebnisses. Daher ist es wichtig, den Test zu wiederholen und mindestens eine weitere PCR durchzuführen, die als Lade- und positive PCR-Kontrolle dient. Der universelle Assay zur Inhibitionskontrolle SPUD (siehe Probenaufreinigung und Qualitätsbewertung) kann verwendet werden, um das Vertrauen in ein negatives Ergebnis zu stärken. Ein alternativer Ansatz ist die Durchführung eines Assays, der für ein oder mehrere Referenzgene spezifisch ist. Traditionell wurden PCR-Assays zum Nachweis der Referenzgene, GAPDH, 18S-ribosomale RNA oder β-Actin parallel zu den Assays für die GOI durchgeführt und die resultierenden Fragmente auf einem Gel visualisiert. GAPDH, 18S-ribosomale RNA und β-Actin werden konstitutiv exprimiert und wurden daher als Ladekontrollen in semi-quantitativen Analysen verwendet. Es stellte sich jedoch bald heraus, dass diese Gene unabhängig vom Versuchsaufbau nicht in allen Zellen in der gleichen Konzentration ubiquitär exprimiert werden. Daher entstand der Bedarf an einer stabilen Referenz, wenn das Ziel darin bestand, relative Nukleinsäurekonzentrationen zu messen (in der Regel cDNA, aber auch gDNA), wenn z. B. die Kopienzahlvariation eines Gens untersucht wird.
Unter Normalisierung wird der Prozess der Korrektur von technischen Messungen auf eine stabile Referenz verstanden, um damit die tatsächliche biologische Variation zu untersuchen. Es gibt viele Methoden zur Normalisierung technischer Unterschiede, was bedeutet, dass der geeignete Ansatz für das spezifische Experiment ausgewählt und validiert werden muss7. Es ist wichtig zu erkennen, dass die Anwendung ungeeigneter Normalisierungstechniken dem gesamten Analyseprozess mehr schaden kann, als keine Normalisierung8.
Auswirkungen der Probenqualität auf die Assay-Normalisierung
Die Auswirkungen der Probenintegrität und -reinheit auf die Zielmengenmessungen mittels qPCR und RT-qPCR wurden ausführlich erörtert (Probenaufreinigung und Qualitätsbewertung,Probenqualitätskontrolle und Reverse Transkription). Es wurde demonstriert, dass Inhibitoren in der Probe und der RNA-Abbau einen unterschiedlichen Einfluss auf die Messung eines gegebenen Ziels haben9. Inhibitoren wirken sich zwar auf die Messung aller Ziele aus, jedoch abhängig von der Assay-Planung in unterschiedlichem Maße. Der Abbau der Gesamt-RNA wirkt sich auf die Messung von mRNA und miRNA10 aus, was wiederum in hohem Maße von der gesamten Versuchsplanung abhängt. Daher ist es wichtig, die Auswirkungen der Template-Konzentration auf die RT-Reaktion und die Auswirkungen der Probenqualität auf die Daten nach der Normalisierung zu berücksichtigen. Die Normalisierung kompensiert die Auswirkungen minderwertiger Assays oder Proben nicht (siehe Assay-Optimierung und Validierung).
Normalisierungsansätze
Im Idealfall wirken Normalisierungsmethoden der Variabilität entgegen, die während des mehrstufigen Prozesses, der zur Durchführung einer qPCR-Analyse erforderlich ist, eingeführt werden kann (Abbildung 10.6). Die Anwendung der Normalisierung in einem beliebigen Stadium des Prozesses kann jedoch technische Fehler und/oder systematische Fehler, die in einem früheren oder späteren Stadium eingeführt wurden bzw. werden, nicht ausgleichen. Die Normalisierungsmethoden schließen sich nicht gegenseitig aus, sodass eine Kombination aus Kontrollen empfohlen wird11.
Abbildung 10.6.Die qPCR ist ein mehrstufiger Prozess und jeder Schritt muss kontrolliert werden. Die Normalisierung muss im Rahmen einer Reihe von Kontrollen berücksichtigt werden.
Ziel der Normalisierung ist es, einen stabilen Referenzpunkt zu schaffen, auf den sich die Messungen beziehen können. Daher muss der Normierungsfaktor eine Messung sein, die während des gesamten Versuchs stabil ist. Dabei kann es sich um ein oder mehrere stabile Referenzgen(e) handeln oder um eine der Alternativen, wie z. B. Zellzahl, Gewebemasse, RNA-/DNA-Konzentration, ein externer Spike12 oder ein repräsentatives Maß für die insgesamt exprimierten Gene.
Auswahl von Referenzgenen
Referenzgene sind Ziele, deren Menge sich durch das Experiment nicht verändert. Bei der Quantifizierung von DNA-Kopienzahlvariationen, bei denen sich die Anzahl der Kopien der Sequenz von Interesse ändern kann, wird die Messung einfach normalisiert, indem eine alternative genomische Region als Ziel ausgewählt wird, von der bekannt ist, dass sie sich nicht ändert. Ein Beispiel dafür, wie dies angewendet werden kann, ist die Messung der genomischen Amplifikation des humanen epidermalen Wachstumsfaktor-Rezeptors 2 (HER-2)13. Die genomische HER-2-Instabilität ist ein prognostischer Indikator bei Brustkrebs, und die genaue Messung des HER-2-Amplifikationsstatus ist für die Behandlung der Patientinnen wichtig. Der HER-2-Status kann mittels qPCR gemessen werden, indem die Kopien von HER-2 mit einem anderen genomischen Ziel verglichen werden, das als Kontrolle dient.
Bei der Messung der Genexpression sind Referenzgene Ziele mit mRNA-Konzentrationen, die sich durch das Experiment nicht verändern. Ein Beispiel wäre eine Studie, bei der die Auswirkung auf die Expression von Gen X nach Zugabe einer mitogenen Verbindung zu einer Zellschicht gemessen wird. Um die Veränderung des Gens X zu messen, ist ein Bezugspunkt erforderlich. Daher wird ein anderes Gen (oder mehrere Gene) gemessen, von dem/denen bekannt ist, dass es/sie nicht durch das betreffende Mitogen beeinflusst wird/werden. Dies stellt Forscher vor die unmittelbare Herausforderung, ein mRNA-Ziel zu finden, das durch das experimentelle Verfahren nicht beeinträchtigt wird, bevor die GOI untersucht werden kann. Dieser Prozess der Validierung von Referenzgenen ist grundlegend für eine genaue Messung der GOI. Der am weitesten verbreitete Ansatz zur Normalisierung besteht darin, diesen Prozess zu ignorieren und die Genexpressionsdaten auf ein einzelnes, nicht validiertes Referenzgen zu normalisieren. Diese Praxis wird nicht empfohlen und steht im direkten Widerspruch zu den MIQE-Leitlinien1. Die Quantifizierung von mRNA durch RT-qPCR wurde häufig routinemäßig durch die falsche Wahl der Referenzgene beeinträchtigt. Die relativ gängige Praxis, ein Referenzgen zu verwenden, weil die Primer bereits im Gefrierschrank liegen, es in der Vergangenheit bei Northern Blots verwendet wurde, es von einem Kollegen verwendet wird oder in einem anderen Labor für einen anderen Versuch eingesetzt wurde, ist nicht akzeptabel. Referenzgene müssen im Rahmen von Versuchsszenarien validiert werden, um sicherzustellen, dass das betreffende Referenzgen nicht durch den Versuch beeinflusst wird. Wenn diese Validierung nicht durchgeführt wird und das Referenzgen durch den Versuch beeinflusst wird, können die Ergebnisse falsch sein, und die anschließenden Interpretationen zu bedeutungslosen Daten führen8.
Es gibt eine Reihe von wissenschaftlichen Abhandlungen, in denen verschiedene Methoden zur Normalisierung beschrieben werden7-14, sowie eine Vielzahl Publikationen, in denen die Protokolle beschrieben werden, die erforderlich sind, um die am besten geeigneten Normalisierungsgene für ein bestimmtes experimentelles Szenario zu ermitteln. Während in der Vergangenheit die Frage im Vordergrund stand, ob ein einzelnes oder mehrere Referenzgene ausgewählt werden sollen, hat sich aufgrund der niedrigeren Betriebskosten die Messung mehrerer Referenzgene durchgesetzt.
Die Auswahl stabiler Referenzgene erfordert, dass der Analytiker die Stabilität der qPCR für eine Reihe (in der Regel 10 bis 20 Gene) von mRNA-Zielen7 anhand einer Teilmenge von Proben bewertet, welche die Test- und Kontroll-mRNA repräsentieren. Ein vollständiges Protokoll ist in Anhang A, Protokolle, dieses Leitfadens enthalten und kann in Kombination mit verschiedenen Analysemethoden unter Verwendung von Programmen wie REST15, GeNorm14, Bestkeeper16 oder NormFinder17 verwendet werden. Dieses Verfahren wird im folgenden Abschnitt zur Analyse der Stabilität von Referenzgenen ausführlicher beschrieben.
Analyse der Stabilität von Referenzgenen
Das Referenzgen ist buchstäblich der Dreh- und Angelpunkt für qPCR-Assays zur relativen Quantifizierung. Daher ist es für die Zuverlässigkeit des gesamten Assays entscheidend, dass das Referenzgen stabil ist. Wenn die Expression des Referenzgens zwischen den Proben variiert, wird diese Variation direkt auf die Quantifizierungsergebnisse übertragen, und die zusätzliche Variabilität kann die gewünschte beobachtbare biologische Wirkung verschleiern oder, was noch schlimmer ist, einen völlig künstlichen Anschein einer biologischen Wirkung erwecken, die nichts mit dem eigentlichen Gen von Interesse zu tun hat. Aus diesen Gründen wird dringend empfohlen, verschiedene Sicherheitsmaßnahmen zu ergreifen, um die Variabilität der Referenzgene unbedeutend zu machen und die Messungen der biologischen Wirkungen so signifikant wie möglich zu gestalten.
Die wohl wichtigste Sicherheitsmaßnahme besteht darin, nicht nur ein, sondern zwei oder mehr Referenzgene zu verwenden. Die Expression mehrerer Referenzgene kann gemittelt werden, um die technische Variabilität aufgrund der Normalisierung zu verringern. Dies kann nützlich sein, um die Signifikanz bei Messungen biologischer Effekte mit geringem Umfang zu verbessern. Noch wichtiger ist jedoch, dass zwei oder mehr Referenzgene gegenseitige Kontrollen für die Aufrechterhaltung der Stabilität und die Kontrolle für unerwartete Ereignisse bieten, die das Expressionsniveau eines der Referenzgene beeinflussen können. Bei einem einzelnen Referenzgen besteht das Risiko, dass unerwartete Einflüsse auf die Genexpression im Assay unentdeckt bleiben.
Eine weitere Sicherheitsmaßnahme besteht darin, mehr als eine Methode zur Identifizierung stabiler Referenzgene anzuwenden. Das folgende Beispiel veranschaulicht verschiedene Aspekte der Normalisierung von Referenzgenen, einschließlich eines möglichen Vorteils der Verwendung von geNorm- und NormFinder-Methoden für denselben Datensatz.
Tabelle 10.3 enthält eine Liste von Referenzgenkandidaten, die während eines Workshops bewertet wurden, den wir zuvor mit dem EMBL durchgeführt haben. Die Proben wurden aus einer menschlichen Zellkultur in zwei verschiedenen Behandlungsgruppen entnommen. Dieser Datensatz wird verwendet, um Aspekte der Validierung von Referenzgenen zu demonstrieren.
Sowohl der NormFinder- als auch der geNorm-Algorithmus wurden unter der Annahme entwickelt, dass das Testen einer Vielzahl von Referenzgenkandidaten dazu verwendet werden kann, die Stabilität einzelner Referenzgenkandidaten zu bewerten. Diese Annahme kann zutreffen, wenn beispielsweise alle Referenzgenkandidaten stochastisch um stabile Expressionsniveaus schwanken. In der Realität muss dies jedoch nicht unbedingt der Fall sein. Um irreführende Ergebnisse zu vermeiden, ist es daher ratsam, regulierte und vor allem coregulierte Referenzgene zu vermeiden.
Die Liste der Referenzgenkandidaten in Tabelle 10.3 wurde verwendet, um Gene auszuwählen, die unterschiedlichen Funktionsklassen angehören, wodurch die Wahrscheinlichkeit einer Coregulierung der Gene verringert wird. Eine bemerkenswerte Ausnahme ist GAPDH, das hier in zwei Versionen vorliegt. Obwohl dies keinen Einfluss auf diese Analyse hat, ist es die beste Praxis, Mehrfacheinträge von Genen zu vermeiden, bei denen der Verdacht besteht, dass sie coreguliert sind.
Der erste zu demonstrierende Algorithmus ist geNorm. Dieser ermöglicht eine Bewertung der Genstabilität durch die Berechnung eines Genstabilitätsmaßes, des sogenannten M-Werts, der auf paarweisen Vergleichen zwischen dem analysierten Referenzgenkandidaten und allen anderen Referenzgenkandidaten im Datensatz basiert. Er wird iterativ durchgeführt, d. h. in diesem Beispiel wird das Verfahren zunächst für alle 15 Referenzgenkandidaten durchgeführt, der am wenigsten stabile wird entfernt, der Prozess wird für die verbleibenden 14 Kandidaten wiederholt, der zweite am wenigsten stabile Kandidat wird entfernt und so weiter, bis zwei Referenzgene übrig bleiben.
Es kann vorkommen, dass die Identifizierung des stabilsten Referenzgens eine besondere Herausforderung darstellt. Ein Fall kann sein, dass alle Referenzgen-Kandidaten schlecht abschneiden. Ein anderer Fall wäre, dass alle Referenzgen-Kandidaten gut abschneiden. Um zwischen diesen beiden Fällen zu unterscheiden, ist eine nützliche Richtlinie, dass Referenzgene mit einem M-Wert unter 0,5 als stabil exprimiert angesehen werden können.
Der zweite zu demonstrierende Algorithmus ist NormFinder, ein frei verfügbares Paket zur Analyse von Referenzgenen (Anhang B, Weitere Ressourcen). Der zugrundeliegende Algorithmus verfolgt einen ANOVA-ähnlichen Ansatz zur Bewertung der Stabilität von Referenzgenen, bei dem die Gesamt- und Untergruppen auf Variationen untersucht werden. Ein Vorteil liegt darin, dass die erhaltenen Messwerte in direktem Zusammenhang mit dem Niveau der Genexpression stehen. Eine Standardabweichung von 0,20 in Cq-Einheiten entspricht daher einer Variation von etwa 15 % in den Kopienzahl-Expressionsniveaus des jeweiligen Referenzgenkandidaten.
Der Einfachheit halber wird in dieser Demonstration auf beide Analysepakete über die Datenanalysesoftware GenEx (MultiD) zugegriffen, sie sind jedoch auch als unabhängige Pakete erhältlich (Anhang B, Weitere Ressourcen).
Die in Abbildung 10.7 dargestellten Säulendiagramme veranschaulichen Referenzgene, die mit beiden Algorithmen nach ihren jeweiligen Stabilitätsmaßen geordnet sind. Darüber hinaus wird in einer Grafik mit der kumulierten Standardabweichung von NormFinder aufgezeigt, dass eine Kombination aus bis zu drei besten Referenzgenen zu Stabilitätsverbesserungen führen kann.
Abbildung 10.7.Säulendiagramme mit Stabilitätsmaßen: M-Werte für geNorm und Standardabweichungen für NormFinder. Darüber hinaus wird in einer Grafik mit der kumulierten Standardabweichung von NormFinder aufgezeigt, dass eine Kombination aus bis zu drei besten Referenzgenen zu Stabilitätsverbesserungen führen kann. Der Datensatz wurde aus Assays generiert, die für die in Tabelle 10.3 aufgeführten Referenzgenkandidaten entwickelt und an einer menschlichen Zellkultur in zwei verschiedenen Behandlungsgruppen gemessen wurden. Beachten Sie, dass in diesem Fall die Algorithmen für die Stabilität der Referenzgene geNorm und NormFinder nicht übereinstimmen, wenn es um die besten Referenzgene geht.
Abbildung 10.8.Mittleres zentriertes Expressionsprofil der Referenzgenkandidaten der beiden Proben in jeder Behandlungsgruppe. Die Proben 1 und 2 gehören zur ersten Behandlungsgruppe und die Proben 3 und 4 zur zweiten Behandlungsgruppe. Die Expressionsprofile von SDHA und CANX sind rot dargestellt. Das Expressionsprofil von UBC ist gelb dargestellt. In der Tabelle sind die gemessenen Cq-Werte des Datensatzes aufgeführt.
Aufgrund der abweichenden Expressionsprofile ist es möglich, dass SDHA und CANX durch die verschiedenen Behandlungsalternativen reguliert werden und daher nicht als Referenzgene geeignet sind. Wenn diese aus dem Datensatz entfernt und die Analyse wiederholt wird, stimmen beide Algorithmen überein und die beste Wahl der Referenzgene ist EIF4A2 und ATP53 (Abbildung 10.9). Bei der NormFinder-Berechnung der kumulierten Standardabweichungen zeigt sich ebenfalls, dass die Hinzunahme weiterer Referenzgene die Stabilität nicht verbessert.
Abbildung 10.9.Die Prüfung der Expressionsprofile und der gemessenen Cq-Werte (Abbildung 10.8) gab Anlass zu dem Bedenken, dass SDHA und CANX im angewandten Assay möglicherweise coreguliert werden. Die Coregulierung kann die Algorithmen für die Stabilität von Referenzgenen stören. Säulendiagramme mit Stabilitätsmaßen: A) M-Werte für geNorm und B) Standardabweichungen für NormFinder. Der Datensatz ist der gleiche wie in Abbildung 10.8, mit der Ausnahme, dass die Daten für SDHA und CANX entfernt wurden. Beachten Sie, dass die Algorithmen für die Stabilität der Referenzgene geNorm und NormFinder bei diesem reduzierten Datensatz bei der Auswahl der besten Referenzgene übereinstimmen.
Die Analyse der Daten in diesem Beispiel dient zur Veranschaulichung, dass die parallele Verwendung von geNorm und NormFinder die Identifizierung coregulierter Referenzgen-Kandidaten ermöglicht und dass das Entfernen dieser Gene aus weiteren Studien eine endgültige Identifizierung von Referenzgenen ergibt, die mit größerer Sicherheit angenommen werden können als nach einer einzelnen Analyse. Die Identifizierung und Auswahl stabiler Referenzgene führt zu einer größeren Sicherheit der Datenanalyse.
Alternative Normalisierungsmethoden
Die Normalisierung auf Referenzgene ist zwar die gängigste Methode für die Assay-Normalisierung, es gibt jedoch Situationen, in denen dieser Ansatz nicht geeignet ist, z. B. wenn eine große Anzahl von Genen in einer heterogenen Gruppe von Proben verglichen werden soll oder wenn miRNA-Profile erstellt werden. In diesen Szenarien ist es wichtig, eine alternative Strategie auszuwählen.
Normalisierung auf Gewebemasse oder Zellzahl
Die Messung der Zellzahl oder der Gewebemasse zur Verwendung als Normalisierungsfaktor ist nicht so einfach, wie es auf den ersten Blick scheint. Zellkulturexperimente lassen sich relativ leicht anhand der Zellzahl normalisieren. Das Hinzufügen einer Behandlung könnte sich jedoch auf die Zellmorphologie auswirken, was das Verhältnis von Zellzahl zu exprimierter(n) Gesamt-RNA/Genen im Vergleich zu einer Kontrollkultur erschwert. Die Behandlung im Versuch kann zur Bildung einer zusätzlichen Zellmatrix führen, die Unterschiede in der Effizienz der Nukleinsäureextraktion verursacht.
Biologisches Gewebe kann innerhalb von und zwischen Probanden sehr heterogen sein, wobei die Unterschiede größer sind, wenn gesundes Gewebe mit krankem Gewebe verglichen wird. Selbst scheinbar weniger komplexe Gewebe wie Blut können sich in der Zellzahl und -zusammensetzung erheblich unterscheiden, sodass die Genexpression zwischen scheinbar gesunden Spendern stark variiert18.
Alle Verzögerungen bei den Verfahren zur Aufreinigung der Nukleinsäure führen zu Veränderungen der gemessenen RNA. So führen beispielsweise Verzögerungen bei der Verarbeitung von mononukleären Zellen aus peripherem Blut und der Extraktion von RNA aus Zellen zu erheblichen Veränderungen der Genexpression19. Die Methoden, die den Extraktionsverfahren zugrunde liegen, sind ebenfalls eine wichtige Quelle für technische Unterschiede. Selbst das für die Entnahme von Zellen aus dem Blut gewählte Isolierungsverfahren und die RNA-Aufreinigung führen zu Unterschieden in den ersichtlichen Genexpressionsprofilen20. Die erste Überlegung bei der Normalisierung besteht daher darin, sicherzustellen, dass die Entnahme und Verarbeitung bei allen Proben absolut identisch ist. Anschließend muss eine ausreichende Qualitätskontrolle durchgeführt werden, um die Konzentration, Integrität und Reinheit der Probe sicherzustellen (Probenaufbereitung und Qualitätsbewertung und zugehörige Protokolle in Anhang A).
Normalisierung der RNA-Konzentration
Als Minimum ist eine Einschätzung der Template-Konzentration (DNA für qPCR oder RNA für RT-qPCR) wichtig, und wie unter Probenaufreinigung und Qualitätsbewertung erwähnt, ist es entscheidend, dass für alle Messungen das gleiche Gerät verwendet wird, da die Bestimmung der Nukleinsäurekonzentration ebenfalls variabel und technikabhängig ist.
Bei der Messung der Gesamt-RNA-Konzentration besteht der größte Teil der Probe aus rRNA und nur ein kleiner Teil aus der mRNA von Interesse bei der Untersuchung der Genexpression, bzw. aus der sncRNA bei der Untersuchung der Regulation der Genexpression. Daraus folgt: wenn die rRNA-Konzentration geringfügig ansteigt, die mRNA aber konstant bleibt, steigt die Gesamt-RNA-Konzentration. Die mRNA-Konzentration muss deutlich ansteigen, um einen sichtbaren Anstieg der Gesamt-RNA-Konzentration zu bewirken. Daher ist die rRNA-Konzentration ein unzuverlässiges Maß für die mRNA-Konzentration, aber bei vielen Protokollen ist eine gleichbleibende RNA-Konzentration erforderlich, um eine genaue reverse Transkription zu gewährleisten (siehe Reverse Transkription).
Normalisierung der globalen Genexpression
Bei der Messung einer großen Anzahl von Zielen kann der Analytiker den globalen Mittelwert der gesamten Genexpression schätzen und regulierte RNA-Sequenzen identifizieren, die von diesem Mittelwert abweichen. Dieser Ansatz wird üblicherweise zur Normalisierung von Genexpressions-Arrays verwendet. Er ist eine wertvolle Alternative zur Verwendung von Referenzgenen und kann vorzuziehen sein, wenn viele Ziele gemessen werden.
Ein weiterer kürzlich erforschter Ansatz ist die Messung von endogen exprimierten Wiederholungselementen (ERE), die in vielen mRNA vorhanden sind. Diese Wiederholungselemente, die eine Schätzung des mRNA-Anteils ermöglichen, sind in vielen Spezies zu finden (ALU bei Primaten, B-Elemente bei Mäusen). Die Messung dieser Zielsequenzen funktioniert nachweislich wie herkömmliche Normalisierungssysteme9 (Le Bert, et al., in Vorbereitung) und kann eine universelle Lösung oder eine Alternative für komplexe Experimente bieten, bei denen keine stabilen Referenzgenkombinationen verfügbar sind.
Normalisierung von miRNA-Daten
Bislang gibt es noch keine Berichte über ein universelles miRNA-Referenzgen. Daher ist die Auswahl des Normalisierungssystems immer noch eher empirisch. Wenn möglich, können stabile invariante miRNA durch genomweite Ansätze, d. h. Microarrays, identifiziert werden. Kleine nukleoläre RNA (snoRNA) wurden ebenfalls als Referenzgene verwendet. Darüber hinaus ist die globale Genexpression eine nützliche Methode zur Normalisierung der miRNA-Expression, wenn eine stabile Referenz unbekannt ist und mehrere hundert Targets analysiert werden21,22,23. Diese Methode ist eher dann geeignet, wenn Ansätze verwendet werden, bei denen alle miRNA als cDNA in einer multiplexen Form erfasst werden, z. B. Exiqon und miQPCR-Systeme (siehe Castoldi et al. in PCR Technologies, Current Innovations24).
Biologische und technische Replikate
Der Zweck der Normalisierung besteht darin, systematische Fehler zu vermeiden und die Datenvariabilität für die mögliche statistische Analyse zu verringern. Ein weiterer wichtiger Aspekt bei der Erstellung von Daten für die statistische Analyse ist die Verwendung der Datenreplikation.
Biologische Replikate sind in der statistischen Analyse unbedingt erforderlich. Statistische Signifikanzniveaus werden häufig mit einem Signifikanz-Cut-off von 5 % festgelegt. Bei biologischen Effekten, die nahe an einem solchen Signifikanzniveau liegen, kann es erforderlich sein, mindestens 20 biologische Replikate durchzuführen, um das Signifikanzniveau des Assays zu bestimmen (1:20 entspricht 5 %). Es wurde sogar vorgeschlagen, dass für eine genaue Schätzung der Signifikanz mindestens die 50-fache Anzahl von Beobachtungen erfasst werden muss25, d. h. eine Größenordnung von tausend biologischen Proben. Natürlich ist es in der Praxis nur selten möglich, biologische Replikate in diesem Ausmaß durchzuführen. Darüber hinaus hängt die genaue Schätzung der Anzahl der erforderlichen biologischen Replikate zur Erreichung eines bestimmten Signifikanzniveaus auch vom Grad der Variabilität der Daten ab. Dennoch ist es wichtig zu erkennen, dass ein häufiger Fehler darin besteht, die erforderliche Anzahl biologischer Replikate zu unterschätzen, um zu zuverlässigen Schlussfolgerungen zu gelangen. Es wird empfohlen, eine erste Pilotstudie durchzuführen, um die inhärente Variabilität des Assays und die potenzielle Größe des beobachtbaren biologischen Effekts zu bewerten, um eine gute Grundlage für die Einschätzung der erforderlichen Anzahl biologischer Replikate zu haben26.
Technische Replikate werden nicht direkt für die statistische Analyse verwendet. Stattdessen werden technische Replikate zur Sicherung der Proben (für den Fall, dass einige Proben bei der technischen Bearbeitung verloren gehen) und zur besseren Bewertung der Datengenauigkeit verwendet. Durch technische Replikate kann die Datengenauigkeit verbessert werden, wenn die Annahme zutrifft, dass sie in jeder Phase des technischen Bearbeitungsprozesses stochastisch um die genaue Messung herum variieren. Der Durchschnitt der technischen Replikate ist näher an der genauen Messung. Die Auswirkung der Mittelung technischer Replikate lässt sich anhand der Größe des Konfidenzintervalls in einem simulierten Datensatz mit einer vorgegebenen Variabilität, d. h. einer Standardabweichung von 1, veranschaulichen. Wie in Tabelle 10.4 zu sehen ist, wird das Konfidenzintervall mit zunehmender Anzahl der technischen Replikate (Proben) kleiner, was auf eine genauere Einschätzung der genauen Messung hinweist. Außerdem ist die Verschmälerung des Konfidenzintervalls bei einer geringen Anzahl technischer Replikate am dramatischsten. Eine Erhöhung der Anzahl der Replikate um 2 bis 3 verringert das Konfidenzintervall von 8,99 auf 2,48, d. h. eine mehr als dreifache Verbesserung der Präzision bei der Einschätzung der genauen Messung. Zusätzliche Replikate verbessern zwar weiterhin die Schätzung der Messgenauigkeit, aber der Effekt wird immer geringer. Daher ist offensichtlich, dass es in Fällen, in denen die Variabilität der technischen Handhabung ein Problem darstellt, von großem Vorteil sein kann, Triplikate statt Duplikate zu verwenden.
Technische Replikate können in verschiedenen Phasen des Probenhandhabungsprozesses gesammelt werden, wozu RNA-Extraktion, reverse Transkription und qPCR-Nachweis gehören. Wenn technische Replikate in mehreren Phasen festgestellt werden, wird eine verschachtelte Versuchsplanung erstellt. Eine Pilotstudie, in der die Vorteile einer verschachtelten Versuchsplanung genutzt werden, kann dazu beitragen, die Phasen der Probenhandhabung zu ermitteln, die am meisten zu technischen Handhabungsfehlern beitragen. Auf der Grundlage dieser Informationen kann dann ein optimaler Probenahmeplan berechnet werden27.
Statistische Analyse und Datenvisualisierung
Bei der wissenschaftlichen Analyse biologischer Daten stehen die Formulierung und Prüfung von Hypothesen im Mittelpunkt des Interesses. Die Formulierung einer Hypothese erfordert ein detailliertes Verständnis der Bedingungen und Variablen des Assays. Die erfolgreiche Prüfung einer Hypothese erfordert eine sorgfältige Durchführung und eine geeignete Versuchsplanung, um das gewünschte beobachtbare Signal zu maximieren und gleichzeitig die technische Variabilität zu minimieren. In diesem Zusammenhang ist es sinnvoll, zwischen explorativen und konfirmatorischen Studien zu unterscheiden (Abbildung 10.10).
Abbildung 10.10.Flussdiagramm zur Veranschaulichung der Vorgänge in explorativen und konfirmatorischen statistischen Analysen. Auf der linken Seite der Abbildung, vor dem gestrichelten Pfeil, sind die Vorgänge in einer statistischen explorativen Studie dargestellt Auf der rechten Seite der Abbildung, hinter dem gestrichelten Pfeil, werden die Vorgänge in einer konfirmatorischen statistischen Studie aufgezeigt.
Der Zweck der explorativen Studie ist es, Daten mit einer oder mehreren verschiedenen Techniken zu analysieren, um eine Hypothese zu untermauern. Der Datensatz kann neu definiert werden und/oder es können wiederholt verschiedene Analysetechniken angewandt werden, um eine oder mehrere Hypothesen zu bestätigen. Die explorative Studie ist daher sehr flexibel gegenüber den Besonderheiten jeder wissenschaftlichen Fragestellung. Das wiederholte Testen von Hypothesen an einem Datensatz kann jedoch zu Problemen führen, welche die statistischen Schlussfolgerungen untergraben. Dies ist auf die Mehrfachprüfung zurückzuführen, die sich auf die Tatsache bezieht, dass ein statistischer Test mit mehreren unabhängigen Hypothesen mit größerer Wahrscheinlichkeit eine positive Signifikanz ergibt und dass die Wahrscheinlichkeit dafür mit der Prüfung weiterer Hypothesen zunimmt, selbst wenn die zugrunde liegenden Wahrscheinlichkeitsverteilungen identisch sind. Um irreführende statistische Ergebnisse zu vermeiden, wird die explorative Studie daher häufig mit einer konfirmatorischen Studie kombiniert.
Die Anforderungen an eine konfirmatorische Studie beruhen auf wesentlich strengeren statistischen Kriterien. Zum einen muss die Untersuchungshypothese, einschließlich der Kriterien für die Signifikanz, vor der Datenerhebung und vor der Analyse festgelegt werden. Darüber hinaus muss der zu analysierende Datensatz ausschließlich zu diesem Zweck erhoben worden sein. Es ist statistisch nicht korrekt, den Datensatz aus der explorativen Studie in der konfirmatorischen Studie wiederzuverwenden, da dieser Datensatz von Natur aus die vorgeschlagene Hypothese begünstigen würde. Das Endergebnis der konfirmatorischen Studie ist eine abgelehnte oder akzeptierte Hypothese entsprechend den vorab festgelegten Kriterien.
Statistische Tests
Bei statistischen Tests wird die Wahrscheinlichkeit untersucht, dass ein beobachtetes Phänomen zufällig aufgetreten ist. Dies wird als Nullhypothese bezeichnet28. Wenn das beobachtete Phänomen gemäß der Nullhypothese selten ist, lautet die Schlussfolgerung, dass es unwahrscheinlich ist, dass die Nullhypothese gültig ist. Die Nullhypothese wird verworfen und die Wahrscheinlichkeit, dass die Alternativhypothese signifikant ist, akzeptiert.
Die geschätzte Wahrscheinlichkeit, dass das beobachtete Phänomen zufällig aufgetreten ist, wird als p-Wert bezeichnet. Der p-Wert wird in einem Bereich von 0 bis 1 oder entsprechend in Prozenteinheiten gemessen. Die statistischen Kriterien für eine konfirmatorische Studie beinhalten einen Alpha-Cut-off, unter dem die berechneten p-Werte eine Signifikanz für das beobachtete Phänomen anzeigen würden. Üblicherweise wird ein Alpha-Cut-off von 5 % verwendet, der jedoch an die gewünschten und notwendigen Kriterien angepasst werden muss, die für das jeweilige Thema der Studie spezifisch sind.
Es wurden viele Algorithmen zur Berechnung von p-Werten unter verschiedenen Annahmen und für unterschiedliche Zwecke entwickelt. Ein gängiger Algorithmus ist der t-test (Student's t-test). Der Student's t-Test wird verwendet, um einen p-Wert auf der Grundlage der Differenz der Mittelwerte zwischen zwei Datengruppen zu berechnen. Die Hauptannahme des Student's t-Tests liegt darin, dass die beiden Datengruppen unabhängig sind und einer Normalverteilung entsprechen. Ein Vorteil des Student's t-Tests liegt darin, dass er im Vergleich zu nichtparametrischen statistischen Tests sehr leistungsstark ist29. Ein nichtparametrischer Test, der dem Student's t-Test entspricht, ist einer der bekanntesten nicht-parametrischen statistischen Tests: der Wilcoxon-Rangsummentest (manchmal auch Mann-Whitney-U-Test genannt; nicht zu verwechseln mit dem Wilcoxon-Vorzeichen-Rang-Test, der zum Vergleich zweier gepaarter Gruppen verwendet wird). Nichtparametrische statistische Tests, wie der Wilcoxon-Rangsummentest, haben gegenüber parametrischen statistischen Tests, wie dem Student's t-Test, den Vorteil, dass sie nicht von Vorannahmen über die Verteilungen der Datensätze abhängig sind. Ein Kolmogorov-Smirnov-Test auf Normalverteilung kann verwendet werden, um zu entscheiden, ob der Student's t-Test oder einer der nichtparametrischen Tests angewendet werden soll.
Zusätzlich zur Wahl des Algorithmus für die p-Wert-Berechnung können die Datensätze, die in den p-Wert-Berechnungsalgorithmus eingespeist werden, manipuliert werden, um die Beobachtung der gewünschten Eigenschaften im Datensatz zu erleichtern. Die Kombination der Schritte zur Bearbeitung der Rohdaten und die Wahl des Algorithmus zur Berechnung des p-Wertes ist Teil der Erstellung eines Hypothesenmodells.
Die Erstellung von Hypothesenmodellen in der explorativen Phase einer statistischen Analyse bietet ein hohes Maß an Handlungsfreiheit und ist ein wichtiger Teil der wissenschaftlichen Untersuchung. Eine Hypothese wird jedoch niemals durch einen wissenschaftlichen, statistischen Ansatz bewiesen. Ein korrekter wissenschaftlicher Ansatz besteht darin, eine Nullhypothese zu formulieren, einen unabhängigen (vorzugsweise neu erhobenen) Datensatz zu verwenden und die Nullhypothese gemäß dem Flussdiagramm der konfirmatorischen Studie (Abbildung 10.10) zu akzeptieren oder zu verwerfen.
Visualisierungstechniken für univariate Analysen
Neben vielen Analysemethoden gibt es auch viele Datenvisualisierungstechniken, aus denen ausgewählt werden kann. Für die univariate Datenanalyse ist ein einfaches Säulendiagramm mit zugehörigen Fehlersäulen eine geeignete Visualisierungstechnik. Auch wenn es sich hierbei um eine gängige und einfache Visualisierungstechnik handelt, gibt es einige Punkte, die hervorzuheben sind. Zum einen können Fehlersäulen verschiedene Quellen der Variabilität veranschaulichen: die inhärente Variabilität der Daten (die Standardabweichung, SD) oder die Genauigkeit, mit welcher der Mittelwert ermittelt wurde. Zum anderen kann die Genauigkeit, mit welcher der Mittelwert bestimmt wurde, auf verschiedene Weise dargestellt werden, hängt aber letztlich von einer Kombination aus der inhärenten Variabilität der Daten und der Anzahl der Proben (N) ab und wird in der Rohform als Standardfehler des Mittelwerts (SEM, Gleichung 1) bezeichnet:
Gleichung 1.SEM
Der SEM ist jedoch kein sehr intuitives Maß und es ist nicht einfach, SEM aus verschiedenen Versuchen sinnvoll zu vergleichen. Eine gängigere Methode, die Genauigkeit des geschätzten Mittelwerts zu veranschaulichen und die statistische Signifikanz grafisch darzustellen, ist das Konfidenzintervall (CI, Gleichung 2):
Gleichung 10-2.Cl
Das Vorhandensein des SEM kann in der Gleichung für das Konfidenzintervall als das Verhältnis zwischen der Standardabweichung (SD) und der Quadratwurzel der Probenanzahl (N) erkannt werden, und somit ist es offensichtlich, dass das Konfidenzintervall auf dem SEM basiert. Die untere Grenze des Konfidenzintervalls wird erstellt, indem der SEM multipliziert mit einem Perzentil einer t-Verteilung vom Mittelwert subtrahiert wird. Die obere Grenze des Konfidenzintervalls wird erstellt, indem der SEM multipliziert mit einem Perzentil einer t-Verteilung zum Mittelwert addiert wird. Das Konfidenzniveau des Konfidenzintervalls wird durch das mit dem kritischen Wert t* verbundene Konfidenzniveau festgelegt; in der Regel ein Konfidenzniveau von 95 %.
In Abbildung 10.11 wird ein Säulendiagramm mit Fehlersäulen dargestellt, mit denen das 95 %ige Konfidenzintervall innerhalb jeder Versuchsgruppe angeben und die Unsicherheit im Zusammenhang mit der mittleren Schätzung für ein Beispiel der Genexpression in Proben aus verschiedenen Organen nach der Behandlung mit mehreren Arzneimitteldosen verdeutlicht wird. Darüber hinaus werden die statistischen Signifikanzwerte des t-Tests (p-Werte) für den Unterschied in der Genexpression zwischen den Kontrollproben und jeder der drei verschiedenen Proben aus verschiedenen Arzneimitteldosis-Wirkungen mit einem Sternchen gekennzeichnet. Es ist üblich, ein Sternchen für einen p-Wert unter 0,05, zwei Sternchen für einen p-Wert unter 0,01 und drei Sternchen für einen p-Wert unter 0,001 zu verwenden.
Abbildung 10.11.Expression der relativen Veränderung (log2) eines Gens von Interesse relativ zu einem Paar von Referenzgenen, bezogen auf die Expression in der Probe mit der geringsten Expression innerhalb jedes Organtyps. Die Säulenhöhen zeigen die mittlere Expression des Gens in mehreren Proben in Gruppen von unbehandelten (Dosis 0) oder mit einer von drei verschiedenen Arzneimitteldosen (Dosis 1, Dosis 2 und Dosis 3) behandelten Proben an. Die Fehlersäulen stellen Schätzungen des 95 %igen Konfidenzintervalls der mittleren Expressionen dar. Ein Sternchen steht für einen statistisch signifikanten Unterschied zwischen den Mittelwerten eines behandelten Probensatzes im Vergleich zum Mittelwert des unbehandelten Probensatzes bis 5 %; zwei Sternchen stehen für einen statistisch signifikanten Unterschied bis 1 %; drei Sternchen für einen statistisch signifikanten Unterschied bis 0,1 %.
Da durch die Sternchenkennzeichnung der absolute Wert von p verborgen wird, wird häufig empfohlen, eine Tabelle mit den absoluten Werten von p einzufügen, wie im Beispiel in Tabelle 10.5 dargestellt. Ein Grund dafür liegt darin, dass ein p-Wert von z. B. 0,032 nur wenig "signifikanter" ist als ein p-Wert von 0,055. Grenzfälle wie dieser können zu einer gewissen Unsicherheit führen, wenn es darum geht, zu entscheiden, welcher Grenzwert bei der Einstufung von Daten als signifikant verwendet werden soll. In realistischen Fällen könnte ein p-Wert von 0,051 genauso signifikant sein wie ein p-Wert von 0,049, aber durch einen strengen (wenn auch grundsätzlich willkürlichen) Cut-off von 0,05 würde der eine als signifikant eingestuft, der andere nicht.
Es gibt jedoch eine Variante der Säulendiagramm-Visualisierung, die das Konfidenzintervall für die Differenz zwischen den Mittelwerten nutzt, um viele, wenn nicht sogar alle Nachteile der traditionellen Säulendiagramme zu vermeiden24. Mit dem Konfidenzintervall für die Differenz der Mittelwerte ist es möglich, die statistische Signifikanz mit den zugehörigen Fehlersäulen direkt abzuschätzen und gleichzeitig die biologische Effektgröße und die Datenvariabilität hervorzuheben. In Abbildung 10.12 wird die Variante mit dem Konfidenzintervall für die Differenz zwischen den Mittelwerten der in Abbildung 10.11 verwendeten Daten dargestellt. Beachten Sie, dass Konfidenzintervalle, die nicht den Nullunterschied zwischen den Mittelwerten umfassen, signifikanten Ergebnissen auf Konfidenzniveau entsprechen, das wiederum dem p-Wert-Cut-off (5 % in Abbildung 10.11 und Tabelle 10.5) entspricht.
Abbildung 10.12.Säulendiagramm, in dem die Differenz zwischen den Mittelwerten des unbehandelten Probensatzes (Dosis 0) und einem der behandelten Probensätze (Dosis 1, Dosis 2 oder Dosis 3) im Datensatz aus Abbildung 10.11 dargestellt wird. Die Fehlersäulen stellen das Konfidenzintervall für den Unterschied zwischen den Mittelwerten dar. Fehlersäulen, die die x-Achse nicht kreuzen, weisen darauf hin, dass der entsprechende Mittelwertvergleich bei einem t-Test statistisch zu 5 % signifikant ist. PCR Technology, Current Innovations, 3. Auflage, Taylor and Francis Group LLC Books. Nachdruck mit Genehmigung von Taylor and Francis Group LLC Books bei Wiederverwendung in einem Buch/e-Buch über das Copyright Clearance Center.
Multivariate Daten sind Daten, die zu mehreren Variablen für jede Probenahmeeinheit erhoben werden. Die in den Abbildungen 10.11 und 10.12 verwendeten Daten sind insofern multivariat, als sie von Variablen wie der Dosis und dem Organtyp abhängen. Die statistischen Analysen in den Abbildungen 10.11 und 10.12 sind jedoch insofern univariat, als in jeder Darstellung (Säulen) nur eine Variable, die Genexpression, im Verhältnis zu festen Maßen der anderen Variablen gezeigt wird. Für multivariate Datenanalyseverfahren sind hierarchisches Clustering und Hauptkomponentenanalyse gute Optionen für die Datendarstellung.
Hierarchische Clusteranalyse
Eine der einfachsten und nützlichsten Methoden zur Charakterisierung von Daten ist das Auftragen der Daten in einem Streudiagramm (z. B. die Darstellung der gemessenen Cq-Werte eines Gens gegen die entsprechenden Cq-Werte eines weiteren Gens für einen Satz biologischer Proben auf einer 2D-Kurve). Ein- oder zweidimensionale Kurven sind für das menschliche Auge leicht zu erkennen. Auch dreidimensionale Kurven sind mit geeigneten Werkzeugen möglich, höherdimensionale Darstellungen sind aber wesentlich schwieriger zu visualisieren. Bei explorativen Studien ist der Datensatz jedoch von Natur aus mehrdimensional und Streudiagramme ganzer Datensätze können sich daher als unpraktisch erweisen. In einem qPCR-Datensatz können z. B. mehrere Gene und/oder mehrere Arten biologischer Proben vertreten sein.
Eine beliebte, alternative Methode zur Charakterisierung und Visualisierung von Daten aus explorativen Studien ist die Analyse von Abstandsmaßen zwischen Datenpunkten im Streudiagramm. Es gibt verschiedene Abstandsmaße, darunter die euklidische Distanz, die Manhattan-Metrik und Pearson-Korrelationen. Mit der entsprechenden Rechenleistung ist die Berechnung von Abständen selbst bei mehrdimensionalen Daten mit einer viel höheren Dimensionalität als drei Dimensionen ein Kinderspiel. In der agglomerativen, hierarchischen Clusteranalyse wird der folgende iterative Prozess durchgeführt: 1) Ermitteln der beiden nächstgelegenen Objekte und Zusammenfügen zu einem Cluster; 2) Definieren des neuen Clusters als neues Objekt durch eine Clustermethode; 3) Wiederholen von 1), bis alle Objekte zu Clustern zusammengefasst sind30. Zu den alternativen Clustermethoden gehören die Ward-Methode, die Einfachverknüpfung und die Durchschnittsverknüpfung31. Ein Dendrogramm wird häufig zur Visualisierung von Ergebnissen aus hierarchischen Clusteranalysen verwendet.
Die Interpretation hierarchischer Dendogramme in der hierarchische Clusteranalyse von qPCR-Daten führt häufig zu Schlussfolgerungen über Ähnlichkeiten im Genexpressionsprofil. In einer explorativen Studie können diese Ähnlichkeiten dann zur Formulierung von Hypothesen über die Genexpressions-Coregulation verwendet werden, die in nachfolgenden konfirmatorischen Studien bestätigt oder verworfen werden können. Zu den Vorteilen der Dendrogramme in der hierarchischen Cluster-Analyse gehört die Klarheit, mit der die Ähnlichkeitsbeziehungen visualisiert werden. Andererseits kann die starke Betonung von Ähnlichkeitsmaßen als Einschränkung bei der Formulierung von Hypothesen empfunden werden, da ähnliche Expressionsprofile redundante Attribute in Hypothesen sein können. Es kann von größerem Wert sein, Gruppen von Expressionsprofilen zu identifizieren, die sich in einer bestimmten Kombination ergänzen, um der gewünschten Hypothese Rechnung zu tragen.
Analyse der Hauptkomponenten
Eine weitere beliebte, alternative Methode zur Charakterisierung und Visualisierung von Daten aus explorativen Studien besteht darin, die im gesamten, mehrdimensionalen Datensatz enthaltenen Informationen zu nutzen, die gewünschten Eigenschaften auszuwählen und sie auf ein niedriger dimensioniertes Streudiagramm zu projizieren, wie z. B. eine 2D- oder 3D-Darstellung. Dies kann mit Hilfe der Hauptkomponentenanalyse (PCA)32,33,34, 35 erreicht werden. Dabei wird das ursprüngliche Koordinatensystem des Datensatzes (d. h. die mittels qPCR gemessenen Expressionsprofile) in einen neuen mehrdimensionalen Raum transformiert, in dem neue Variablen (Hauptkomponenten: PC oder Faktoren) konstruiert werden. Jede PC ist eine lineare Kombination der Probanden des ursprünglichen Datensatzes. Nach der mathematischen Definition werden die PC in der Reihenfolge ihrer Bedeutung extrahiert. Das bedeutet, dass mit der ersten PC der größten Teil der in den Daten vorhandenen Informationen (Varianz) erklärt wird, mit der zweiten weniger und so weiter. Daher können die ersten zwei oder drei PC-Koordinaten (als Scores bezeichnet) verwendet werden, um eine Projektion des gesamten Datensatzes auf eine niedrige Dimension zu erhalten, die für die Visualisierung in einer 2D- oder 3D-Darstellung geeignet ist. Durch die Verwendung der ersten zwei oder drei PC für die Darstellung wird die Projektion erzeugt, welche die größte Variabilität im Datensatz berücksichtigt. Es ist davon auszugehen, dass die Varianz aus den Bedingungen der Versuchsplanung systematisch ist, während störende Varianz eher zufällig auftritt, sodass diese Darstellung unter geeigneten Bedingungen erwünscht sein kann.
Wie bereits in der hierarchischen Clusteranalyse festgestellt, führt die Interpretation der qPCR-PCA häufig zu Schlussfolgerungen über Ähnlichkeiten im Genexpressionsprofil. Obwohl PCA und hierarchisches Clustering komplementäre Einblicke in die Co-Regulierungsmuster der Genexpression liefern können, konzentrieren sich beide Techniken auf die Ähnlichkeiten der Genexpressionsprofile. Dies schränkt die Arten der Hypothesen ein, die in explorativen Studien mit diesen Techniken allein gefunden werden können. Um die Reichweite der in explorativen Studien aufgestellten Hypothesen zu erweitern, wurde vor kurzem ein hypothesengeleiteter Ansatz für die multivariate Analyse vorgeschlagen24. Mit hypothesengeleiteten, spezifisch geplanten Algorithmen können biologisch relevante Hypothesen identifiziert werden, die andernfalls auf Basis der üblichen Techniken für die multivariate Datenanalyse übersehen werden könnten.
Um weiterzulesen, melden Sie sich bitte an oder erstellen ein Konto.
Sie haben kein Konto?