- PCR/qPCR kvalitatív elemzés
- qPCR adatelemzés
- Pontos Cq értékek meghatározása
- A küszöbérték beállítása
- qPCR mennyiségi meghatározási stratégiák
- Standard görbe mennyiségi meghatározása
- Relatív/összehasonlító mennyiségi meghatározás
- Normalizáció
- Referencia gének kiválasztása
- A referencia gén stabilitásának elemzése
- Alternatív normalizálási módszerek
- Statisztikai elemzés és adatvizualizáció
- Vizualizációs technikák az univariáns elemzéshez
- Statisztikai tesztek
- Hierarchikus klaszterezés
- Fő komponenselemzés
PCR/qPCR kvalitatív adatelemzés
A hagyományos PCR elvégzése után az adatokat agarózgélen vagy újabban kapilláris elektroforézis rendszeren keresztül történő felbontással elemzik. Bizonyos alkalmazásoknál qPCR-t futtatnak, és a végponti adatokat használják fel az elemzéshez, például SNP genotipizáláshoz. A végponti adatok minden esetben minőségi elemzést biztosítanak, miután a PCR elérte a platófázist. Bizonyos esetekben a végponti adatok elemzése a PCR-eredmény félig kvantitatív elemzéséhez is lehetséges, de a kvantitatív méréseket gyakrabban végzik qPCR és a mennyiségi ciklusértékek (Cq)1 -értékek elemzésével.
qPCR-adatok elemzése
Ez az útmutató azokat a tényezőket emeli ki, amelyek hozzájárulnak a PCR vagy qPCR segítségével végzett nukleinsav-mérések eltéréseihez. E tényezők mindegyikét optimalizálni kell, hogy olyan vizsgálatot eredményezzen, amely a lehető legközelebbi értéket adja a reakcióban lévő gén (célpont) tényleges mennyiségéhez. E folyamatok eredménye a Cq értékek készlete minden egyes célpontra vonatkozóan minden egyes mintában. E fejezetben bemutatjuk e Cq értékek levezetésének és elemzésének folyamatát, hogy megbízható, a biológiai történetet reprezentáló adatokat kapjunk.
Pontos Cq -értékek meghatározása
Pontos Cq -értékek meghatározása
Báziskorrekció
A Cq értéket minden egyes mintában minden egyes célpontra vonatkozóan meghatározzuk. A különböző analíziscsomagok, amelyek különböző műszerekhez kapcsolódnak, alternatív megközelítésekkel rendelkeznek a Cq meghatározására (és alternatív elnevezéseket is használnak, pl. Ct, Cp, take off point). Ennek az útmutatónak a kereteit meghaladja, hogy belemerüljön mindezen algoritmusok finom részleteibe. Az amplifikációs görbéken alapuló qPCR-mérések azonban érzékenyek a háttérfluoreszcenciára. A háttér-fluoreszcenciát számos tényező okozhatja, többek között a műanyag edények megválasztása, a megmaradt, ki nem oltott szonda-fluoreszcencia, a mintakútba beszivárgó fény, valamint az adott mikrotiterlemez-kút optikai detektálásában mutatkozó különbségek. A jól megtervezett próbák esetében a háttér alacsony az erősített jelhez képest. A háttérjel eltérése azonban akadályozhatja a különböző minták mennyiségi összehasonlítását. Ezért fontos, hogy korrigáljuk a háttér fluoreszcencia-változásokat, amelyek különbséget okoznak az alapvonalban (10.1. ábra).
10.1. ábraAz erősítési ábrák összetevői. Ez a grafikon a fluoreszcencia növekedését mutatja a ciklusok számával a különböző minták esetében. A küszöbértéket a kimutatási határérték fölé, de jóval a platófázis alatt állítottuk be, amely során az amplifikáció sebessége lelassul.
Egy gyakori megközelítés a fluoreszcencia intenzitásának használata a korai ciklusok során, például az 5-15. ciklus között, a háttérfluoreszcencia állandó és lineáris komponensének azonosítására. Ezt határozzák meg az amplifikációs diagram háttér- vagy alapvonalaként. Az átmeneti hatások miatt az első néhány ciklust (pl. az 1-5. ciklust) célszerű elkerülni az alapvonal meghatározásához, mivel ezek gyakran reakcióstabilizáló artefaktumokat mutatnak. Minél több ciklust használunk az alapvonal-korrekcióhoz, annál jobb az alapvonal-változások lineáris komponensének lehetséges pontossága. Számos műszer szoftvercsomag lehetővé teszi az alapvonal meghatározásához figyelembe veendő ciklusok kézi beállítását. Ezeket a funkciókat a felhasználónak fel kell fedeznie, és erősen ellen kell állnia az alapértelmezett beállítások elfogadásának kísértésének.
Az alapvonal beállításának hatását példaként a 10.1. ábra mutatja be. Amint látható, a Cq értékeket és az erősítési diagram látszólagos alakját befolyásolja a pontos alapvonal beállítása. A példában a C3-mal jelölt görbe alapvonalát kézzel helytelenül állítottuk be, így az alapvonalat az 5. ciklustól a 31. ciklusig terjedő ciklusok adataiból számítottuk. Ez azt eredményezi, hogy a görbe a nulla alapvonalszintet (10.2A ábra) 28,80-as Cq értékkel süllyeszti el. Ennek korrigálásához meg kell nézni a nyers adatokat, R, és azonosítani kell a lineáris háttér utolsó ciklusát (az amplifikáció előtti utolsó ciklus). A 10.2B ábrán látható, hogy ez a 22. ciklus. Az alapvonalat helyesen nullára állítjuk az 5. ciklus és a 22. ciklus között (10.2C ábra), majd korrigáljuk az amplifikációs ábrát (10.2D ábra). A korrigált Cq 26,12. Vegyük tehát észre, hogy a Cq -értékek között jelentős különbség volt a helytelen és a helyes alapvonal-beállítások esetén, ami azt mutatja, hogy a helyes alapvonal beállítása az adatelemzés fontos eleme.
10.2A-B ábra. A)Tipikus példa arra, hogy az adatok a nullára normalizált fluoreszcencia-érték alá esnek, ha az alapvonal beállítása helytelen (kék erősítési diagram). B) Ugyanezen amplifikációs plotok nyers adatai, amelyek megmutatják a lineáris alapvonal határértékét és azt, hogy az adatok nem hibásak.
10.2C-D ábra. C)Az alapvonal kezdetének és végének határait a megfelelő szoftverbeállítások segítségével lehet meghatározni. D) A korrigált alapvonal-beállítás alkalmazása jó minőségű adatokat eredményez
A küszöbérték beállítása
Noha egyes kutatók az egyedi amplifikációs plot feltérképezését javasolják az amplifikáció hatékonyságának és a mért mintákban lévő célmennyiségek becslésére2,3,4, a Cq levezetésének eredeti és legelterjedtebb megközelítése a küszöbérték használata. E megközelítés széles körű elterjedése valószínűleg annak köszönhető, hogy a küszöbérték-módszer egyszerű és hatékony mennyiségi meghatározási módszer.
A küszöbérték-módszer mögött az az elv áll, hogy; a qPCR-amplifikációból származó kapcsolódó fluoreszcens jel láthatóvá tételéhez a jelnek úgy kell növekednie, hogy a műszer (és így az alapvonal; 10.1. ábra) kimutatási határa fölé emelkedjen. Az ehhez szükséges ciklusok száma arányos a mintában lévő célpont kezdeti kiindulási kópiaszámával. Ezért több ciklusra van szükség ahhoz, hogy a jel az alapvonal fölé emelkedjen, ha az eredeti kópiaszám alacsony, és kevesebb ciklusra, ha a kópiaszám magas. Mivel az alapvonal a rendszer kimutatási határán van beállítva, az alapvonalon végzett mérések nagyon pontatlanok lennének. Ezért ahelyett, hogy a rendszer által detektálható legkisebb fluoreszcencia intenzitásáig mérnénk, egy magasabb fluoreszcenciát választunk, és egy mesterséges küszöbértéket vezetünk be.
A küszöbérték intenzitásának kiválasztása néhány alapelv betartását igényli. Fontos, hogy a küszöbértéket egy adott célpontra és az összes összehasonlítandó mintára vonatkozóan rögzített intenzitáson állítsuk be. Ha túl sok minta nem fér el egyetlen lemezen, akkor lemezek közötti kalibrációs sémát kell alkalmazni, pl. egy replikált kontroll bevonásával, amely lemezek közötti kontrollként szolgál, vagy egy standardgörbe sorozatos hígításával. Elméletileg a küszöbértéket az amplifikációs görbe log-lineáris fázisán bárhol be lehet állítani. A gyakorlatban azonban az amplifikáció log-lineáris fázisát megzavarhatja a háttérfluoreszcencia alapvonalának sodródása, a platófázis, vagy a vizsgálat hatékonyságának különbségei, és ezért az amplifikációs grafikon gradiensének különbségei magasabb ciklusoknál. A küszöbértéket a következőképpen ajánlott beállítani:
- Eléggé a háttérfluoreszcencia alapvonala fölött, hogy biztosak lehessünk abban, hogy az amplifikációs plot nem lépi át idő előtt a küszöbértéket a háttérfluoreszcencia miatt.
- Az amplifikációs plot logfázisában, ahol a platófázis nem befolyásolja (ez legkönnyebben az amplifikációs plotok lognézetben történő megtekintésével látható, 10.3A ábra).
- Az a pozíció, ahol az összes amplifikációs plot logfázisa párhuzamos.
A küszöbérték beállításának folyamatát a 10.3. ábra mutatja be. A 10.3A ábrán az amplifikációs plotokat Y tengelyen logaritmikus skálán nézzük, így az amplifikáció logaritmikus fázisának vizuális kiterjesztését biztosítjuk, és ezt az amplifikációs plot lineáris részeként mutatjuk be. A küszöbértéket a legmagasabb fluoreszcencia-intenzitásnál (lásd az Y tengelyt) állítottuk be, amely ezen a logfázison belül van, és ahol az összes amplifikációs diagram párhuzamos. A skála ezután visszatér a lineáris nézethez (10.3B ábra), amely a küszöbérték-beállítási követelményeknek megfelelő legmagasabb beállítást mutatja. Alternatívaként a küszöbértéket ennek a logfázisnak az alsó végén is be lehet állítani (10.3C és 10.3D ábra). Mindaddig, amíg az amplifikációs grafikonok logfázisa párhuzamos, a minták közötti ΔCq -t a küszöbérték beállítása nem befolyásolja.
10.3. ábraA küszöbérték beállítása befolyásolja a rögzített abszolút Cq értéket, és befolyásolhatja a minták közötti ΔCq értéket. A). Az adatok log vs. lineáris grafikonját használva a küszöbértéket a legmagasabb fluoreszcencia-intenzitásnál állítottuk be, de ahol az amplifikációs grafikonok párhuzamos logfázisokat mutatnak. B). A küszöbérték-beállítás az A) pontból marad, és a lineáris vs. lineáris diagramon jelenik meg. C). Az adatok log vs. lineáris grafikonját használva a küszöbértéket a legalacsonyabb fluoreszcencia-intenzitásnál állítjuk be, de ahol az amplifikációs grafikonok párhuzamos log-fázisokat mutatnak. D). A küszöbérték-beállítás a C) pontból marad, és a lineáris vs. lineáris diagramon jelenik meg. A minták közötti ΔCq-értékek minden esetben megegyeznek.
A küszöbérték olyan pozícióban történő beállításának követelménye, ahol az amplifikációs grafikonok log-lineáris fázisai párhuzamosak, még fontosabbá válik, ha az elemzésbe magasabb ciklusok adatait is bevonjuk. A küszöbérték-beállítási eljárást, amelyet a 10.3. ábra -ban leírt adatokra vonatkozóan ismertettünk, megismételtük egy magasabb Cq -ban szereplő adatsoron, és az eredményeket a 10.4. ábrán mutatjuk be. Az így kapott Cq adatok a 10. táblázatban.1 szolgálnak a Cq, és ami még fontosabb, a ΔCq értékek változékonyságának szemléltetésére három amplifikációs plot három küszöbérték beállításával (10.4. ábra). A ΔCq értékek és így a célpont relatív mennyiségének becslése az egyes mintákban nagymértékben függ a küszöbérték beállításától (10.4. ábra), mivel az amplifikációs plotok nem párhuzamosak.
10.4. ábra.Az elvégzett és a 10.3. ábrán bemutatott elemzést megismételtük egy másik adatkészlettel. Ebben az esetben az amplifikációs diagramok nem párhuzamosak a reakció hatékonyságának különbsége miatt magas Cq-nál. Az A) és B) legalacsonyabb beállításai más ΔCq-értékeket eredményeznek, mint a C) és D) legmagasabb beállításai (összefoglalva a 10.1. táblázatban).
qPCR mennyiségi meghatározási stratégiák
A megbízható mennyiségi meghatározáshoz elengedhetetlen a pontos alapvonal és küszöbérték beállítása. Mindegyik beállítása után egy Cq értéket generálunk, és ez szolgál a mennyiségi meghatározás alapjául. A célpont adott mintában lévő mennyiségét ezután vagy standardgörbe vagy relatív/összehasonlító mennyiségi meghatározás segítségével határozzuk meg.
Standardgörbe mennyiségi meghatározás
Amint a neve is mutatja, a standardgörbe mennyiségi meghatározás standardgörbe használatát igényli a vizsgálati mintákban lévő célpontok mennyiségének meghatározásához. A mintákból meghatározott összes mennyiség ezért a standard görbéhez rendelt mennyiséghez viszonyítva van. Ehhez minden egyes mintareakció mellett további, külső standardok futtatására van szükség. A standardgörbe anyagának kiválasztása fontos a minták és a standardok vizsgálati hatékonysága közötti különbségekből adódó esetleges mennyiségi különbségek kiküszöbölése szempontjából. A külső standardok primer-kötőhelyeinek meg kell egyezniük a célpontban találhatóakkal, a célpontéval megegyező szekvenciákat kell tartalmazniuk, hasonló komplexitásúnak kell lenniük, és a lehető leghasonlóbb módon kell kezelni őket. Ezért a cDNS-ben lévő célpont koncentrációjának mérésekor célszerű ugyanazt a cDNS-t egy kontrollminta sorozatos hígításában mérni. Egyes vizsgálatok esetében azonban gyakorlati okok akadályozzák ezt, ezért fontos a minta körülményeinek minél pontosabb reprodukálása, pl. a vizsgált fajjal nem rokon fajból származó gDNS hozzáadásával egy mesterséges oligonukleotid standardhoz vagy a standard szekvenciát hordozó linearizált plazmidhoz. A megfelelő konstrukció vagy amplikon azonosítása után soros hígításokból álló standardgörbét kell készíteni. A Cq -t a célpontra vonatkozóan minden egyes standard esetében meghatározzuk, és a koncentráció vagy a relatív koncentráció/hígítási tényező ellenében logaritmikus skálán ábrázoljuk. Ez egy standardgörbét eredményez, amelyet ezután a vizsgálati minták koncentrációjának meghatározására használnak az ismeretlen minták amplifikációjából származó Cq értékek összehasonlításával. Ha standardgörbét használunk a mennyiségi meghatározáshoz, a küszöbérték-beállítást állandó értéken kell tartani a Cq meghatározásához a standard és az ugyanazon a lemezen lévő minták esetében. A küszöbérték lemezenként eltérő lehet.
Relatív/összehasonlító mennyiségi meghatározás
A relatív vagy összehasonlító mennyiségi meghatározás a Cq különbségét használja a különböző mintákban a célszekvencia koncentrációjának különbségét meghatározó tényezőként. Ahelyett, hogy a standard görbemódszerrel ellentétben mintánként mérnénk a célszekvencia mennyiségét, ez olyan adatsorokat eredményez, amelyek a minták közötti hajtásváltozásokat mutatják.
Ez a megközelítés eredeti formájában5 az összes próba hatékonyságát 100%-osnak feltételeztük, ami ahhoz a feltételezéshez vezetett, hogy a C<q 1-es különbség (ΔCq = 1) a célpont 2-szeres különbségének eredménye. A célpont vagy az érdeklődésre számot tartó gén (GOI) fold változásának meghatározásához az adatokat egy betöltési kontrollhoz is viszonyítani kell (referencia gén, ref; az adatok normalizálásával kapcsolatos megbeszélést lásd a következőkben).
10.5. ábra.Egy szabványos görbe felépítése. A hígítási sorozat minden egyes mintájára rögzített Cq értéket logaritmikus lineáris skálán ábrázoljuk a relatív koncentráció függvényében.
Az 1. egyenletben a GOI arányát a ref génre történő korrekció után 2 mintában (A a B-hez képest) a következőképpen mérjük: 2 (100%-os hatékonyságú reakciókat feltételezve) a GOI Cq -értékek különbségeinek hatványára emelve osztva a ref gén Cq -értékek különbségeinek hatványára emelt 2-vel
.1. egyenlet.Eredeti (Livak) relatív számszerűsítési modell.
Amint azonban a Assay-optimalizálás és validálás bemutatja, a reakciók hatékonysága jelentősen eltér, és ez nagy hatással lehet az adatokra. Ezért az 1. egyenletben szereplő feltételezésekkel foglalkoztunk (2. egyenlet)6, hogy a reakciók hatékonyságának különbségeit be lehessen építeni az elemzésekbe. Ebben az esetben a 2. amplifikációs tényezőt a PCR tényleges hatékonysága helyettesíti (ahogyan azt a standardgörbe-elemzéssel meghatározzák; lásd Assay optimalizáció és validáció).
2. egyenlet.Hatékonyság Adaptált (Pfaffl) relatív számszerűsítési modell
A hatékonysághoz igazított (2. egyenlet) relatív mennyiségi modell használatának példájaként a Cq -értékek egy csoportját a 10.2. táblázat mutatja be. A hatékonyság a GOI esetében 1,8, a ref gén esetében pedig 1,94.
Ez egy nagyon egyszerű példa egy olyan vizsgálatra, amelynek követelménye, hogy két mintában egy gén közötti hajtáskülönbséget kell mérni, egy referencia génre való normalizálás után. Az arány a GOI 2. mintában az 1. mintához viszonyított ráncolt változását mutatja, az egyetlen referencia génre történő korrekció után. Nyilvánvalóvá vált azonban, hogy egyetlen, megfelelő referenciagén kiválasztása gyakran lehetetlen, ezért a normalizáláshoz kifinomultabb megközelítéseket javasoltak.
Normalization
A legtöbb PCR-alapú kísérlet fő célja annak az alapvető kérdésnek a megválaszolása, hogy a célgén jelen van-e a mintában (ismeretlen, UNK). A legegyszerűbb szinten erre úgy kapunk választ, hogy lefuttatunk egy gélt, és megvizsgáljuk a fragmentumokat a kívánt GOI jelenléte vagy hiánya szempontjából. Ha a fragmentum jelen van, a fragmentum méretének megerősítése biztosítékot ad a pozitív eredményre. Ha azonban hiányzik, fennáll a hamis negatív eredmény lehetősége. Ezért kritikus a tesztvizsgálat megismétlése és legalább egy további PCR elvégzése, amely betöltési és pozitív PCR-kontrollként szolgál. Az univerzális, gátló kontrollvizsgálat, a SPUD (lásd Mintatisztítás és minőségértékelés) használható a negatív eredmény iránti bizalom alátámasztására. Egy alternatív megközelítés a referencia génre vagy génekre specifikus vizsgálat lefuttatása. Hagyományosan a referenciagéneket, a GAPDH-t, a 18S riboszomális RNS-t vagy a β-aktint detektáló PCR-próbákat a GOI-ra vonatkozó próbákkal együtt futtatták, és a kapott fragmentumokat gélen vizualizálták. A GAPDH, a 18S riboszomális RNS és a β aktin konstitutívan expresszálódik, ezért a szemikvantitatív elemzésekben terheléskontrollként használtuk őket. Hamarosan kiderült azonban, hogy ezek a gének nem minden sejtben ugyanabban a koncentrációban, ubiquitikusan expresszálódnak, függetlenül a kísérleti tervtől. Ezért felmerült a stabil referencia szükségessége, amikor a cél relatív nukleinsav-koncentrációk mérése volt, általában cDNS, de gDNS is, amikor például egy gén kópiaszám-variációját vizsgáljuk.
A normálás az a folyamat, amelynek során a technikai méréseket egy stabil referenciaértékre korrigáljuk a valódi biológiai variáció vizsgálata érdekében. A technikai különbségek normalizálására számos módszer létezik, ami azt jelenti, hogy az adott kísérlethez a megfelelő megközelítést kell kiválasztani és validálni7. Fontos felismerni, hogy a nem megfelelő normalizálási technikák alkalmazása károsabb lehet a teljes analitikai folyamatra nézve, mintha egyáltalán nem normalizálnánk8.
A minta minőségének hatása az Assay normalizálására
A minta integritásának és tisztaságának a qPCR és RT-qPCR célmennyiség mérésekre gyakorolt hatását hosszasan tárgyaltuk (Mintatisztítás és minőségértékelés, Minta minőségellenőrzés és Reverse Transcription, Reverse Transcription). Kimutatták, hogy a mintában lévő inhibitorok és az RNS lebomlása eltérő hatással van az adott target9 mérésére. Az inhibitorok bármelyik célpont mérésére hatással vannak, de különböző mértékben, az assay kialakításától függően. A teljes RNS degradációja hatással van az mRNS és a miRNS10 mérésére, ami ismét nagymértékben függ az általános kísérleti tervtől. Ezért kritikusan fontos figyelembe venni a templátkoncentráció hatását az RT-reakcióra és a minta minőségének hatását az adatokra a normalizálás után. A normalizálás nem ellensúlyozza a gyenge minőségű próbák vagy minták hatását (lásd Assay Optimization and Validation).
Normalizációs megközelítések
A normalizációs módszerek ellensúlyozzák a qPCR-analízis elvégzéséhez szükséges többlépéses folyamat során esetlegesen fellépő változékonyságot (10.6. ábra). A normalizálás alkalmazása a folyamat bármelyik szakaszában azonban nem biztos, hogy kontrollálja a technikai hibát és/vagy a torzítást, amelyet egy korábbi vagy későbbi szakaszban vezettek be, illetve fognak bevezetni. A normalizálási módszerek nem zárják ki egymást, ezért a kontrollok kombinációjának alkalmazása ajánlott11.
10.6. ábra.A qPCR többlépcsős folyamat, és minden egyes lépést ellenőrizni kell. A normalizálást egy sor ellenőrzésen belül kell figyelembe venni.
A normalizálás célja, hogy egy stabil referenciapontot biztosítson, amelyhez a méréseket viszonyítani lehet; ezért a normalizálási tényezőt olyan mérésnek kell kiválasztani, amely a kísérlet során végig stabil. Ez lehet stabil referencia gén(ek), vagy valamelyik alternatíva, például a sejtszám, a szöveti tömeg, az RNS/DNS-koncentráció, egy külső spike12, vagy a globálisan kifejezett gének egy reprezentatív mérőszáma.
Referencia gének kiválasztása
A referencia gének olyan célgének, amelyek mennyisége nem változik a kísérlet eredményeként. A DNS-kópiaszám-változás számszerűsítésekor, amikor az érdeklődésre számot tartó szekvencia kópiáinak száma változhat, a mérést egyszerűen normalizáljuk egy olyan alternatív genomi régió célpontjának kiválasztásával, amelyről tudjuk, hogy nem változik. Ez például a humán epidermális növekedési faktor receptor 2 (HER-2) genomiális amplifikáció13 mérésekor alkalmazható. A HER-2 genomiális instabilitása prognosztikai indikátor az emlőrákban, és a HER-2 amplifikációs státusz pontos mérése fontos a betegek kezelése szempontjából. A HER-2 státusz qPCR-rel mérhető a HER-2 kópiáinak egy másik genomiális célgénnel való összehasonlításával, amely kontrollként szolgál.
A génexpresszió mérésekor a referenciagének olyan célgének, amelyek mRNS-koncentrációja nem változik a kísérlet eredményeként. Egy példa erre egy olyan vizsgálat, amelyben az X gén expressziójára gyakorolt hatást mérjük egy mitogén vegyület sejtmonolayerhez történő hozzáadása után. Az X gén változásának méréséhez szükség van egy referenciapontra. Ezért egy másik olyan gént (vagy géneket) is mérnek, amelyről ismert, hogy nem befolyásolja a kérdéses mitogén. Ez a kutató számára azt a közvetlen kihívást jelenti, hogy találjon egy olyan mRNS-célpontot, amelyet nem befolyásol a kísérleti eljárás, mielőtt a GOI-t tanulmányozhatná. A referencia gének validálásának ez a folyamata alapvető fontosságú a GOI pontos méréséhez. A normalizálás legszélesebb körben alkalmazott megközelítése az, hogy figyelmen kívül hagyják ezt a folyamatot, és a génexpressziós adatokat egyetlen, nem validált referencia génre normalizálják. Ez a gyakorlat nem ajánlott, és szöges ellentétben áll a MIQE1 irányelveivel. Az mRNS RT-qPCR-rel történő mennyiségi meghatározását rendszeresen veszélyezteti a referenciagének helytelen kiválasztása. Nem elfogadható az a viszonylag gyakori gyakorlat, hogy azért használnak referencia gént, mert a primerek már a fagyasztóban vannak, azt korábban Northern blotokon használták, azt egy kolléga használja, vagy egy másik laboratóriumban egy másik kísérlethez használták. A referenciagéneket meghatározott kísérleti forgatókönyvek szerint kell validálni, hogy biztosak lehessünk abban, hogy a kérdéses referenciagént nem befolyásolja a kísérlet. Ha ezt a validálást nem végzik el, és a referencia gént befolyásolja a kísérlet, az eredmények helytelenek lehetnek, és a későbbi értelmezések valószínűleg értelmetlen adatokat8 eredményeznek.
Egy sor tudományos irodalom írja le a normalizálás különböző módszereit7-14 valamint publikációk sokasága írja le az adott kísérleti forgatókönyvhöz legmegfelelőbb normalizáló gének azonosításához szükséges protokollokat. Míg a múltban az volt a kulcskérdés, hogy egyetlen vagy több referencia gént válasszunk-e, az alacsonyabb üzemeltetési költségek miatt a jelenlegi legjobb gyakorlatok a több referencia gén mérése felé mozdultak el.
A stabil referencia gének kiválasztása megköveteli, hogy az elemző a qPCR stabilitását értékelje a jelölt mRNS célgének77 egy olyan mintaalcsoporton, amely a teszt és kontroll mRNS-eket képviseli. A teljes protokollt a Az útmutató A. függeléke, Protokollok, és különböző analitikai módszerekkel kombinálva használható olyan programok segítségével, mint a REST15, GeNorm14, Bestkeeper16 vagy NormFinder17. Ezt az eljárást részletesebben a következő, A referencia-gén stabilitásának elemzése című szakaszban ismertetjük.
A referencia-gén stabilitásának elemzése
A referencia-gén szó szerint a qPCR relatív mennyiségi meghatározási próbák sarkalatos pontja. Ezért az egész vizsgálat megbízhatósága szempontjából kritikus fontosságú, hogy a referenciagén stabil legyen. Ha a referenciagén expressziója a minták között változik, akkor ez a változás közvetlenül áttevődik a mennyiségi meghatározás eredményeire, és a hozzáadott változékonyság elfedheti a kívánt megfigyelhető biológiai hatást, vagy ami még rosszabb, teljesen mesterséges biológiai hatás látszatát keltheti, amely nem függ össze a ténylegesen érdekelt génnel. Ezen okokból kifolyólag erősen ajánlott több biztonsági intézkedést követni annak érdekében, hogy a referencia gén variabilitása jelentéktelenné váljon, és a biológiai hatások mérése a lehető legjelentősebb legyen.
A legfontosabb biztonsági intézkedés kétségtelenül az, hogy nem csak egy, hanem két vagy több referencia gént használjunk. Több referenciagén expressziója átlagolható, hogy a normalizálásból adódó technikai variabilitást csökkentsük. Ez hasznos lehet a kis biológiai hatások mérésénél a szignifikancia javítására. Ennél is fontosabb azonban, hogy két vagy több referenciagén kölcsönös kontrollt biztosít a fenntartott stabilitás és az olyan váratlan események ellenőrzésére, amelyek befolyásolhatják az egyik referenciagén expressziós szintjét. Egyetlen referenciagén esetén fennáll a veszélye annak, hogy a génexpresszió váratlan befolyásolása a vizsgálatban nem kerül kimutatásra.
Egy másik biztonsági intézkedés a stabil referenciagének azonosítására szolgáló több módszer alkalmazása. Az alábbi példa a referenciagének normalizálásának több szempontját szemlélteti, beleértve a geNorm és NormFinder módszerek egyazon adatkészleten való alkalmazásának lehetséges előnyét.
A 10.3. táblázat tartalmazza a referenciagén-jelöltek listáját, amelyeket egy korábban az EMBL-lel közösen tartott workshop során értékeltünk. A mintákat emberi sejtkultúrából gyűjtöttük két különböző kezelési csoportban. Ezt az adathalmazt a referenciagén-érvényesítés szempontjainak bemutatására használjuk.
A NormFinder és a geNorm algoritmusokat is azzal a feltételezéssel fejlesztettük ki, hogy a referenciagén-jelöltek sokaságának tesztelése felhasználható az egyes referenciagén-jelöltek stabilitásának rangsorolására. Ez a feltételezés igaz lehet, ha például az összes referenciagén-jelölt sztochasztikusan változik a stabil expressziós szintek körül. Ez azonban a valóságban nem feltétlenül igaz. A félrevezető eredmények elkerülése érdekében ezért célszerű elkerülni a szabályozott és különösen a társszabályozott referenciagén-jelölteket.
A referenciagén-jelöltek listáját a 10.3. táblázatban kifejezetten úgy választottuk ki, hogy olyan géneket válasszunk, amelyek különböző funkcionális osztályokba tartoznak, csökkentve annak esélyét, hogy a gének együtt szabályozottak legyenek. Figyelemre méltó kivétel a GAPDH, amely itt két változatban szerepel. Bár ez nem befolyásolja ezt az elemzést, a legjobb gyakorlat az, ha elkerüljük az olyan gének többszörös bejegyzését, amelyeknél felmerülhet a gyanú, hogy együtt szabályozottak.
Az első bemutatásra kerülő algoritmus a geNorm. Ez a génstabilitás értékelését biztosítja egy M-értéknek nevezett génstabilitási mérték kiszámításával, amely az elemzett referencia-génjelölt és az adathalmazban lévő összes többi referencia-génjelölt közötti páronkénti összehasonlításon alapul. Az eljárás iteratív módon történik, ami azt jelenti, hogy ebben a példában az eljárást először mind a 15 referenciagén-jelöltre elvégezzük, a legkevésbé stabilat eltávolítjuk, a folyamatot megismételjük a maradék 14-en, a második legkevésbé stabil jelöltet eltávolítjuk, és így tovább, amíg két referenciagén nem marad.
Elképzelhető, hogy a legstabilabb referenciagén azonosítása különösen nagy kihívást jelent. Az egyik eset lehet, amikor az összes referenciagén-jelölt rosszul teljesít. Egy másik eset lehet, ha az összes referencia génjelölt jól teljesít. E két eset megkülönböztetésére hasznos iránymutatás, hogy a 0,5 alatti M-értékkel rendelkező referenciagének stabilan kifejezettnek tekinthetők.
A második bemutatandó algoritmus a NormFinder, amely egy szabadon hozzáférhető referenciagén-elemző csomag (B. függelék, További források). Az alapul szolgáló algoritmus ANOVA-szerű megközelítést alkalmaz a referenciagén stabilitásának értékelésére, amennyiben a teljes és az alcsoportok variációit elemezzük. Ennek egyik előnye, hogy a kapott mértékek közvetlenül a génexpressziós szintekhez kapcsolódnak. Egy 0,20 Cq egységnyi standard eltérés tehát körülbelül 15%-os variációt jelent az adott referencia génjelölt kópiaszám-expressziós szintjében.
A könnyebbség kedvéért ebben a bemutatóban mindkét elemzőcsomagot a GenEx (MultiD) adatelemző szoftverrel érjük el, de független csomagként is elérhetőek (B függelék, További források).
A 10.7. ábrán látható oszlopdiagramok mindkét algoritmus segítségével a stabilitási mértékük szerint rangsorolt referenciagéneket szemléltetik. Emellett a NormFinder által felhalmozott standard eltérést mutató grafikon azt jelzi, hogy akár a három legjobb referencia gén kombinációja is stabilitásjavulást eredményezhet.
10.7. ábra.A stabilitási intézkedéseket bemutató oszlopdiagramok: M-értékek a geNorm esetében és standard eltérések a NormFinder esetében. Ezenkívül a NormFinder felhalmozott standard eltérését mutató grafikon azt jelzi, hogy a három legjobb referencia gén kombinációja stabilitásjavulást eredményezhet. Az adatsort a 10.3. táblázatban bemutatott referencia génjelöltekhez tervezett és két különböző kezelési csoportban emberi sejtkultúrán mért vizsgálatokból állították elő. Vegyük észre, hogy ebben az esetben a geNorm és a NormFinder referenciagén-stabilitási algoritmusok nem értenek egyet a legjobb referenciagének kiválasztásában.
10.8. ábra.A referencia génjelöltek átlagos, központosított expressziós profilja a két mintában az egyes kezelési csoportokban. Az 1. és 2. minta az első kezelési csoportba, a 3. és 4. minta pedig a második kezelési csoportba tartozik. Az SDHA és a CANX expressziós profiljai pirossal vannak jelölve. Az UBC expressziós profilja sárgával van jelölve. A táblázat az adatsorban mért Cq-értékeket sorolja fel.
Az eltérő expressziós profilok miatt lehetséges, hogy az SDHA-t és a CANX-et a különböző kezelési alternatívák szabályozzák, és ezért nem alkalmasak referenciagéneknek. Ezek eltávolítása az adathalmazból és az elemzés megismétlése azt eredményezi, hogy a két algoritmus között egyetértés van, és hogy a legjobb választás referenciagénnek az EIF4A2 és az ATP53 (10.9. ábra). A NormFinder kumulált standard eltérések számításánál szintén látható, hogy több referencia gén hozzáadása nem javítja a stabilitást.
10.9. ábra.Az expressziós profilok és a mért Cq-értékek (10.8. ábra) vizsgálata aggodalomra adott okot, hogy az SDHA és a CANX az alkalmazott vizsgálatban együttesen szabályozottak lehetnek. A társszabályozás megzavarhatja a referencia gén stabilitási algoritmusait. A stabilitási méréseket bemutató oszlopdiagramok: A) M-értékek a geNorm és B) standard eltérések a NormFinder esetében. Az adatsor megegyezik a 10.8. ábrán használt adatsorral, kivéve, hogy az SDHA és CANX adatait eltávolítottuk. Vegyük észre, hogy ezzel a csökkentett adathalmazzal a geNorm és a NormFinder referencia-gén stabilitási algoritmusok megegyeznek a legjobb referencia-géneket illetően.
Az adatok elemzése ebben a példában annak illusztrálására szolgál, hogy a geNorm és a NormFinder párhuzamos használata lehetővé teszi az együtt szabályozott referencia génjelöltek azonosítását, és hogy e gének eltávolítása a további vizsgálatokból a referencia gének végleges azonosítását biztosítja, amelyek nagyobb biztonsággal fogadhatók el, mint az egy elemzést követően. A stabil referenciagének azonosítása és kiválasztása nagyobb biztonságot nyújt az adatelemzésben.
Alternatív normalizálási módszerek
Bár a referencia-génekre történő normalizálás a legelterjedtebb módszer a vizsgálat normalizálására, vannak olyan helyzetek, amikor ez a megközelítés nem megfelelő, például ha heterogén mintacsoportban nagyszámú gént kell összehasonlítani, vagy ha miRNS-profilok készítése esetén. Ezekben az esetekben alternatív stratégiát kell alkalmazni.
Normalizálás szövettömegre vagy sejtszámra
A sejtek számának vagy szövettömegének normalizálási tényezőként történő mérése nem olyan egyszerű, mint amilyennek elsőre tűnik. A sejttenyésztési kísérleteket viszonylag könnyen lehet a sejtszám alapján normalizálni. A kezelés hozzáadása azonban hatással lehet a sejtmorfológiára, ami megnehezíti a sejtszám és az összes RNS/exprimált gének arányát a kontrollkultúrával összehasonlítva. A kísérleti kezelés extra sejtmátrix termelődését eredményezheti, ami különbséget okozhat a nukleinsav extrakció hatékonyságában.
A biológiai szövetek nagyon heterogének lehetnek a vizsgálati alanyokon belül és azok között, és nagyobb eltérés mutatkozik, ha az egészséges szövetet beteg szövetekkel hasonlítjuk össze. Még a látszólag kevésbé összetett szövetek, mint például a vér, is jelentősen eltérhetnek a sejtek száma és összetétele tekintetében, így a génexpresszió jelentősen eltérhet a látszólag egészséges donorok között18.
A nukleinsav tisztítására használt eljárásokban bekövetkező bármilyen késedelem a mért RNS-ben változásokat eredményez. Például a perifériás vér mononukleáris sejtjeinek feldolgozásában és a sejtekből történő RNS kivonásában bekövetkező késedelmek jelentős változásokat eredményeznek a génexpresszióban19. Az extrakciós eljárások alapjául szolgáló módszerek szintén a technikai eltérések fő forrásai. Még a vérből származó sejtek mintavételéhez választott izolációs eljárás és az RNS-tisztítás is eltéréseket eredményez a látszólagos génexpressziós profilokban20. Ezért az első normalizálási szempont annak biztosítása, hogy a gyűjtés és a feldolgozás minden minta esetében teljesen azonos legyen. Ezután kritikus fontosságú, hogy elegendő minőségellenőrzést végezzünk, hogy biztosak legyünk a minta koncentrációjában, integritásában és tisztaságában (Mintatisztítás és minőségértékelés és a kapcsolódó protokollok a Appendix A).
Normalizálás az RNS-koncentrációra
Minimumként fontos a templátkoncentráció (DNS a qPCR esetében vagy RNS az RT-qPCR esetében) becslése, és ahogyan azt a Mintatisztítás és minőségértékelés, kritikus fontosságú, hogy minden méréshez ugyanazt a műszert használjuk, mivel a nukleinsavkoncentráció meghatározása is változó és technikafüggő.
A teljes RNS-koncentráció mérésekor a minta túlnyomó többsége rRNS-ből áll, és csak kis hányadát teszi ki a génexpresszió vizsgálatakor az érdeklődésre számot tartó mRNS, illetve a génexpresszió szabályozásának vizsgálatakor az sncRNS. Ez azt jelenti, hogy ha az rRNS-koncentráció kis mértékben megnő, de az mRNS állandó marad, a teljes RNS-koncentráció növekedni fog. Az mRNS-koncentrációnak jelentős mértékben kell növekednie ahhoz, hogy a teljes RNS-koncentráció látszólagos növekedését okozza. Ezért az rRNS-koncentráció az mRNS-koncentráció megbízhatatlan mérőszáma, de számos protokoll esetében azonos RNS-koncentrációra van szükség a pontos reverz transzkripció biztosításához (lásd Reverse Transcription).
Normalizáció a globális génexpresszióra
A nagyszámú célpont mérésekor az elemző megbecsülheti a teljes génexpresszió globális átlagát, és azonosíthatja az ettől az átlagtól eltérő szabályozott RNS-szekvenciákat. Ezt a megközelítést hagyományosan a génexpressziós tömbök normalizálására használják. Ez értékes alternatívája a referenciagének használatának, és előnyösebb lehet, ha sok célpontot mérünk.
Egy másik, nemrégiben felfedezett megközelítés az endogén módon kifejezett ismétlődő elemek (ERE) mérése, amelyek sok mRNS-ben vannak jelen. Számos faj tartalmaz ilyen ismétlődő elemeket (ALU főemlősökben, B elemek egerekben), amelyek az mRNS-frakció becslését adhatják. Ezeknek a célszekvenciáknak a mérése bizonyítottan úgy működik, mint a hagyományos normalizáló rendszerek9 (Le Bert, et al., előkészületben), és univerzális megoldást vagy alternatívát kínálhat olyan komplex kísérletekhez, ahol nem állnak rendelkezésre stabil referencia-gén kombinációk.
A miRNS adatok normalizálása
Most még nem számoltak be egy miRNS univerzális referencia génről. Ezért a normalizálási rendszer kiválasztása még mindig meglehetősen empirikus. Ha lehetséges, stabil invariáns miRNS-eket lehet azonosítani genom-szintű megközelítésekből, azaz mikrotáblákból. A kis nukleoláris RNS-eket (snoRNS-ek) szintén használták referencia génként. A globális génexpresszió szintén hasznos módszer a miRNS-expresszió normalizálására, ha a stabil referencia nem ismert, és több száz célpontot elemeztek21,22,23. Ez a módszer inkább azok számára megfelelő, akik olyan megközelítéseket alkalmaznak, amelyek az összes miRNS cDNS-ként történő befogását eredményezik multiplex formában, pl, Exiqon és miQPCR rendszerek (lásd Castoldi et al. in PCR Technologies, Current Innovations24).
Biológiai és technikai replikák
A normalizálás célja a szisztematikus hibák elkerülése és az adatok variabilitásának csökkentése az esetleges statisztikai elemzéshez. Az adatok statisztikai elemzéshez való beállításának másik fontos szempontja az adatismétlések használata.
A biológiai ismétlések feltétlenül szükségesek a statisztikai elemzéshez. A statisztikai szignifikanciaszinteket gyakran 5%-os szignifikanciahatárnál állapítják meg. Az ilyen szignifikancia-szinthez közeli biológiai hatások esetében legalább 20 biológiai ismétlés szükséges lehet a vizsgálatok szignifikancia-szintjének meghatározásához (1:20 megfelel az 5%-nak). Valójában azt javasolták, hogy a szignifikancia pontos becsléséhez legalább 50-szer annyi megfigyelést kell rögzíteni, mint amennyi a szignifikancia25, azaz ezer biológiai minta nagyságrendű. Természetesen a gyakorlati korlátok ritkán teszik lehetővé ilyen szintű biológiai ismétléseket. Továbbá az adott szignifikancia-szint eléréséhez szükséges biológiai ismétlések számának pontos becslése az adatok variabilitásának szintjétől is függ. Mindazonáltal fontos felismerni, hogy gyakori hiba a megbízható következtetések levonásához szükséges biológiai ismétlések számának alábecslése. Ajánlatos egy kezdeti kísérleti vizsgálatot végezni a vizsgálat eredendő változékonyságának és a megfigyelhető biológiai hatás potenciális méretének értékelésére, hogy jó alapot kapjunk a szükséges biológiai ismétlések számának becsléséhez26.
A technikai ismétléseket nem használjuk közvetlenül a statisztikai elemzéshez. Ehelyett a technikai ismétléseket a minták biztonsági mentésére (arra az esetre, ha néhány minta elveszne a technikai kezelési folyamat során) és az adatok pontosságának jobb értékelésére használják. A technikai ismétlések javíthatják az adatok pontosságát, ha igaz az a feltételezés, hogy a technikai kezelési folyamat minden egyes szakaszában sztochasztikusan változnak a pontos mérés körül. A technikai ismétlések átlaga közelebb áll a pontos méréshez. A technikai ismétlések átlagolásának hatását úgy lehet szemléltetni, hogy egy szimulált adathalmazban egy előre meghatározott változékonysággal, azaz egy egységnyi szórással rendelkező szimulált adathalmazban megfigyeljük a konfidenciaintervallum méretét. Amint az 10.4. táblázatban látható, a technikai ismétlések (minták) számának növekedésével a konfidenciaintervallum kisebb lesz, ami a pontos mérés pontosabb becslését jelzi. Továbbá a konfidenciaintervallum szűkülése a technikai ismétlések alacsony számánál a legdrámaibb. A replikák számának 2-3-ról történő növelése a konfidenciaintervallumot 8,99-2,48-ról csökkenti, azaz a pontos mérés becslésének pontossága több mint háromszorosára javul. Bár a további ismétlések továbbra is javítják a mérési pontosság becslését, a hatás csökkenő mértékű. Ezért nyilvánvaló, hogy azokban az esetekben, ahol a technikai kezelési variabilitás problémát jelent, nagy előnyt jelenthet a háromszorosok használata a duplikátumok helyett.
Technikai ismétlések a mintakezelési folyamat több szakaszában is gyűjthetők, beleértve az RNS extrakciót, a reverz transzkripciót és a qPCR detektálást. Ha a technikai ismétléseket több szakaszban észlelik, akkor egy egymásba ágyazott kísérleti terv jön létre. Egy olyan kísérleti vizsgálat, amely kihasználja a beágyazott kísérleti terv előnyeit, segíthet azonosítani azokat a mintakezelési szakaszokat, amelyek a leginkább hozzájárulnak a technikai kezelési hibákhoz, és ezen információk alapján optimális mintavételi terv számítható ki27.
Statisztikai elemzés és adatvizualizáció
A biológiai adatok tudományos elemzésének középpontjában a hipotézisek megfogalmazása és tesztelése áll. A hipotézis megfogalmazásához a vizsgálat körülményeinek és változóinak részletes ismerete szükséges. A hipotézis sikeres tesztelése gondos végrehajtást és megfelelő kísérleti tervezést igényel a kívánt megfigyelhető jel maximalizálása és a technikai variabilitás minimalizálása érdekében. Ebben az összefüggésben hasznos különbséget tenni a feltáró és a megerősítő vizsgálatok között (10.10. ábra).
10.10. ábra.Folyamatábra, amely a feltáró és megerősítő statisztikai elemzések műveleteit szemlélteti. Az ábra bal oldala, a szaggatott nyíl előtt, a feltáró statisztikai vizsgálat műveleteit mutatja. Az ábra jobb oldala a szaggatott nyíl után a megerősítő statisztikai vizsgálat műveleteit mutatja.
A feltáró vizsgálat célja az adatok elemzése egy vagy több különböző technikával egy hipotézis alátámasztása érdekében. Az adatkészletet újra lehet definiálni és/vagy különböző elemzési technikákat lehet ismételten alkalmazni egy vagy több hipotézis alátámasztása érdekében. A feltáró vizsgálat tehát nagyon rugalmasan alkalmazkodik bármely tudományos kérdés sajátosságaihoz. Az egy adatsoron végzett hipotézisvizsgálat ismételt szondázása azonban olyan problémákhoz vezethet, amelyek aláássák a statisztikai következtetéseket. Ennek oka a többszörös tesztelés, amely arra utal, hogy egy több független hipotézissel végzett statisztikai teszt nagyobb valószínűséggel ad pozitív szignifikanciát, és ennek esélye a további hipotézisek tesztelésével nő, még akkor is, ha az alapul szolgáló valószínűségi eloszlások azonosak. A félrevezető statisztikai eredmények elkerülése érdekében ezért a feltáró vizsgálatot gyakran kombinálják egy megerősítő vizsgálattal.
A megerősítő vizsgálat követelményei sokkal szigorúbb statisztikai kritériumokon alapulnak. Először is, az adatgyűjtés és az elemzés előtt meg kell határozni a vizsgálat hipotézisét, beleértve a szignifikancia kritériumait is. Ezenkívül az elemzésre szánt adathalmazt kizárólag erre a célra kell gyűjteni. Statisztikailag helytelen a feltáró vizsgálatból származó adathalmazt újra felhasználni a megerősítő vizsgálatban, mivel ez az adathalmaz természeténél fogva a javasolt hipotézisnek kedvezne. A megerősítő vizsgálat végeredménye egy elutasított vagy elfogadott hipotézis az előre meghatározott kritériumoknak megfelelően.
Statisztikai tesztek
A statisztikai tesztek esetében annak valószínűségét elemzik, hogy egy megfigyelt jelenség véletlenszerűen következett be. Ezt nevezzük nullhipotézisnek28. Ha a megfigyelt jelenség a nullhipotézis szerint ritka, akkor a következtetés az, hogy nem valószínű, hogy a nullhipotézis érvényes. A nullhipotézist elvetjük, és elfogadjuk az alternatív hipotézis szignifikánsnak tekintett valószínűségét.
A becsült valószínűséget, hogy a megfigyelt jelenség véletlenszerűen következett be, nevezzük p-értéknek. A p-értéket 0 és 1 közötti tartományban, vagy ennek megfelelően százalékos egységekben mérik. A megerősítő vizsgálat statisztikai kritériumai között szerepel egy alfa határérték, amely alatt a számított p-értékek szignifikanciát jeleznének a megfigyelt jelenségre vonatkozóan. Általában 5%-os alfa-határértéket használnak, bár ezt a vizsgálat tárgyára jellemző kívánt és szükséges kritériumokhoz kell igazítani.
Sok algoritmust fejlesztettek ki a p-értékek kiszámítására különböző feltételezések mellett és különböző célokra. Egy gyakori algoritmus a Student-féle t-próba. A Student's t-próbát arra használják, hogy kiszámítsák a p-értéket két adatcsoport átlagértékeinek különbsége alapján. A Student's t-próba fő feltételezése, hogy a két adatcsoport független és megfelel a normál eloszlásnak. A Student-féle t-próba előnye, hogy a nem parametrikus statisztikai tesztekkel29 összehasonlítva nagy teljesítményű. A Student's t-teszttel egyenértékű nemparametrikus teszt lehet az egyik legismertebb nemparametrikus statisztikai teszt; a Wilcoxon rank-sum teszt (néha Mann-Whitney U-tesztnek nevezik; nem tévesztendő össze a Wilcoxon signed-rank teszttel, amelyet két párosított csoport összehasonlítására használnak). A nem parametrikus statisztikai tesztek, mint például a Wilcoxon-rangsum-teszt, előnye a parametrikus statisztikai tesztekkel, például a Student-féle t-teszttel szemben, hogy nem függnek az adathalmazok eloszlására vonatkozó előzetes feltételezésektől. A Kolmogorov-Smirnov normáleloszlásra vonatkozó tesztje segítségével eldönthető, hogy a Student's t-tesztet vagy valamelyik nem parametrikus tesztet alkalmazzuk-e
Az algoritmus kiválasztásán túlmenően a p-érték számítási algoritmusba betáplált adathalmazok manipulálhatók az adathalmazban kívánt tulajdonságok megfigyelésének megkönnyítése érdekében. A nyers adatok manipulációs lépéseinek és a pérték-számítási algoritmus kiválasztásának kombinációja a hipotézismodell építésének része.
A statisztikai elemzés feltáró szakaszában a hipotézismodellek építése nagyfokú szabadságot élvez, és ez a tudományos vizsgálat fontos részét képezi. Egy hipotézist azonban soha nem lehet tudományos, statisztikai megközelítéssel bizonyítani. A helyes tudományos megközelítés a nullhipotézis megfogalmazása, egy független (lehetőleg újonnan gyűjtött) adatsor felhasználása, és a nullhipotézis elfogadása vagy elutasítása a megerősítő vizsgálat folyamatábrája szerint (10.10. ábra).
Vizualizációs technikák az egyváltozós elemzéshez
Amint ahogyan számos elemzési módszer áll rendelkezésre, úgy számos adatvizualizációs technika is létezik, amelyek közül választhatunk. Az egyváltozós adatelemzéshez megfelelő vizualizációs technika egy egyszerű oszlopdiagram a hozzá tartozó hibasávokkal. Bár ez egy gyakori és egyszerű vizualizációs technika, vannak olyan kérdések, amelyeket érdemes kiemelni. Először is, a hibasávok a változékonyság különböző forrásait szemléltethetik; az adatok eredendő változékonyságát (a szórás, SD) vagy az átlagérték meghatározásának pontosságát. Másodszor, a pontosság, amellyel az átlagértéket meghatározták, különböző módon szemléltethető, de végső soron az adatok eredendő változékonyságának és a minták számának (N) kombinációjától függ, és nyers formában az átlag standard hibájának (SEM, 1. egyenlet) nevezik:
1. egyenlet. SEM
A SEM azonban nem túl intuitív mérőszám, és nem egyszerű a különböző kísérletekből származó SEM-ek értelmes összehasonlítása. A becsült átlag pontosságának szemléltetésére és a statisztikai szignifikancia grafikus módon történő jelzésére népszerűbb módszer a konfidenciaintervallum (CI, 2. egyenlet):
10-2. egyenlet.Cl
A SEM jelenléte felismerhető a konfidenciaintervallumra vonatkozó egyenletben, mint a standard eltérés (SD) és a minták számának (N) négyzetgyökének hányadosa, és így nyilvánvaló, hogy a konfidenciaintervallum a SEM-en alapul. A konfidenciaintervallum alsó határa úgy épül fel, hogy a t-eloszlás egy percentilisével megszorzott SEM-et kivonjuk az átlagból. A megbízhatósági intervallum felső határa úgy épül fel, hogy hozzáadjuk a t-eloszlás egy percentilisével megszorzott SEM-et az átlaghoz. A megbízhatósági intervallum megbízhatósági szintjét a t* kritikus értékhez tartozó megbízhatósági szint határozza meg; jellemzően egy 95%-os megbízhatósági szint.
A 10.11. ábra egy oszlopdiagramot mutat a 95%-os megbízhatósági intervallumot jelölő hibasávokkal az egyes kísérleti csoportokon belül, kiemelve az átlagos becsléshez kapcsolódó bizonytalanságot egy példában szereplő génexpresszióra vonatkozóan különböző szervekből származó mintákban, több gyógyszeradaggal történő kezelés után. Ezenkívül a t-próba statisztikai szignifikancia p-értékei is láthatóak a kontrollminták és a különböző gyógyszeradagokra adott válaszokból származó három különböző minta közötti génexpresszió különbségére vonatkozóan, csillaggal jelölve. Szokás, hogy egy csillag a 0,05 alatti p-értéknek, két csillag a 0,01 alatti p-értéknek és három csillag a 0,001 alatti p-értéknek felel meg.
10.11. ábra.Az érdeklődésre számot tartó gén hajtási változása (log2) egy referencia-génpárhoz viszonyított expressziója, a legalacsonyabb expressziójú mintában mért expresszióhoz viszonyítva az egyes szervtípusokon belül. A sávok magassága a gén átlagos expresszióját jelzi több mintában a kezeletlen (0. dózis) minták csoportjaiban vagy a három különböző gyógyszerdózis (1. dózis, 2. dózis és 3. dózis) egyikével kezelt mintákban. A hibasávok az átlagos kifejeződések 95%-os konfidenciaintervallumának becslését jelzik. Egy csillag jelzi a kezelt mintacsoport átlagai közötti statisztikailag szignifikáns különbséget a nem kezelt mintacsoport átlagához képest 5%-os; két csillag jelzi a statisztikailag szignifikáns különbséget 1%-os; három csillag jelzi a statisztikailag szignifikáns különbséget 0,1%-os.
Mivel a csillag jelölés elrejti a p abszolút értékét, gyakran javasolt egy táblázatot mellékelni a p, amint azt a 10.5. táblázat példája mutatja. Ennek egyik oka, hogy egy p-érték, például 0,032, csak valamivel "szignifikánsabb", mint egy p-érték, amely 0,055. Az ilyen határesetek némi zavart okozhatnak annak eldöntésekor, hogy pontosan milyen határértéket használjunk az adatok szignifikánsnak minősítésekor. Reális esetekben egy p 0,051 érték ugyanolyan szignifikáns lehet, mint egy p-értéke 0,049, mégis egy szigorú (bár alapvetően önkényes) 0,05-ös határérték az egyiket szignifikánsnak, a másikat pedig nem szignifikánsnak minősítené.
Az oszlopdiagram ábrázolásának van azonban egy olyan változata, amely kihasználja az átlagok közötti különbség konfidenciaintervallumát, hogy elkerülje a hagyományos oszlopdiagramok24 sok, ha nem is az összes hátrányát. Az átlagok közötti különbség konfidenciaintervallumával közvetlenül megbecsülhető a statisztikai szignifikancia a hozzá tartozó hibasávokkal, ugyanakkor kiemelhető a biológiai hatás nagysága és az adatok variabilitása. A 10.12. ábra a 10.11. ábrán használt adatok átlagok közötti különbség konfidenciaintervallumával készült változatot mutatja. Vegyük észre, hogy az olyan konfidenciaintervallumok, amelyek nem foglalják magukban az átlagok közötti nulla különbséget, szignifikáns eredményeknek felelnek meg a p-érték határértéknek megfelelő konfidencia-szinten (5% a 10.11. ábra és 10.5. táblázatban).
10.12. ábra.A 10.11. ábra adatsorában a kezeletlen mintacsoport (0. dózis) és a kezelt mintacsoportok (1. dózis, 2. dózis vagy 3. dózis) átlagai közötti különbséget bemutató oszlopdiagram. A hibasávok az átlagok közötti különbség konfidenciaintervallumát mutatják. Az x-tengelyt nem keresztező hibasávok azt jelzik, hogy a megfelelő átlagok összehasonlítása t-próba esetén 5%-os statisztikai szignifikanciával bír. PCR technológia, aktuális innovációk-3. kiadás: Taylor and Francis Group LLC Books. Reprodukálva a Taylor and Francis Group LLC Books engedélyével a Copyright Clearance Center-en keresztül könyvben/e-könyvben történő újrafelhasználás formátumában.
A többváltozós adatok az egyes mintavételi egységekre vonatkozóan több változóra vonatkozóan gyűjtött adatok. A 10.11 és 10.12 ábrákon használt adatok többváltozósak, mivel olyan változóktól függnek, mint a dózis és a szerv típusa. A 10.11 és 10.12 ábrákon szereplő statisztikai elemzések azonban mindazonáltal egyváltozósak, mivel minden egyes ábrázolás (sáv) csak egy változót, a génexpressziót szemlélteti a többi változó fix mérőszámaihoz viszonyítva. A többváltozós adatelemzési technikák esetében a hierarchikus klaszterezés és a főkomponens-elemzés jó lehetőség az adatok ábrázolására.
Hierarchikus klaszterezés
Az adatok jellemzésének egyik legegyszerűbb és hasznos módszere az adatok szórásdiagramban történő ábrázolása (például a mért C<q -értékeit egy gén és egy másik gén megfelelő Cq -értékei között egy sor biológiai minta esetében egy 2D-s plotban). Az egy vagy két dimenzióban készült ábrák az emberi szem számára kényelmesen szemléltethetők. Megfelelő eszközökkel háromdimenziós ábrák is lehetségesek, de a magasabb dimenziós ábrák lényegesen nehezebben vizualizálhatók. Feltáró vizsgálatok esetében azonban az adathalmaz természeténél fogva többdimenziós, és így a teljes adathalmazok szórásdiagramjai kivitelezhetetlenné válhatnak. Egy qPCR-adatkészletből például több gén és/vagy többféle biológiai minta reprezentálódhat.
A feltáró vizsgálatokból származó adatok jellemzésére és vizualizálására egy népszerű, alternatív módszer a szórásdiagramban az adatpontok közötti távolságok mérőszámainak elemzése. Különböző távolságmérések léteznek, többek között az euklideszi, a manhattani és a Pearson-korrelációk. Számítási teljesítmény esetén a távolságok kiszámítása egyszerű, még a három dimenziónál jóval nagyobb dimenziójú többdimenziós adatok esetében is. Agglomeratív hierarchikus klaszterezés esetén a következő iteratív folyamatot hajtjuk végre: 1) Keressük meg a két legközelebbi objektumot, és egyesítsük őket egy klaszterbe; 2) Az új klasztert új objektumként definiáljuk egy klaszterezési módszerrel; 3) Ismételjük az 1) pontból, amíg az összes objektumot klaszterbe30 nem egyesítettük. A klaszterezési módszerek alternatívái közé tartozik a Ward-módszer, az egyszeri összekapcsolás és az átlagos összekapcsolás31. A hierarchikus klaszterezés eredményeinek vizualizálására gyakran használnak dendrogramot.
A qPCR-adatok hierarchikus klaszterezési dendrogramjainak értelmezése gyakran vezet a génexpressziós profilok hasonlóságára vonatkozó következtetésekhez. Egy feltáró vizsgálatban ezek a hasonlóságok aztán felhasználhatók a génexpressziós koregulációra vonatkozó hipotézisek megfogalmazására, amelyeket a későbbi megerősítő vizsgálatokban el lehet fogadni vagy el lehet vetni. A hierarchikus klaszterezési dendrogramok előnyei közé tartozik a hasonlósági kapcsolatok vizualizálásának egyértelműsége. Másrészt a hasonlósági mértékek erős hangsúlyozása a hipotézisek megfogalmazása tekintetében korlátozónak tekinthető, mivel a hasonló expressziós profilok a hipotézisekben redundáns attribútumok lehetnek. A kívánt hipotézis megválaszolásához nagyobb értéket képviselhet az olyan expressziós profilok halmazainak azonosítása, amelyek meghatározott kombinációban kiegészítik egymást.
Principális komponenselemzés
A feltáró vizsgálatokból származó adatok jellemzésének és vizualizálásának másik népszerű, alternatív módja a teljes, többdimenziós adathalmazban található információk kihasználása, a kívánt tulajdonságok kiválasztása és kivetítése egy alacsonyabb dimenziójú szórásdiagramra, például 2D vagy 3D ábrára. Ezt a főkomponens-elemzés (PCA)32,33,34,35 segítségével lehet elérni. Itt az adathalmaz eredeti koordinátarendszerét (azaz a qPCR-rel mért expressziós profilokat) egy új többdimenziós térbe transzformáljuk, ahol új változókat (főkomponensek: PC vagy faktorok) konstruálunk. Minden PC az eredeti adathalmazban szereplő alanyok lineáris kombinációja. A matematikai definíció szerint a PC-ket a fontosságuk szerinti sorrendben vonják ki. Ez azt jelenti, hogy az első PC magyarázza az adatokban jelen lévő információ (variancia) legnagyobb részét, a második kevésbé, és így tovább. Ezért az első két vagy három PC-koordinátát (pontszámnak nevezve) fel lehet használni a teljes adathalmaz egy kényelmesen kis dimenzióra történő vetítésére, amely alkalmas a 2D vagy 3D ábrázolásra. Ha az első két vagy három PC-t használjuk a reprezentációhoz, akkor azt a vetületet kapjuk, amely a legtöbb variabilitást figyelembe veszi az adathalmazban. A kísérlettervezési körülményekből eredő variancia várhatóan szisztematikus, míg a zavaró variancia várhatóan véletlenszerű, így ez a reprezentáció megfelelő körülmények között kívánatos lehet.
Amint korábban a hierarchikus klaszterezésnél már említettük, a qPCR PCA értelmezése gyakran a génexpressziós profilok hasonlóságára vonatkozó következtetéseket eredményez. Bár a PCA és a hierarchikus klaszterezés egymást kiegészítő betekintést nyújthat a génexpressziós társszabályozási mintázatokba, mindkét technika a génexpressziós profilok hasonlóságaira összpontosít. Ez korlátozza a hipotézisek azon típusait, amelyek az e technikákat önmagukban használó feltáró vizsgálatokban megtalálhatók. A feltáró vizsgálatokban generált hipotézisek hatókörének kiterjesztésére nemrégiben javasolták a többváltozós elemzés hipotézisvezérelt megközelítését24. A hipotézisvezérelt, egyedi tervezésű algoritmusok olyan biológiailag releváns hipotéziseket azonosíthatnak, amelyeket egyébként a többváltozós adatelemzésre általánosan használt technikák esetleg kihagynának.
Az olvasás folytatásához jelentkezzen be vagy hozzon létre egy felhasználói fiókot.
Még nem rendelkezik fiókkal?