Přejít k obsahu
Merck
DomůqPCRAnalýza dat PCR/qPCR

Analýza dat PCR/qPCR

A Technical Guide to PCR Technologies

Kvalitativní analýza dat PCR/qPCR

Po dokončení tradiční PCR se data analyzují rozlišením přes agarózový gel nebo nověji přes systém kapilární elektroforézy. U některých aplikací se provede qPCR s koncovými daty, která se použijí pro analýzu, například pro genotypizaci SNP. V každém případě data z koncového bodu poskytují kvalitativní analýzu poté, co PCR dosáhne fáze plateau. V některých případech může být možné analyzovat data koncového bodu a provést semikvantitativní analýzu výtěžnosti PCR, ale kvantitativní měření se častěji provádí pomocí qPCR a analýzy hodnot kvantifikačního cyklu (Cq)1 hodnot.

Analýza dat qPCR

V celé této příručce jsou zdůrazněny faktory, které přispívají k odchylkám při měření nukleových kyselin pomocí PCR nebo qPCR. Každý z těchto faktorů by měl být optimalizován tak, aby výsledkem byla analýza, která poskytuje co nejbližší hodnotu skutečnému množství genu (cíle) v reakci. Výsledkem těchto postupů je vytvoření souboru hodnot Cq  pro každý cíl v každém vzorku. Proces odvození a analýzy těchto hodnot Cq za účelem získání spolehlivých údajů, které představují biologický příběh, je uveden v této kapitole.

Vyvození přesných hodnot Cq 

Podrobněji viz kapitola 2.1./h2>

Oprava základní linie

Pro každý cíl v každém vzorku se stanoví hodnota Cq . Různé analytické balíčky, které jsou spojeny s různými přístroji, mají alternativní přístupy ke stanovení Cq  (a také používají alternativní názvy, např. Ct, Cp, take off point). Zabývat se jemnými detaily všech těchto algoritmů je nad rámec této příručky. Měření qPCR, která jsou založena na amplifikačních křivkách, jsou však citlivá na fluorescenci pozadí. Fluorescence na pozadí může být způsobena řadou faktorů, mezi něž patří výběr plastového nádobí, zbývající fluorescence sondy, která není zhasnuta, světlo pronikající do jamky se vzorkem a rozdíly v optické detekci pro danou jamku mikrotitrační destičky. V dobře navržených testech je pozadí ve srovnání s amplifikovaným signálem nízké. Rozdíly v signálu pozadí však mohou bránit kvantitativnímu srovnání různých vzorků. Proto je důležité korigovat změny fluorescence pozadí, které způsobují rozdíly v základní linii (obrázek 10.1).

Složky zesilovacích diagramů

Obrázek 10.1Složky zesilovacích ploch. Tento graf ukazuje nárůst fluorescence s počtem cyklů pro různé vzorky. Práh je nastaven nad detekčním limitem, ale výrazně pod fází plateau, během níž se rychlost amplifikace zpomaluje.

Běžným přístupem je použití intenzity fluorescence během prvních cyklů, například mezi cykly 5 až 15, k identifikaci konstantní a lineární složky fluorescence pozadí. Ta je pak definována jako pozadí nebo základní linie pro amplifikační graf. Vzhledem k přechodným jevům je vhodné se při definování základní linie vyhnout několika prvním cyklům (např. cyklům 1 až 5), protože se v nich často projevují artefakty stabilizující reakci. Čím více cyklů se použije pro korekci základní linie, tím lepší je potenciální přesnost lineární složky variací základní linie. Mnoho softwarových balíčků pro přístroje umožňuje ruční nastavení cyklů, které se mají brát v úvahu pro definici základní linie. Tyto funkce by měl uživatel prozkoumat a důrazně se bránit pokušení přijmout výchozí nastavení.

Příklad vlivu nastavení základní linie je uveden na obrázku 10.1. Jak je vidět, hodnoty Cq a zdánlivý tvar grafu zesílení jsou ovlivněny přesným nastavením základní linie. V příkladu byla základní linie pro křivku označenou C3 nesprávně nastavena ručně, takže základní linie cyklů se vypočítává z údajů v cyklech 5 až 31. V tomto případě je základní linie nastavena ručně. To způsobí, že křivka vyfoukne nulovou úroveň základní linie (obrázek 10.2A) s hodnotou Cq 28,80. V tomto případě se křivka ponoří do nulové úrovně základní linie. Pro opravu se zobrazí surová data R a identifikuje se poslední cyklus lineárního pozadí (poslední cyklus před amplifikací). Na obrázku 10.2B je vidět, že se jedná o cyklus 22. Základní linie se správně nastaví tak, aby byla mezi cyklem 5 a cyklem 22 nulová (obrázek 10.2C), a poté se opraví graf amplifikace (obrázek 10.2D). Korigované Cq je 26,12. Všimněte si tedy, že mezi hodnotami Cq při nesprávném a správném nastavení základní linie byl podstatný rozdíl, což ukazuje, že nastavení správné základní linie je důležitou součástí analýzy dat.

Typický příklad poklesu dat pod nulovou hodnotu normalizované fluorescence při nesprávném nastavení základní linie

Obrázek 10.2A-B. A)Typický příklad poklesu dat pod nulovou hodnotu normalizované fluorescence při nesprávném nastavení základní linie (modrý graf amplifikace). B) Surová data stejných amplifikačních grafů, která ukazují hranici lineární základní linie a to, že data nejsou chybná.

Hranice začátku a konce základní linie se definují pomocí příslušných nastavení softwaru.

Obrázek 10.2C-D. C)Hranice začátku a konce základní linie se definují pomocí příslušných softwarových nastavení. D) Použití opraveného nastavení základní linie vede k dobré kvalitě dat.

Nastavení prahové hodnoty

Ačkoli někteří výzkumníci obhajují mapování jednotlivých amplifikačních dějů k odhadu účinnosti amplifikace a cílových množství v měřených vzorcích<.sup>2,3,4, původním a nejběžnějším přístupem k odvození Cq je použití prahové hodnoty. Široké přijetí tohoto přístupu je pravděpodobně způsobeno tím, že prahová metoda je jednoduchou a účinnou metodou kvantifikace.

Princip prahové metody spočívá v tom, že; aby bylo možné zviditelnit související fluorescenční signál z amplifikace qPCR, musí se signál zvýšit tak, aby byl nad detekčním limitem přístroje (a tedy základní linií; obrázek 10.1). Počet cyklů potřebných k tomu, aby k tomu došlo, je úměrný počátečnímu počátečnímu počtu kopií cíle ve vzorku. Proto je zapotřebí více cyklů, aby se signál zvýšil nad základní linii, pokud je původní počet kopií nízký, a méně cyklů, pokud je počet kopií vysoký. Protože základní linie je nastavena na hranici detekce systému, měření na základní linii by bylo velmi nepřesné. Proto se místo měření do intenzity minimální fluorescence, kterou systém dokáže detekovat, zvolí vyšší fluorescence a zavede se umělá prahová hodnota.

Výběr prahové intenzity vyžaduje dodržení některých základních principů. Je důležité, aby byla prahová hodnota nastavena na pevnou intenzitu pro daný cíl a pro všechny vzorky, které mají být porovnávány. Pokud je vzorků příliš mnoho na to, aby se vešly na jednu destičku, je třeba přijmout kalibrační schéma mezi destičkami, např. zahrnutí replikované kontroly, která slouží jako kontrola mezi destičkami, nebo sériové ředění standardní křivky. Teoreticky lze práh nastavit kdekoli na logaritmické fázi amplifikační křivky. V praxi však může být log-lineární fáze amplifikace narušena driftováním základní linie fluorescence pozadí, fází plateau nebo rozdíly v účinnosti testu, a tedy gradientem amplifikační plochy při vyšších cyklech. Doporučuje se, aby byl práh nastaven takto:

  • Dostatečně vysoko nad základní linií fluorescence pozadí, aby byla jistota, že amplifikační plocha nepřekročí práh předčasně v důsledku fluorescence pozadí.
  • V logaritmické fázi amplifikačního grafu, kde není ovlivněna fází plató (nejsnáze je to vidět při zobrazení amplifikačních grafů v logaritmickém zobrazení, obrázek 10.3A).
  • Na místě, kde jsou logaritmické fáze všech amplifikačních grafů rovnoběžné.

Postup nastavení prahu je demonstrován na obrázku 10.3. Na obrázku 10.3A jsou grafy amplifikace zobrazeny na logaritmické stupnici osy Y, což poskytuje vizuální rozšíření logaritmické fáze amplifikace a prezentuje ji jako lineární část grafu amplifikace. Práh je nastaven na nejvyšší intenzitu fluorescence (viz osa Y), která je v rámci této logaritmické fáze a kde jsou všechny amplifikační grafy rovnoběžné. Stupnice se pak vrátí do lineárního zobrazení (obrázek 10.3B) a zobrazí nejvyšší nastavení, které splňuje požadavky na nastavení prahu. Případně lze práh nastavit na dolní hranici této logaritmické fáze (obrázky 10.3C a 10.3D). Pokud jsou logaritmické fáze amplifikačních grafů rovnoběžné, nemá nastavení prahu vliv na ΔCq mezi vzorky.

Nastavení prahu ovlivňuje absolutní hodnotu Cq a může ovlivnit ΔCq mezi vzorky.

Obrázek 10.3Nastavení prahu ovlivňuje absolutní hodnotu Cq a může ovlivnit ΔCq mezi vzorky. A). Pomocí logaritmického vs. lineárního grafu dat je práh nastaven na nejvyšší intenzitu fluorescence, ale tam, kde grafy amplifikace vykazují paralelní logaritmické fáze. B). Nastavení prahu je zachováno z bodu A) a je zobrazeno na lineárním vs lineárním grafu. C). Pomocí logaritmického vs lineárního grafu dat je prahová hodnota nastavena na nejnižší intenzitu fluorescence, ale tam, kde grafy amplifikace vykazují paralelní logaritmické fáze. D). Nastavení prahu je zachováno z bodu C) a je zobrazeno na lineárním vs lineárním grafu. V každém případě jsou hodnoty ΔCq mezi vzorky stejné.

Požadavek na nastavení prahové hodnoty v poloze, kdy jsou logaritmické fáze amplifikačních grafů rovnoběžné, nabývá na významu, pokud jsou do analýzy zahrnuta data při vyšších cyklech. Postup nastavení prahu, který byl popsán pro data na obrázku 10.3 byl zopakován na souboru dat s vyšším Cq a výsledky jsou uvedeny na obrázku 10.4. Výsledná data Cq v tabulce 10.1 slouží k ilustraci variability hodnot Cq, a co je důležitější, hodnot ΔCq pro tři amplifikační plochy se třemi nastaveními prahu (obrázek 10.4). Hodnoty ΔCq a tedy i odhad relativního množství cíle v každém vzorku jsou velmi závislé na nastavení prahu (obrázek 10.4), protože amplifikační grafy nejsou paralelní.

Tabulka 10.1Závislost relativních hodnot Cq na poloze nastavení prahu.
Provedená a prokázaná analýza

Obrázek 10.4.Analýza, která byla provedena a demonstrována na obrázku 10.3, byla zopakována s použitím jiného souboru dat. V tomto případě nejsou grafy amplifikace paralelní v důsledku rozdílu v účinnosti reakce při vysokém Cq. Nejnižší nastavení pro A) a B) vedou k jiným hodnotám ΔCq než nejvyšší nastavení pro C) a D) (shrnuto v tabulce 10.1).

Strategie kvantifikace qPCR

Pro spolehlivou kvantifikaci je nezbytné přesné nastavení základní linie a prahové hodnoty. Po nastavení každé z nich se vygeneruje hodnota Cq a ta se použije jako základ pro kvantifikaci. Množství cíle v daném vzorku se pak stanoví buď pomocí standardní křivky, nebo relativní/srovnávací kvantifikace.

Kvantifikace pomocí standardní křivky

Jak již název napovídá, kvantifikace pomocí standardní křivky vyžaduje použití standardní křivky pro stanovení množství cílů v testovaných vzorcích. Všechna množství stanovená pro vzorky jsou proto relativní vůči množství přiřazenému standardní křivce. To vyžaduje, aby se vedle každé sady reakcí se vzorky prováděly další externí standardy. Výběr materiálu pro standardní křivku je důležitý pro eliminaci potenciálních rozdílů v kvantifikaci způsobených rozdíly mezi účinností testu ve vzorcích a ve standardech. Vazebná místa primerů externích standardů musí být stejná jako místa v cíli, musí obsahovat sekvence, které jsou stejné jako cíl, musí mít podobnou složitost a musí se s nimi zacházet co nejpodobnějším způsobem. Proto je při měření koncentrace cíle v cDNA vhodnější měřit stejnou cDNA v sériovém ředění kontrolního vzorku. Pro některé studie však existují praktické důvody, které tomu brání, a proto je důležité co nejvěrněji reprodukovat podmínky vzorku, např. přidáním gDNA z druhu nepříbuzného testovanému druhu k umělému oligonukleotidovému standardu nebo linearizovanému plazmidu nesoucímu standardní sekvenci. Jakmile je identifikován vhodný konstrukt nebo amplikon, vytvoří se standardní křivka sériových ředění. Cq pro cíl se stanoví pro každý ze standardů a vynese se do grafu v závislosti na koncentraci nebo relativní koncentraci/ředícím faktoru v logaritmické stupnici. Výsledkem je standardní křivka, která se pak použije ke stanovení koncentrací testovaných vzorků porovnáním hodnot Cq získaných z amplifikace neznámých vzorků. Při použití standardní křivky pro kvantifikaci musí být nastavení prahové hodnoty konstantní pro stanovení Cq pro standard a pro vzorky na stejné destičce. Prahová hodnota se může na různých destičkách lišit.

Relativní/srovnávací kvantifikace

Relativní nebo srovnávací kvantifikace používá rozdíl v Cq jako určující faktor rozdílů v koncentraci cílové sekvence v různých vzorcích. Namísto měření množství cílové látky na vzorek jako u metody standardní křivky vede k souborům dat, které ukazují násobné změny mezi vzorky.

V původní podobě tohoto přístupu5 se předpokládala 100% účinnost všech testů, což vedlo k předpokladu, že C<.sub>q rozdíl 1 (ΔCq = 1) byl výsledkem 2násobného rozdílu v cíli. Pro stanovení násobné změny v cílovém nebo zájmovém genu (GOI) je třeba data vztáhnout také ke kontrole zatížení (referenčnímu genu, ref; diskuse týkající se normalizace dat je uvedena níže).

Konstrukce standardní křivky.

Obrázek 10.5.Konstrukce standardní křivky. Cq zaznamenané pro každý vzorek série ředění se vynese do logaritmické lineární stupnice v závislosti na relativní koncentraci.

rovnici 1 se poměr GOI po korekci na ref. gen u 2 vzorků (A vzhledem k B) měří jako: 2 (za předpokladu 100% účinnosti reakcí) zvýšené na mocninu rozdílů v hodnotách Cq pro GOI děleno 2 zvýšenými na mocninu rozdílů v hodnotách Cq pro ref gen

Původní model relativní kvantifikace (Livak).

Rovnice 1.Původní model relativní kvantifikace (Livak).

Jak je však uvedeno v Optimalizace a validace testů, účinnost reakcí se značně liší, což může mít velký vliv na data. Proto byly řešeny předpoklady v rovnici 1 (rovnice 2)6, aby bylo možné do analýz zahrnout rozdíly v účinnosti reakcí. V tomto případě je amplifikační faktor 2 nahrazen skutečnou účinností PCR (stanovenou analýzou standardní křivky; viz Assay Optimization and Validation).

Model relativní kvantifikace přizpůsobený účinnosti (Pfaffl)

Rovnice 2.Model relativní kvantifikace přizpůsobený účinnosti (Pfaffl)

Jako příklad použití modelu relativní kvantifikace přizpůsobeného účinnosti (rovnice 2) je v tabulce 10.2 uveden soubor hodnot Cq . Účinnost pro GOI je 1,8 a pro ref. gen 1,94.

.

Tabulka 10.2Pracovní příklad pro výpočet změny záhybu (poměru) pomocí rozdílů Cq.

Jedná se o velmi jednoduchý příklad studie s požadavkem na měření rozdílu záhybů mezi jedním genem ve dvou vzorcích a po normalizaci na jeden referenční gen. Poměr ukazuje násobnou změnu GOI ve vzorku 2 vzhledem ke vzorku 1 po korekci na jediný referenční gen. Ukázalo se však, že výběr jediného vhodného referenčního genu je často nemožný, a proto byly navrženy sofistikovanější přístupy k normalizaci.

Normalizace

Hlavním cílem většiny experimentů založených na PCR je vyřešit základní otázku, zda je ve vzorku přítomen cíl (neznámý, UNK). Na nejjednodušší úrovni je tato otázka zodpovězena spuštěním gelu a zkoumáním fragmentů na přítomnost nebo nepřítomnost požadované GOI. Pokud je fragment přítomen, potvrzení velikosti fragmentu dává jistotu pozitivního výsledku. Pokud však chybí, existuje možnost falešně negativního výsledku. Proto je rozhodující opakovat testovací zkoušku a také provést alespoň jednu další PCR, která bude sloužit jako kontrola zatížení a pozitivní PCR. Univerzální, inhibiční kontrolní test, SPUD (viz Sample Purification and Quality Assessment), lze použít k podpoře jistoty negativního výsledku. Alternativním přístupem je provedení testu, který je specifický pro referenční gen nebo geny. Tradičně se testy PCR detekující referenční geny, GAPDH, 18S ribozomální RNA nebo β aktin prováděly společně s testy pro GOI a výsledné fragmenty se vizualizovaly na gelu. GAPDH, 18S ribozomální RNA a β aktin jsou konstitutivně exprimovány, a proto byly použity jako kontroly zatížení v semikvantitativních analýzách. Brzy se však ukázalo, že tyto geny nejsou všudypřítomně exprimovány ve stejné koncentraci ve všech buňkách bez ohledu na experimentální design. Proto vznikla potřeba stabilní reference, pokud bylo cílem měřit relativní koncentrace nukleových kyselin, obvykle cDNA, ale také gDNA, například při zkoumání variability počtu kopií genu.

Normalizace je proces korekce technických měření na stabilní referenci, aby bylo možné zkoumat skutečnou biologickou variabilitu. Existuje mnoho metod normalizace technických rozdílů, což znamená, že je třeba vybrat a ověřit vhodný přístup pro konkrétní experiment7. Je důležité si uvědomit, že přijetí nevhodných normalizačních technik může být pro celkový analytický proces škodlivější než to, že se normalizace neprovádí vůbec8.

Vliv kvality vzorku na normalizaci testu

Vliv integrity a čistoty vzorku na měření cílové kvantity pomocí qPCR a RT-qPCR byl podrobně diskutován (Purifikace vzorků a hodnocení kvality, Kontrola kvality vzorků a Reverzní transkripce, Reverzní transkripce). Bylo prokázáno, že inhibitory ve vzorku a degradace RNA mají rozdílný vliv na měření daného cíle9. Inhibitory ovlivňují měření jakéhokoli cíle, ale v různé míře, v závislosti na návrhu testu. Degradace celkové RNA ovlivňuje měření mRNA a miRNA10, přičemž opět silně závisí na celkovém návrhu experimentu. Proto je velmi důležité zvážit vliv koncentrace templátu na RT reakci a vliv kvality vzorku na data po normalizaci. Normalizace nezamezí účinku nekvalitních testů nebo vzorků (viz Assay Optimization and Validation).

Normalizační přístupy

Normalizační metody v zásadě vyrovnávají variabilitu, která může být vnesena během vícekrokového procesu, který je nutný k provedení analýzy qPCR (obrázek 10.6). Použití normalizace v kterékoli fázi procesu však nemusí kontrolovat technickou chybu a/nebo zkreslení, které byly nebo budou vneseny v dřívější, respektive pozdější fázi. Metody normalizace se vzájemně nevylučují, a proto se doporučuje přijmout kombinaci kontrolních mechanismů11.

qPCR je vícestupňový proces a každý krok musí být kontrolován.

Obrázek 10.6.qPCR je vícestupňový proces a každý krok musí být kontrolován. Normalizace musí být zohledněna v rámci řady kontrol.

Cílem normalizace je poskytnout stabilní referenční bod, na který lze měření vztáhnout; proto musí být normalizační faktor zvolen jako měření, které je stabilní po celou dobu experimentu. Může jím být stabilní referenční gen (geny) nebo jedna z alternativ, například počet buněk, hmotnost tkáně, koncentrace RNA/DNA, externí hrot12 nebo reprezentativní míra globálně exprimovaných genů.

Výběr referenčních genů

Referenční geny jsou cíle, jejichž množství se v důsledku experimentu nemění. Při kvantifikaci variability počtu kopií DNA, kdy se počet kopií zájmové sekvence může měnit, se měření jednoduše normalizuje zaměřením na alternativní genomickou oblast, o které je známo, že se nemění. Příkladem použití tohoto postupu je měření amplifikace genomu lidského receptoru pro epidermální růstový faktor 2 (HER-2)13. Genomová nestabilita HER-2 je prognostickým ukazatelem u karcinomu prsu a přesné měření stavu amplifikace HER-2 je důležité pro léčbu pacientů. Stav HER-2 lze měřit pomocí qPCR porovnáním kopií HER-2 s jiným genomickým cílem, který slouží jako kontrola.

Při měření genové exprese jsou referenčními geny cíle s koncentrací mRNA, která se v důsledku experimentu nemění. Příkladem může být studie, ve které se měří vliv na expresi genu X po přidání mitogenní sloučeniny do buněčné monovrstvy. Aby bylo možné změřit změnu genu X, je zapotřebí referenční bod. Proto se měří také jiný gen (nebo geny), o nichž je známo, že nejsou ovlivněny daným mitogenem. To poskytuje výzkumníkovi bezprostřední úkol najít cíl mRNA, který není ovlivněn experimentálním postupem, předtím, než je možné studovat GOI. Tento proces validace referenčních genů je zásadní pro přesné měření GOI. Nejpoužívanějším přístupem k normalizaci je ignorování tohoto procesu a normalizace dat genové exprese na jediný, nevalidovaný referenční gen. Tento postup se nedoporučuje a je v přímém rozporu s pokyny MIQE1. Kvantifikace mRNA pomocí RT-qPCR je běžně ohrožena nesprávným výběrem referenčních genů. Není přijatelné dodržovat poměrně běžnou praxi, kdy se referenční gen použije proto, že primery jsou již v mrazáku, byl historicky použit na Northern blotech, používá ho kolega nebo byl použit v jiné laboratoři pro jiný experiment. Referenční geny je třeba validovat podle specifických experimentálních scénářů, aby bylo jisté, že daný referenční gen není experimentem ovlivněn. Pokud se tato validace neprovede a referenční gen je experimentem ovlivněn, mohou být výsledky nesprávné a následné interpretace pravděpodobně povedou k nesmyslným údajům8.

Existuje řada vědecké literatury popisující různé metody normalizace7-14 a také množství publikací popisujících protokoly potřebné k určení nejvhodnějších normalizačních genů pro daný experimentální scénář. Zatímco v minulosti bylo klíčovou otázkou, zda vybrat jeden nebo více referenčních genů, nižší provozní náklady znamenají, že současné osvědčené postupy se posunuly směrem k měření více referenčních genů.

Výběr stabilních referenčních genů vyžaduje, aby analytik vyhodnotil stabilitu qPCR pro určitý počet (obvykle 10 až 20 genů) kandidátních cílových mRNA7 na podskupině vzorků, které představují testované a kontrolní mRNA. Úplný protokol je uveden v Příloha A, Protokoly, této příručky a lze je použít v kombinaci s různými analytickými metodami pomocí programů, jako jsou REST15, GeNorm14, Bestkeeper16 nebo NormFinder17. Tento postup je podrobněji popsán v následující části Analýza stability referenčních genů.

Analýza stability referenčních genů

Referenční gen je doslova bodem obratu pro testy relativní kvantifikace qPCR. Pro spolehlivost celého testu je proto rozhodující, aby byl referenční gen stabilní. Pokud se exprese referenčního genu mezi vzorky mění, přenáší se tato změna přímo do výsledků kvantifikace a přidaná variabilita může zastřít požadovaný pozorovatelný biologický účinek nebo, což je ještě horší, může vytvořit zcela umělé zdání biologického účinku, který se skutečným zájmovým genem nesouvisí. Z těchto důvodů se důrazně doporučuje dodržovat několik bezpečnostních opatření, aby variabilita referenčních genů byla nevýznamná a měření biologických účinků co nejvýznamnější.

Pravděpodobně nejdůležitějším bezpečnostním opatřením je použití nikoli pouze jednoho, ale dvou nebo více referenčních genů. Expresi několika referenčních genů lze zprůměrovat, aby se snížila technická variabilita způsobená normalizací. To může být užitečné pro zlepšení významnosti při měření malých biologických účinků. Důležitější však je, že dva nebo více referenčních genů poskytují vzájemnou kontrolu pro udržení stability a kontrolu neočekávaných událostí, které mohou ovlivnit úrovně exprese jednoho z referenčních genů. U jediného referenčního genu existuje riziko, že neočekávané vlivy na expresi genu mohou být v testu neodhaleny.

Dalším bezpečnostním opatřením je použití více než jedné metody identifikace stabilních referenčních genů. Následující příklad ilustruje několik aspektů normalizace referenčních genů, včetně možné výhody použití metod geNorm i NormFinder na stejném souboru dat.

Tabulka 10.3 obsahuje seznam kandidátů na referenční gen, kteří byli hodnoceni během workshopu, který jsme dříve vedli s EMBL. Vzorky byly odebrány z lidské buněčné kultury ve dvou různých skupinách ošetření. Tento soubor dat bude použit k demonstraci aspektů validace referenčních genů.

Agoritmy NormFinder i geNorm byly vyvinuty s předpokladem, že testování množství kandidátů na referenční gen lze použít k hodnocení stability jednotlivých kandidátů na referenční gen. Tento předpoklad může být pravdivý, pokud se například všichni kandidáti na referenční gen stochasticky mění kolem stabilních úrovní exprese. Ve skutečnosti to však nemusí být nutně pravda. Aby se předešlo zavádějícím výsledkům, je proto rozumné vyhnout se regulovaným a zejména spoluregulovaným kandidátům referenčních genů.

Tabulka 10.3Příklad panelu referenčních genů pro validaci referenčních genů. Pro přesný výkon je důležité vyhnout se kandidátům na referenční geny, které jsou regulovány společně.

Seznam kandidátů na referenční geny uvedený v tabulce 10.3 byl speciálně vybrán tak, aby byly vybrány geny, které patří do různých funkčních tříd, což snižuje pravděpodobnost, že geny mohou být regulovány společně. Významnou výjimkou je GAPDH, který je zde přítomen ve dvou verzích. Ačkoli to nemá vliv na tuto analýzu, je osvědčeným postupem vyhnout se vícenásobným záznamům genů, u nichž může být podezření na společnou regulaci.

Prvním algoritmem, který bude předveden, je geNorm. Ten poskytuje hodnocení stability genů výpočtem míry stability genů nazývané M-hodnota, která je založena na párových porovnáních analyzovaného kandidáta na referenční gen se všemi ostatními kandidáty na referenční gen v souboru dat. Provádí se iterativním způsobem, což znamená, že v tomto příkladu se postup nejprve provede na všech 15 kandidátech na referenční gen, nejméně stabilní se odstraní, postup se opakuje na zbývajících 14, odstraní se druhý nejméně stabilní kandidát a tak dále, dokud nezůstanou dva referenční geny.

Může nastat situace, kdy může být identifikace nejstabilnějšího referenčního genu obzvláště náročná. Jedním z případů může být situace, kdy všichni kandidáti na referenční gen vykazují slabé výsledky. Jiným případem může být situace, kdy všichni kandidáti na referenční gen vykazují dobré výsledky. Pro rozlišení těchto dvou případů je užitečným vodítkem, že za stabilně exprimované lze považovat referenční geny s hodnotou M nižší než 0,5.

Druhým algoritmem, který bude předveden, je NormFinder, což je volně dostupný balík pro analýzu referenčních genů (příloha B, Další zdroje). Základní algoritmus využívá k hodnocení stability referenčních genů přístup podobný ANOVA, kdy se analyzují odchylky celku a podskupin. Jednou z výhod tohoto postupu je, že získané míry jsou přímo vztaženy k úrovním genové exprese. Směrodatná odchylka 0,20 v Cq jednotkách tedy představuje přibližně 15% variabilitu v úrovních exprese počtu kopií konkrétního kandidáta na referenční gen.

Pro pohodlí jsou v této ukázce oba tyto analytické balíčky přístupné pomocí softwaru pro analýzu dat GenEx (MultiD), ale jsou k dispozici i jako samostatné balíčky (Příloha B, Další zdroje).

Sloupcové diagramy zobrazené na obrázku 10.7 znázorňují referenční geny seřazené podle příslušných měr stability pomocí obou algoritmů. Graf znázorňující kumulovanou směrodatnou odchylku z NormFinderu navíc ukazuje, že kombinace až tří nejlepších referenčních genů může přinést zlepšení stability.

Sloupcové diagramy znázorňující opatření stability

Obrázek 10.7.Sloupcové diagramy znázorňující opatření stability: M-hodnoty pro geNorm a směrodatné odchylky pro NormFinder. Graf znázorňující kumulovanou směrodatnou odchylku z NormFinder navíc ukazuje, že kombinace až tří nejlepších referenčních genů může přinést zlepšení stability. Soubor dat byl vytvořen z testů navržených pro kandidáty na referenční geny uvedené v tabulce 10.3 a měřených na kultuře lidských buněk ve dvou různých skupinách ošetření. Všimněte si, že v tomto případě se algoritmy geNorm a NormFinder pro stabilitu referenčních genů neshodují na nejlepších referenčních genech.

Průměrný expresní profil referenčních kandidátních genů dvou vzorků v každé skupině.

Obrázek 10.8.Průměrný expresní profil referenčních kandidátních genů dvou vzorků v každé skupině. Vzorky 1 a 2 patří do první skupiny ošetření a vzorky 3 a 4 patří do druhé skupiny ošetření. Expresní profily SDHA a CANX jsou vyznačeny červeně. Expresní profil UBC je vyznačen žlutě. V tabulce jsou uvedeny naměřené hodnoty Cq v souboru dat.

Vzhledem k rozdílným expresním profilům je možné, že SDHA a CANX jsou regulovány různými alternativami léčby, a proto nejsou vhodné jako referenční geny. Jejich odstranění ze souboru dat a opakování analýzy vede ke shodě mezi oběma algoritmy a k tomu, že nejlepší volbou referenčních genů jsou EIF4A2 a ATP53 (obrázek 10.9). Při výpočtu kumulovaných směrodatných odchylek v programu NormFinder je rovněž patrné, že přidání více referenčních genů stabilitu nezlepšuje.

Kontrola expresních profilů a naměřených hodnot Cq

Obrázek 10.9.Kontrola expresních profilů a naměřených hodnot Cq (obrázek 10.8) vyvolala obavy, že SDHA a CANX mohou být v použitém testu regulovány společně. Tato společná regulace může narušit algoritmy stability referenčních genů. Sloupcové diagramy znázorňující míry stability: A) M-hodnoty pro geNorm a B) směrodatné odchylky pro NormFinder. Soubor dat je stejný jako soubor použitý na obrázku 10.8 s tím rozdílem, že data pro SDHA a CANX byla odstraněna. Všimněte si, že s tímto redukovaným souborem dat se algoritmy stability referenčních genů geNorm a NormFinder skutečně shodují ohledně nejlepších referenčních genů.

Analýza dat v tomto příkladu slouží k ilustraci toho, že paralelní použití geNormu a NormFinderu umožňuje identifikovat kandidáty na společně regulované referenční geny a že vyřazení těchto genů z dalších studií poskytuje konečnou identifikaci referenčních genů, kterou lze přijmout s větší jistotou než po použití jediné analýzy. Identifikace a výběr stabilních referenčních genů vede k větší bezpečnosti analýzy dat.

Alternativní normalizační metody

Normalizace na referenční geny je sice nejběžnější metodou normalizace testů, ale existují situace, kdy tento přístup není vhodný, například když je třeba porovnat velký počet genů v heterogenní skupině vzorků nebo při profilování miRNA. V těchto scénářích je nutné přijmout alternativní strategii.

Normalizace na hmotnost tkáně nebo počet buněk

Měření počtu buněk nebo hmotnosti tkáně, které se má použít jako normalizační faktor, není tak jednoduché, jak se může na první pohled zdát. Experimenty s buněčnými kulturami lze relativně snadno normalizovat na základě počtu buněk. Přidání léčby však může ovlivnit morfologii buněk, což komplikuje poměr počtu buněk a celkové exprimované RNA/geny při porovnání s kontrolní kulturou. Experimentální léčba může mít za následek produkci další buněčné matrice, která způsobí rozdíly v účinnosti extrakce nukleových kyselin.

Biologické tkáně mohou být vysoce heterogenní v rámci subjektů i mezi nimi, přičemž větší rozdíly jsou patrné při porovnání zdravé tkáně s tkání nemocnou. Dokonce i zdánlivě méně komplexní tkáně, jako je krev, se mohou značně lišit v počtu a složení buněk, takže exprese genů se mezi zdánlivě zdravými dárci18 značně liší.

Jakékoli zpoždění v procesech používaných k purifikaci nukleové kyseliny bude mít za následek změny v měřené RNA. Například zpoždění při zpracování mononukleárních buněk periferní krve a extrakci RNA z buněk má za následek značné změny v genové expresi19. Metody, na nichž jsou založeny extrakční postupy, jsou rovněž hlavním zdrojem technických rozdílů. Dokonce i postup izolace zvolený pro odběr vzorků buněk získaných z krve a purifikace RNA vedou k rozdílům ve zjevných profilech genové exprese20. Proto je prvním normalizačním hlediskem zajistit, aby odběr a zpracování byly u všech vzorků naprosto identické. Poté je rozhodující provést dostatečnou kontrolu kvality, abyste si byli jisti koncentrací, integritou a čistotou vzorku (Purifikace vzorků a hodnocení kvality a související protokoly v Příloze A).

Normalizace na koncentraci RNA

Jako minimum je důležitý odhad koncentrace templátu (DNA pro qPCR nebo RNA pro RT-qPCR) a, jak je uvedeno v Purifikace vzorků a hodnocení kvality, je velmi důležité zajistit, aby se pro všechna měření používal stejný přístroj, protože stanovení koncentrace nukleových kyselin je rovněž variabilní a závislé na technice.

Při měření celkové koncentrace RNA je naprostá většina vzorku tvořena rRNA a pouze malou část tvoří mRNA, která je předmětem zájmu při zkoumání genové exprese, nebo sncRNA při zkoumání regulace genové exprese. To znamená, že pokud se koncentrace rRNA zvýší o malé množství, ale mRNA zůstane konstantní, celková koncentrace RNA se zvýší. Koncentrace mRNA se musí zvýšit výrazně, aby došlo ke zjevnému zvýšení celkové koncentrace RNA. Proto je koncentrace rRNA nespolehlivým měřítkem koncentrace mRNA, ale u mnoha protokolů je stejná koncentrace RNA vyžadována pro zajištění přesné reverzní transkripce (viz Reverzní transkripce).

Normalizace na globální genovou expresi

Při měření velkého počtu cílů může analytik odhadnout globální průměr celkové genové exprese a identifikovat regulované sekvence RNA, které se od tohoto průměru odchylují. Tento přístup se konvenčně používá pro normalizaci matic genové exprese. Je to cenná alternativa k použití referenčních genů a může být vhodnější tam, kde se měří mnoho cílů.

Dalším nedávno zkoumaným přístupem je měření endogenně exprimovaných opakujících se elementů (ERE), které jsou přítomny v mnoha mRNA. Mnoho druhů obsahuje tyto opakující se elementy (ALU u primátů, elementy B u myší), které mohou poskytnout odhad frakce mRNA. Bylo prokázáno, že měření těchto cílových sekvencí funguje jako konvenční normalizační systémy9  (Le Bert, et al., v přípravě) a může nabídnout univerzální řešení nebo alternativu pro komplexní experimenty, kde nejsou k dispozici stabilní kombinace referenčních genů.

Normalizace dat miRNA

Dosud nebyly zaznamenány žádné zprávy o univerzálním referenčním genu miRNA. Proto je výběr normalizačního systému stále spíše empirický. Pokud je to možné, lze stabilní invariantní miRNA identifikovat z celogenomových přístupů, tj. z mikročipů. Jako referenční geny se používají také malé nukleolární RNA (snoRNA). Globální genová exprese je také užitečnou metodou normalizace exprese miRNA, pokud není známa stabilní reference a bylo analyzováno několik set cílů21,22,23. Tato metoda je vhodnější pro ty, kteří používají přístupy vedoucí k zachycení všech miRNA jako cDNA v multiplexní formě, např, Exiqon a systémy miQPCR (viz Castoldi et al. v publikaci PCR Technologies, Current Innovations24).

Biologické a technické replikáty

Účelem normalizace je zabránit systematickým chybám a snížit variabilitu dat pro případnou statistickou analýzu. Dalším důležitým aspektem nastavení dat pro statistickou analýzu je použití replikátů dat.

Biologické replikáty jsou pro statistickou analýzu naprosto nezbytné. Hladiny statistické významnosti jsou často stanoveny na 5% hranici významnosti. U biologických účinků blízkých takové hladině významnosti může být nutné mít k dispozici alespoň 20 biologických replikátů pro stanovení hladiny významnosti testů (1:20 odpovídá 5 %). Ve skutečnosti bylo navrženo, že pro přesný odhad významnosti25 je třeba zaznamenat alespoň padesátinásobek počtu pozorování, tj. řádově tisíc biologických vzorků. Praktická omezení samozřejmě zřídkakdy umožňují biologické replikace na těchto úrovních. Kromě toho přesné odhady počtu biologických replikátů nutných ke splnění dané hladiny významnosti závisí také na úrovni variability údajů. Přesto je důležité si uvědomit, že častou chybou je podcenění potřebného počtu biologických replikátů, aby bylo možné dospět ke spolehlivým závěrům. Doporučuje se provést úvodní pilotní studii, která zhodnotí inherentní variabilitu testu a potenciální velikost pozorovatelného biologického účinku, abyste měli dobrý základ pro odhad potřebného počtu biologických replikátů26.

Technické replikáty se nepoužívají přímo pro statistickou analýzu. Místo toho se technická opakování používají k zálohování vzorků (pro případ, že by se některé vzorky ztratily při technické manipulaci) a ke zlepšení hodnocení přesnosti údajů. Technické repliky mohou zlepšit přesnost údajů, pokud platí předpoklad, že se stochasticky mění kolem přesného měření v každé fázi procesu technického zpracování. Průměr technických replikátů je blíže přesnému měření. Vliv průměrování technických replikátů lze ilustrovat na velikosti intervalu spolehlivosti v simulovaném souboru dat s předem stanovenou variabilitou, tj. směrodatnou odchylkou nastavenou na hodnotu jedna. Jak je vidět v tabulce 10.4, interval spolehlivosti se zmenšuje s rostoucím počtem technických replikátů (vzorků), což naznačuje přesnější odhad přesného měření. Zúžení intervalu spolehlivosti je navíc nejdramatičtější při nízkém počtu technických replikátů. Při zvýšení počtu opakování z 2-3 se interval spolehlivosti sníží z 8,99 na 2,48, tj. více než trojnásobné zlepšení přesnosti odhadu přesného měření. Další replikace sice nadále zlepšují odhad přesnosti měření, ale tento účinek má klesající tendenci. Je tedy zřejmé, že v případech, kdy je problémem technická variabilita manipulace, může být velkou výhodou použití trojkombinací namísto duplikátů.

Tabulka 10.4Velikost konfidenčních intervalů odhadovaných průměrů normalizovaných na směrodatnou odchylku 1 a hladinu spolehlivosti α 5 %. Interval spolehlivosti se zmenšuje s rostoucím počtem technických opakovaných vzorků, což naznačuje přesnější odhad přesného měření při vyšším počtu opakovaných vzorků.

Technické repliky lze shromažďovat v několika fázích procesu zpracování vzorku, včetně extrakce RNA, reverzní transkripce a detekce qPCR. Pokud jsou technické repliky zjišťovány v několika fázích, vytvoří se vnořený experimentální design. Pilotní studie, která využívá vnořený experimentální design, může pomoci identifikovat fáze manipulace se vzorky, které nejvíce přispívají k technickým chybám při manipulaci, a na základě těchto informací lze vypočítat optimální plán odběru vzorků27.

Statistická analýza a vizualizace dat

Vědecká analýza biologických dat se soustředí na formulaci a testování hypotéz. Formulace hypotézy vyžaduje podrobné porozumění podmínkám a proměnným testu. Úspěšné testování hypotézy zahrnuje pečlivé provedení a vhodný experimentální design, který maximalizuje požadovaný pozorovatelný signál a zároveň minimalizuje technickou variabilitu. V této souvislosti je užitečné rozlišovat mezi průzkumnými a potvrzujícími studiemi (obrázek 10.10).

Vývojový diagram znázorňující operace spojené s průzkumnými a potvrzujícími statistickými analýzami.

Obrázek 10.10.Vývojový diagram znázorňující operace spojené s průzkumnou a potvrzující statistickou analýzou. Levá strana obrázku, před čárkovanou šipkou, znázorňuje operace v průzkumné statistické studii. Pravá strana obrázku za přerušovanou šipkou znázorňuje operace v konfirmační statistické studii.

Účelem explorativní studie je analyzovat data pomocí jedné nebo několika různých technik za účelem doložení hypotézy. Soubor dat může být nově definován a/nebo mohou být opakovaně použity různé techniky analýzy s cílem podpořit jednu nebo více hypotéz. Explorativní studie je tedy velmi flexibilní vůči specifikům jakékoli vědecké otázky. Opakované sondování testování hypotéz na jednom souboru dat však může vést k problémům, které zpochybňují statistické závěry. Důvodem je vícenásobné testování, které odkazuje na skutečnost, že statistický test s několika nezávislými hypotézami s větší pravděpodobností přinese pozitivní významnost a že tato šance se zvyšuje s testováním dalších hypotéz, i když jsou základní pravděpodobnostní rozdělení shodná. Aby se předešlo zavádějícím statistickým výsledkům, je proto průzkumná studie často kombinována s potvrzující studií.

Požadavky na potvrzující studii jsou založeny na mnohem přísnějších statistických kritériích. Za prvé, hypotéza studie, včetně kritérií významnosti, musí být definována před sběrem dat a před analýzou. Kromě toho musí být soubor údajů pro analýzu shromážděn výhradně za tímto účelem. Je statisticky nesprávné znovu použít soubor údajů z průzkumné studie v potvrzující studii, protože tento soubor údajů by ze své podstaty zvýhodňoval navrhovanou hypotézu. Konečným výsledkem konfirmační studie je zamítnutá nebo přijatá hypotéza podle předem stanovených kritérií.

Statistické testy

Při statistickém testování se analyzuje pravděpodobnost, že pozorovaný jev nastal náhodně. Tato hypotéza se nazývá nulová hypotéza28. Pokud je pozorovaný jev podle nulové hypotézy vzácný, je závěr takový, že je nepravděpodobné, že platí nulová hypotéza. Nulová hypotéza se zamítá a přijímá se pravděpodobnost alternativní hypotézy jako významné.

Odhadovaná pravděpodobnost, že pozorovaný jev nastal náhodou, se nazývá phodnota. Hodnota p se měří v rozmezí od 0 do 1 nebo ekvivalentně v jednotkách procent. Statistická kritéria pro konfirmační studii zahrnují mezní hodnotu alfa, pod kterou by vypočtené hodnoty p znamenaly významnost pro pozorovaný jev. Běžně se používá mezní hodnota alfa 5 %, i když je třeba ji upravit tak, aby odpovídala požadovaným a nezbytným kritériím, která jsou specifická pro předmět studie.

Bylo vyvinuto mnoho algoritmů pro výpočet hodnoty p za různých předpokladů a pro různé účely. Běžným algoritmem je Studentův t-test. Studentův t-test se používá k výpočtu hodnoty p na základě rozdílu průměrných hodnot mezi dvěma skupinami dat. Hlavním předpokladem Studentova t-testu je, že obě skupiny dat jsou nezávislé a odpovídají normálnímu rozdělení. Výhodou Studentova t-testu je, že je ve srovnání s neparametrickými statistickými testy29 silný. Neparametrickým testem, který je ekvivalentní Studentovu t-testu, může být jeden z nejznámějších neparametrických statistických testů; Wilcoxonův rank-sum test (někdy nazývaný Mannův-Whitneyho U test; nezaměňovat s Wilcoxonovým signed-rank testem, který se používá k porovnání dvou párových skupin). Neparametrické statistické testy, jako je Wilcoxonův ranksum test, mají oproti parametrickým statistickým testům, jako je Studentův t-test, tu výhodu, že nezávisí na předběžných předpokladech o rozdělení datových souborů. Při rozhodování, zda použít Studentův t-test nebo některý z neparametrických testů, lze použít Kolmogorovův-Smirnovův test pro normální rozdělení

Kromě volby algoritmu pro pvýpočet hodnoty lze se soubory dat, které jsou zadávány do algoritmu pro pvýpočet hodnoty, manipulovat, aby se usnadnilo pozorování požadovaných vlastností souboru dat. Kombinace kroků manipulace se surovými daty a volba algoritmu výpočtu hodnoty je součástí budování modelu hypotézy.

V explorační fázi statistické analýzy existuje velká míra volnosti při budování modelů hypotéz a je to důležitá součást vědeckého zkoumání. Hypotéza však není nikdy prokázána pomocí vědeckého, statistického přístupu. Správný vědecký přístup spočívá ve formulaci nulové hypotézy, použití nezávislého (nejlépe nově shromážděného) souboru dat a přijetí nebo zamítnutí nulové hypotézy podle schématu konfirmační studie (obrázek 10.10).

Vizualizační techniky pro jednorozměrnou analýzu

Stejně jako je k dispozici mnoho metod analýzy, existuje také mnoho technik vizualizace dat, z nichž lze vybírat. Pro univariační analýzu dat je vhodnou vizualizační technikou jednoduchý sloupcový diagram s přidruženými chybovými úsečkami. Přestože se jedná o běžnou a jednoduchou vizualizační techniku, existují problémy, které je třeba zdůraznit. Za prvé, chybové sloupce mohou znázorňovat různé zdroje variability; přirozenou variabilitu dat (směrodatnou odchylku, SD) nebo přesnost, s níž byla určena střední hodnota. Za druhé, přesnost, s níž byla střední hodnota určena, lze znázornit různými způsoby, ale v konečném důsledku závisí na kombinaci vlastní variability údajů spolu s počtem vzorků (N) a v hrubé podobě se nazývá směrodatná chyba průměru (SEM, rovnice 1):

SEM

Rovnice 1. SEM

SEM však není příliš intuitivní měřítko a není jednoduché smysluplně porovnat SEM z různých experimentů. Oblíbenějším způsobem znázornění přesnosti odhadovaného průměru a grafického vyjádření statistické významnosti je interval spolehlivosti (CI, rovnice 2):

Cl

Rovnice 10-2.Cl

Přítomnost SEM lze rozpoznat v rovnici pro interval spolehlivosti jako poměr mezi směrodatnou odchylkou (SD) a druhou odmocninou počtu vzorků (N), a je tedy zřejmé, že interval spolehlivosti je založen na SEM. Dolní mez intervalu spolehlivosti se sestrojí odečtením SEM vynásobeného percentilem t-rozdělení od průměru. Horní mez intervalu spolehlivosti se sestrojí přičtením SEM vynásobeného percentilem t-rozdělení od průměru. Hladina spolehlivosti intervalu spolehlivosti je dána hladinou spolehlivosti spojenou s kritickou hodnotou t*; obvykle se jedná o 95% hladinu spolehlivosti.

Obrázek 10.11 ukazuje sloupcový graf s chybovými úsečkami označujícími 95% interval spolehlivosti v rámci každé experimentální skupiny, který zvýrazňuje nejistotu spojenou s odhadem střední hodnoty pro příklad exprese genu ve vzorcích z různých orgánů po léčbě několika dávkami léčiva. Kromě toho jsou uvedeny hodnoty statistické významnosti t-testu p pro rozdíl v expresi genů mezi kontrolními vzorky a každým ze tří různých vzorků z různých reakcí na dávku léčiva, označené hvězdičkou. Je obvyklé, že jedna hvězdička odpovídá phodnotě nižší než 0,05, dvě hvězdičky odpovídají phodnotě nižší než 0,01 a tři hvězdičky odpovídají phodnotě nižší než 0,001.

Změna exprese (log2) zájmového genu ve vztahu k dvojici referenčních genů

Obrázek 10.11.Změna exprese (log2) zájmového genu ve vztahu k dvojici referenčních genů, vztažená k expresi ve vzorku s nejnižší expresí v rámci každého typu orgánu. Výška sloupce udává průměrnou expresi genu v několika vzorcích ve skupinách neléčených vzorků (Dávka 0) nebo vzorků léčených jednou ze tří různých dávek léčiva (Dávka 1, Dávka 2 a Dávka 3). Chybové sloupce označují 95% odhady intervalu spolehlivosti průměrných expresí. Jedna hvězdička označuje statisticky významný rozdíl mezi průměry souboru léčených vzorků ve srovnání s průměrem souboru neléčených vzorků do 5 %; dvě hvězdičky označují statisticky významný rozdíl do 1 %; tři hvězdičky označují statisticky významný rozdíl do 0,1 %.

Vzhledem k tomu, že hvězdičkový zápis skrývá absolutní hodnotu p, často se doporučuje připojit tabulku s absolutními hodnotami p, jak je uvedeno v příkladu v Tabulka 10.5. Jedním z důvodů je, že p-hodnota například 0,032 je jen o něco málo "významnější" než p-hodnota 0,055. V případě, že je hodnota 0,032 vyšší než 0,055, je to jen o málo významnější. Takové hraniční případy mohou vést k určitým nejasnostem při rozhodování, jakou přesně mezní hodnotu použít při klasifikaci údajů jako významných. V reálných případech může být phodnota 0,051 stejně významná jako phodnota 0,049, ale striktní (i když v zásadě arbitrární) hranice 0,05 by jednu z nich klasifikovala jako významnou a druhou ne.

Tabulka 10.5Odhady významnosti rozdílu průměrů. Průměrné hodnoty exprese zájmového genu z ošetřeného souboru vzorků se porovnávají s průměrnými hodnotami neošetřených vzorků a vyjadřují se vzhledem k údajům o expresi dvou referenčních genů. Údaje jsou prezentovány vzhledem ke vzorku s nejnižší expresí pro každý typ orgánu (údaje jsou uvedeny na obrázku 10.12). K získání p-hodnot byl použit Studentův t-test.

Existuje však varianta vizualizace sloupcového diagramu, která využívá interval spolehlivosti rozdílu mezi průměry, aby se vyhnula mnoha, ne-li všem nevýhodám tradičních sloupcových diagramů24. Pomocí intervalu spolehlivosti rozdílu mezi průměry je možné přímo odhadnout statistickou významnost s přidruženými chybovými úsečkami a zároveň zvýraznit velikost biologického účinku a variabilitu dat. Obrázek 10.12 ukazuje variantu s intervalem spolehlivosti rozdílu mezi průměry dat použitou na obrázku 10.11. Všimněte si, že intervaly spolehlivosti, které nezahrnují nulový rozdíl mezi průměry, odpovídají významným výsledkům na hladině spolehlivosti odpovídající pmezní hodnotě (5 % na Obrázku 10.11 a Tabulce 10.5).

Sloupcový diagram znázorňující rozdíl mezi průměry souboru vzorků bez ošetření

Obrázek 10.12.Sloupcový diagram znázorňující rozdíl mezi průměry souboru vzorků bez ošetření (Dávka 0) a jednoho ze souborů vzorků s ošetřením (Dávka 1, Dávka 2 nebo Dávka 3) v souboru dat z obrázku 10.11. Chybové úsečky ukazují interval spolehlivosti rozdílu mezi průměry. Chybové úsečky, které neprotínají osu x, naznačují, že příslušné srovnání průměrů je statisticky významné do 5 % v t-testu. PCR Technology, Current Innovations-3. ed. by Taylor and Francis Group LLC Books. Reprodukováno se souhlasem Taylor and Francis Group LLC Books ve formátu pro opakované použití v knize/e-knize prostřednictvím Copyright Clearance Center.

Multivariační údaje jsou údaje shromážděné o několika proměnných pro každou výběrovou jednotku. Údaje použité na obrázcích 10.11 10.12 jsou vícerozměrné v tom smyslu, že závisí na proměnných, jako je dávka a typ orgánu. Statistické analýzy na obrázcích 10.11 10.12 jsou však přesto jednorozměrné v tom smyslu, že každé zobrazení (sloupec) znázorňuje pouze jednu proměnnou, genovou expresi, vzhledem k pevným mírám ostatních proměnných. Pro techniky vícerozměrné analýzy dat jsou vhodnými možnostmi reprezentace dat hierarchické shlukování a analýza hlavních komponent.

Hierarchické shlukování

Jednou z nejjednodušších a nejužitečnějších metod charakterizace dat je vykreslení dat do grafu rozptylu (například vykreslení naměřených hodnot Cq hodnot jednoho genu proti odpovídajícím hodnotám Cq jiného genu pro soubor biologických vzorků do 2D grafu). Grafy v jednom nebo dvou rozměrech se pohodlně vizualizují lidským zrakem. S vhodnými nástroji je možné vytvořit i grafy ve třech rozměrech, ale grafy ve vyšších rozměrech se vizualizují podstatně obtížněji. Pro explorační studie je však soubor dat ze své podstaty vícerozměrný a rozptylové grafy celých souborů dat se tak mohou stát nepraktickými. Ze souboru dat qPCR může být například zastoupeno několik genů a/nebo několik typů biologických vzorků.

Oblíbeným, alternativním způsobem charakterizace a vizualizace dat z exploračních studií je analýza měr vzdáleností mezi datovými body v rozptylovém grafu. Existují různé míry vzdálenosti, včetně euklidovské, manhattanovské a Pearsonovy korelace. Díky výpočetnímu výkonu je výpočet vzdáleností jednoduchý, a to i pro vícerozměrná data s mnohem vyšší dimenzionalitou než tři rozměry. Pro aglomerativní hierarchické shlukování se provádí následující iterační proces: 1) Najdou se dva nejbližší objekty a sloučí se do shluku; 2) Nový shluk se definuje jako nový objekt pomocí metody shlukování; 3) Opakuje se postup od bodu 1), dokud se všechny objekty nesloučí do shluků30. Mezi alternativy metod shlukování patří Wardova metoda, Single linkage a Average linkage31. K vizualizaci výsledků hierarchického shlukování se často používá dendrogram.

Interpretace dendrogramů hierarchického shlukování dat qPCR často vede k závěrům o podobnosti profilů genové exprese. V průzkumné studii lze pak tyto podobnosti použít k formulaci hypotéz o koregistraci genové exprese, které mohou být přijaty nebo zamítnuty v následných konfirmačních studiích. K výhodám dendrogramů hierarchického shlukování patří přehlednost, s jakou jsou vztahy podobnosti vizualizovány. Na druhé straně může být silný důraz na míry podobnosti vnímán jako omezující s ohledem na formulaci hypotéz, protože podobné expresní profily mohou být v hypotézách nadbytečnými atributy. Vyšší hodnotu může mít identifikace souborů expresních profilů, které se vzájemně doplňují ve specifické kombinaci, aby bylo možné odpovědět na požadovanou hypotézu.

Analýza hlavních komponent

Dalším oblíbeným, alternativním způsobem charakterizace a vizualizace dat z průzkumných studií je využití informací obsažených v celém vícerozměrném souboru dat, výběr požadovaných vlastností a jejich promítnutí do rozptylového grafu nižšího rozměru, například 2D nebo 3D grafu. Toho lze dosáhnout pomocí analýzy hlavních komponent (PCA)32,33,34, 35. Zde se původní souřadnicový systém souboru dat (tj. expresní profily měřené pomocí qPCR) transformuje na nový vícerozměrný prostor, kde se zkonstruují nové proměnné (hlavní komponenty: PC nebo faktory). Každá PC je lineární kombinací subjektů v původním souboru dat. Podle matematické definice jsou PC extrahovány v postupném pořadí důležitosti. To znamená, že první PC vysvětluje většinu informace (rozptylu) přítomné v datech, druhá méně atd. Proto lze první dvě nebo tři souřadnice PC (označované jako skóre) použít k získání projekce celého souboru dat na vhodně malý rozměr, vhodný pro vizualizaci ve 2D nebo 3D grafu. Použitím prvních dvou nebo tří PC pro zobrazení se získá projekce, která zohledňuje největší variabilitu souboru dat. Očekává se, že variabilita vyplývající z podmínek experimentálního designu bude systematická, zatímco zmatečná variabilita bude náhodná, takže toto zobrazení může být za vhodných podmínek žádoucí.

Jak již bylo uvedeno u hierarchického shlukování, interpretace qPCR PCA často vede k závěrům o podobnosti profilů genové exprese. Ačkoli PCA a hierarchické shlukování mohou přinést doplňující se poznatky o vzorcích ko-regulace genové exprese, obě techniky se zaměřují na podobnosti profilů genové exprese. To klade omezení na typy hypotéz, které lze zjistit v průzkumných studiích využívajících pouze tyto techniky. Pro rozšíření dosahu generovaných hypotéz v exploračních studiích byl nedávno navržen přístup k vícerozměrné analýze založený na hypotézách24. Hypotézami řízené, na míru navržené algoritmy mohou identifikovat biologicky relevantní hypotézy, které by jinak mohly být běžně používanými technikami pro vícerozměrnou analýzu dat přehlédnuty.

Materiály
Loading
1.
Bustin SA, Benes V, Garson JA, Hellemans J, Huggett J, Kubista M, Mueller R, Nolan T, Pfaffl MW, Shipley GL, et al. 2009. The MIQE Guidelines: Minimum Information for Publication of Quantitative Real-Time PCR Experiments. 55(4):611-622. https://doi.org/10.1373/clinchem.2008.112797
2.
Guescini M, Sisti D, Rocchi MB, Stocchi L, Stocchi V. 2008. A new real-time PCR method to overcome significant quantitative inaccuracy due to slight amplification inhibition. BMC Bioinformatics. 9(1): https://doi.org/10.1186/1471-2105-9-326
3.
Rutledge RG, Stewart D. 2008. Critical evaluation of methods used to determine amplification efficiency refutes the exponential character of real-time PCR. BMC Mol Biol. 9(1):96. https://doi.org/10.1186/1471-2199-9-96
4.
Rutledge RG, Stewart D. 2008. A kinetic-based sigmoidal model for the polymerase chain reaction and its application to high-capacity absolute quantitative real-time PCR. BMC Biotechnology. 8(1):47. https://doi.org/10.1186/1472-6750-8-47
5.
Livak KJ, Schmittgen TD. 2001. Analysis of Relative Gene Expression Data Using Real-Time Quantitative PCR and the 2???CT Method. Methods. 25(4):402-408. https://doi.org/10.1006/meth.2001.1262
6.
Pfaffl MW. 2001. A new mathematical model for relative quantification in real-time RT-PCR. 29(9):45e-45. https://doi.org/10.1093/nar/29.9.e45
7.
Dheda K, Huggett JF, Bustin SA, Johnson MA, Rook G, Zumla A. 2004. Validation of housekeeping genes for normalizing RNA expression in real-time PCR. BioTechniques. 37(1):112-119. https://doi.org/10.2144/04371rr03
8.
Dheda K, Huggett J, Chang J, Kim L, Bustin S, Johnson M, Rook G, Zumla A. 2005. The implications of using an inappropriate reference gene for real-time reverse transcription PCR data normalization. Analytical Biochemistry. 344(1):141-143. https://doi.org/10.1016/j.ab.2005.05.022
9.
Vermeulen J, De Preter K, Lefever S, Nuytens J, De Vloed F, Derveaux S, Hellemans J, Speleman F, Vandesompele J. 2011. Measurable impact of RNA quality on gene expression results from quantitative PCR. 39(9):e63-e63. https://doi.org/10.1093/nar/gkr065
10.
Ibberson D, Benes V, Muckenthaler MU, Castoldi M. 2009. RNA degradation compromises the reliability of microRNA expression profiling. BMC Biotechnology. 9(1):102. https://doi.org/10.1186/1472-6750-9-102
11.
Huggett J, Dheda K, Bustin S, Zumla A. 2005. Real-time RT-PCR normalisation; strategies and considerations. Genes Immun. 6(4):279-284. https://doi.org/10.1038/sj.gene.6364190
12.
Mitsuhashi M, Tomozawa S, Endo K, Shinagawa A. 2006. Quantification of mRNA in Whole Blood by Assessing Recovery of RNA and Efficiency of cDNA Synthesis. 52(4):634-642. https://doi.org/10.1373/clinchem.2005.048983
13.
Whale AS, Huggett JF, Cowen S, Speirs V, Shaw J, Ellison S, Foy CA, Scott DJ. 2012. Comparison of microfluidic digital PCR and conventional quantitative PCR for measuring copy number variation. 40(11):e82-e82. https://doi.org/10.1093/nar/gks203
14.
Vandesompele J, De Preter K, Pattyn F, Poppe B, Van Roy N, De Paepe A, Speleman F. 2002. Genome Biol. 3(7):research0034.1. https://doi.org/10.1186/gb-2002-3-7-research0034
15.
Pfaffl MW. 2002. Relative expression software tool (REST(C)) for group-wise comparison and statistical analysis of relative expression results in real-time PCR. 30(9):36e-36. https://doi.org/10.1093/nar/30.9.e36
16.
Pfaffl MW, Tichopad A, Prgomet C, Neuvians TP. 2004. Determination of stable housekeeping genes, differentially regulated target genes and sample integrity: BestKeeper ? Excel-based tool using pair-wise correlations. Biotechnology Letters. 26(6):509-515. https://doi.org/10.1023/b:bile.0000019559.84305.47
17.
Andersen CL, Jensen JL, Ørntoft TF. 2004. Normalization of Real-Time Quantitative Reverse Transcription-PCR Data: A Model-Based Variance Estimation Approach to Identify Genes Suited for Normalization, Applied to Bladder and Colon Cancer Data Sets. Cancer Res. 64(15):5245-5250. https://doi.org/10.1158/0008-5472.can-04-0496
18.
Eady JJ, Wortley GM, Wormstone YM, Hughes JC, Astley SB, Foxall RJ, Doleman JF, Elliott RM. 2005. Variation in gene expression profiles of peripheral blood mononuclear cells from healthy volunteers. Physiological Genomics. 22(3):402-411. https://doi.org/10.1152/physiolgenomics.00080.2005
19.
Barnes MG, Grom AA, Griffin TA, Colbert RA, Thompson SD. 2010. Gene Expression Profiles from Peripheral Blood Mononuclear Cells Are Sensitive to Short Processing Delays. Biopreservation and Biobanking. 8(3):153-162. https://doi.org/10.1089/bio.2010.0009
20.
Debey S, Schoenbeck U, Hellmich M, Gathof BS, Pillai R, Zander T, Schultze JL. 2004. Comparison of different isolation techniques prior gene expression profiling of blood derived cells: impact on physiological responses, on overall expression and the role of different cell types. Pharmacogenomics J. 4(3):193-207. https://doi.org/10.1038/sj.tpj.6500240
21.
Mestdagh P, Van Vlierberghe P, De Weer A, Muth D, Westermann F, Speleman F, Vandesompele J. 2009. A novel and universal method for microRNA RT-qPCR data normalization. Genome Biol. 10(6):R64. https://doi.org/10.1186/gb-2009-10-6-r64
22.
Mestdagh P, Derveaux S, Vandesompele J. 2012. Whole-Genome RT-qPCR MicroRNA Expression Profiling.121-130. https://doi.org/10.1007/978-1-61779-424-7_10
23.
D?haene B, Mestdagh P, Hellemans J, Vandesompele J. 2012. miRNA Expression Profiling: From Reference Genes to Global Mean Normalization.261-272. https://doi.org/10.1007/978-1-61779-427-8_18
24.
Nolan T, Bustin SA. 2013. PCR Technology: Current Innovations. 3. CRC Press.
25.
Manly B. 1998. Randomization, Bootstrap and Monte Carlo Methods.. 2. Chapman Hall:
26.
Kitchen RR, Kubista M, Tichopad A. 2010. Statistical aspects of quantitative real-time PCR experiment design. Methods. 50(4):231-236. https://doi.org/10.1016/j.ymeth.2010.01.025
27.
Tichopad A, Kitchen R, Riedmaier I, Becker C, Sta?hlberg A, Kubista M. 2009. Design and Optimization of Reverse-Transcription Quantitative PCR Experiments. 55(10):1816-1823. https://doi.org/10.1373/clinchem.2009.126201
28.
Fisher R. 1966. The design of experiments.. 8. Hafner: Edinburgh:
29.
Motulsky H. 1995. Intuitive Biostatistics. New York: Oxford University Press.
30.
Ward JH. 1963. Hierarchical Grouping to Optimize an Objective Function. Journal of the American Statistical Association. 58(301):236-244. https://doi.org/10.1080/01621459.1963.10500845
31.
Lance GN, Williams WT. 1967. A General Theory of Classificatory Sorting Strategies: 1. Hierarchical Systems. The Computer Journal. 9(4):373-380. https://doi.org/10.1093/comjnl/9.4.373
32.
Rao C. 1964. The use and interpretation of principal components analysis in applied research..
33.
Hotelling H. 1933. Analysis of a complex of statistical variables into principal components.. Journal of Educational Psychology. 24(6):417-441. https://doi.org/10.1037/h0071325
34.
Pearson K. 1901. LIII. On lines and planes of closest fit to systems of points in space. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science. 2(11):559-572. https://doi.org/10.1080/14786440109462720
Chcete-li pokračovat, musíte se přihlásit.

Abyste mohli pokračovat ve čtení, přihlaste se nebo vytvořte účet.

Nemáte účet?