跳轉至內容
Merck
首頁qPCRPCR/qPCR 資料分析

PCR/qPCR 資料分析

A Technical Guide to PCR Technologies

PCR/qPCR定性資料分析

傳統的PCR完成後,資料會透過瓊脂糖凝膠或最近的毛細管電泳系統進行解析分析。對於某些應用,qPCR 將與用於分析的端點資料一起執行,例如 SNP 基因分型。在每種情況下,端點資料都能在 PCR 達到高原期後提供定性分析。在某些情況下,分析端點資料可能會對 PCR 產量進行半定量分析,但定量測量更常使用 qPCR 和定量週期值 (Cq)1 值分析。

qPCR 資料分析

在本指南中,強調了導致使用 PCR 或 qPCR 測量核酸變化的因素。這些因素中的每一個都應該進行優化,以獲得與反應中基因(目標)實際數量最接近的檢測值。這些過程的結果是為每個樣本中的每個目標產生一組 Cq  值。本章將介紹如何推導和分析這些 Cq 值,以提供代表生物故事的可靠資料。

得出準確的 Cq Values

基線校正

為每個樣本中的每個目標釐定一個 Cq 值。與不同儀器相關的不同分析套件,有不同的方法來確定 Cq (也使用不同的名稱,例如 Ct、Cp、取點)。深入探討所有這些演算法的細節超出了本指南的範圍。但是,基於擴增曲線的 qPCR 測量對背景螢光很敏感。本底螢光可能是由一系列因素造成的,包括塑膠容器的選擇、未滅絕的剩餘探針螢光、漏入樣品孔的光線,以及特定微孔板孔的光學檢測差異。在設計良好的檢測中,本底信號與放大信號相比較低。然而,背景信號的變化可能會妨礙不同樣品的定量比較。因此,校正造成基線差異的背景螢光變化(圖 10.1)非常重要。

放大圖的組成部分

圖 10.1擴增圖的成分。此圖顯示不同樣本的螢光隨著週期數的增加而增加。臨界值設定在檢測極限之上,但遠低於擴增速率減緩的高原階段。

一種常見的方法是使用早期週期(如週期 5 到 15 之間)的螢光強度來識別背景螢光中恆定的線性成分。然後將其定義為放大圖的背景或基線。由於瞬間效應,基線定義最好避開最初幾個循環(如循環 1 至 5),因為這些循環通常會顯示反應穩定的假象。用於基線修正的週期越多,基線變化的線性分量的潛在精確度就越高。許多儀器軟體套件允許手動設定用於基線定義的週期。

基線設置效果的一個示例顯示在 圖 10.1中。從圖中可以看出,Cq 值和放大圖的表面形狀會受到精確基線設定的影響。在範例中,標示 C3 的曲線的基線經過錯誤的手動調整,因此基線週期是由週期 5 到週期 31 的資料計算出來的。這導致曲線墜落至零基線水平(圖 10.2A),Cq 為 28.80。為了糾正這一點,查看原始數據 R,並找出線性背景的最後一個週期(擴大前的最後一個週期)。在 圖 10.2B中,可以看到這是週期 22。基線被正確設置為周期 5 和周期 22 之間的零 (圖 10.2C),然後對擴增圖形進行校正 (圖 10.2D)。修正後的 Cq 為 26.12。因此,請注意,在基線設定不正確和正確的情況下,Cq 值有很大的差異,這說明設定正確的基線是資料分析的重要組成部分。

基線設定不正確時,資料下降到歸一化螢光讀數零值以下的典型範例

圖 10.2A-B.A)基線設定不正確時,資料下降到歸一化螢光讀數零值以下的典型範例(藍色放大圖)。B) 相同放大圖的原始資料,顯示線性基線的極限,資料並無錯誤。

使用適當的軟體設定來定義基線開始和結束的界限

圖 10.2C-D.C)使用適當的軟體設定來定義基線開始和結束的界限。D)應用修正後的基線設定可獲得品質良好的資料

設定閾值

儘管有些研究人員主張映射個別的擴增圖形,以估算測量樣品中的擴增效率和目標量2,3,4。sup>2,3,4,但推導 Cq 的原始且最常見的方法是使用閾值。

閥值法背後的原理是:為了顯示來自 qPCR 擴增的相關螢光信號,信號必須增加,使其高於儀器的檢測限(因此也高於基線;圖 10.1)。實現這一目標所需的週期數目與樣本中目標物的初始起始拷貝數成正比。因此,如果原始拷貝數低,信號增加到基線以上需要更多的週期;如果拷貝數高,則需要更少的週期。由於基線設定在系統的偵測極限,因此在基線上進行的量測將會非常不準確。因此,與其測量到系統可偵測到的最小螢光強度,不如選擇較高的螢光,並引入人工臨界值。

臨界值強度的選擇需要遵守一些基本原則。對於給定的目標和所有要比較的樣品,閾值設定在固定的強度是很重要的。如果有太多樣本無法在單一板上進行比較,則必須採用板間校正方案,例如加入作為板間對照的複製對照或標準曲線序列稀釋。理論上,閾值可以設定在擴增曲線對數線性相位的任何位置。然而,實際上,擴增的對數線性相位可能會受到背景螢光基線漂移、高原相位或檢測效率差異的干擾,因此在較高週期時會出現擴增圖譜梯度。建議閾值設定如下:

  • 充分高於背景螢光基線,以有信心避免擴增圖因背景螢光而過早跨越閾值。
  • 在擴增圖形的對數階段,不受高原階段的影響(在對數視圖上查看擴增圖形最容易看出這一點, 圖 10.3A)。
  • 在所有放大圖的對數階段平行的位置。在 圖 10.3A中,以 Y 軸對數刻度觀察擴增圖形,從而提供擴增對數相位的視覺擴展,並將其呈現為擴增圖形的線性部分。閾值設定在此對數階段內的最高螢光強度 (參考 Y 軸),且所有的擴增圖形都是平行的。然後,刻度會返回線性檢視(圖 10.3B),顯示符合閾值設定要求的最高設定值。或者,也可以將臨界值設定在此對數階段的下端(圖 10.3C and 10.3D)。只要放大圖的對數階段是平行的,樣本間的ΔCq 就不會受到閾值設定的影響。
臨界值設定會影響記錄的絕對 Cq,並會影響樣品之間的ΔCq。

圖 10.3閾值設定會影響所記錄的絕對 Cq,並會影響樣品之間的ΔCq。A).使用數據的對數與線性繪圖,將臨界值設定在螢光強度最高但擴增繪圖顯示平行對數相位的位置。B).維持 A) 的閾值設定,並顯示在線性 vs 線性圖上。C).使用數據的對數與線性繪圖,將臨界值設定在螢光強度最低但擴增繪圖顯示平行對數相位的位置。D).維持 C) 的閾值設定,並顯示在線性對線性圖上。在每種情況下,樣本間的ΔCq 值都是相同的。

在分析中包含較高週期的資料時,在擴增圖表的對數線性相位平行的位置設定閾值的要求變得更加相關。在較高 Cq  的資料集上重複了針對 圖 10.3 中的資料所描述的閾值設定程序,結果顯示在 圖 10.4中。所得的 Cq data in Table 10.1 說明了 Cq的變化,更重要的是,說明了具有三個閾值設置的三個擴增圖的ΔCq 值(圖 10.4)。由於擴增圖並不平行,ΔCq 值以及各樣本中目標物相對量的估計高度依賴於閾值的設定(圖 10.4)。

Threshold 1
Cq
ΔCq (1)閾值 2
Cq (1) Cq
ΔCq (2)臨界值3 CqΔCq (3)
30.67 28.77 32.33
37.386.7135.176.439.316.98
35.034.3632.994.2236.884.55
表 10.1相對 Cq 值對閾值設定位置的依賴性。
所執行和展示的分析

圖 10.4.使用不同的資料集重複圖 10.3 所執行和展示的分析。在這種情況下,由於高 Cq 時的反應效率不同,擴增圖並不平行。A) 和 B) 的最低設定值與 C) 和 D) 的最高設定值所產生的 ΔCq 值不同(總結於表 10.1)。

qPCR 定量策略

準確的基線和閾值設定是可靠定量的必要條件。在設定每個基線和閾值後,會產生一個 Cq 值,並以此作為定量的基礎。

標準曲線定量

顧名思義,標準曲線定量需要使用標準曲線來確定測試樣本中的目標物量。因此,樣品的所有鑑定量都是相對於標準曲線所指定的量。這就需要在每組樣品反應的同時運行額外的外部標準。標準曲線材料的選擇對於消除由於樣品和標準品中檢測效率的差異而導致的潛在定量差異非常重要。外部標準物中的引物結合位點必須與目標物中的引物結合位點相同,包含與目標物相同的序列,具有相似的複雜性,並盡可能以相似的方式處理。因此,在測量 cDNA 中的目標物濃度時,最好是測量序列稀釋對照樣本中相同的 cDNA。然而,對於某些研究而言,有一些實際的原因無法做到這一點,因此盡可能地複製樣本條件是很重要的,例如:將與測試物種無關的物種的 gDNA 加入到人工寡核苷酸標準或攜帶標準序列的線性化質粒中。一旦確定了合適的構造或擴增子,就可以產生序列稀釋的標準曲線。每種標準品針對目標物的 Cq 都會被確定,並與濃度或相對濃度/稀釋因子以對數比例繪製成圖。這樣就形成了一條標準曲線,然後通過比較未知樣品擴增得到的 Cq 值來確定測試樣品的濃度。使用標準曲線進行定量時,閥值設定必須保持不變,以確定同一板上標準品及樣品的 Cq 。不同板間的閾值可能不同。

相對/比較定量

相對或比較定量使用 Cq 的差異來決定不同樣品中目標序列濃度的差異。與標準曲線法不同的是,它不是測量每個樣本的目標物量,而是顯示不同樣本間折疊變化的數據集。

在此方法的原始形式5中,所有檢測的效率都假設為 100%,因此假設 Cq & Cq為 100%。sub>q 差異為 1 (ΔCq =1)是由於目標物的 2 倍差異造成的。要確定目標或感興趣基因(GOI)的折點變化,資料還必須參考負載對照(參照基因,ref;有關資料規範化的討論,請參閱下文)。

建構標準曲線。

圖 10.5.建立標準曲線。將稀釋系列中每個樣品記錄的 Cq 對比相對濃度,以對數線性刻度繪製標準曲線。

在 公式 1中,2 個樣本(A 相對於 B)中經校正為參考基因後的 GOI 的比率測量為:2(假設反應100%有效)除以GOI的Cq 值差異的功率,再除以2,再除以參考基因的Cq 值差異的功率

原始 (Livak) 相對量化模型。

等式 1.原始 (Livak) 相對量化模型。

然而,正如 Assay Optimization and Validation中所說明的,反應的效率差異很大,這會對數據產生很大的影響。因此,針對 Equation 1 中的假設 (Equation 2)6,可以將反應效率的差異納入分析中。在這種情況下,擴增因子 2 由 PCR 的實際效率取代(由標準曲線分析決定;請參閱 Assay Optimization and Validation)。

效率適應 (Pfaffl) 相對量化模型

等式 2.效率適應 (Pfaffl) 相對量化模型

作為使用效率適應(公式 2)相對定量模型的一個示例,Cq 值集列於 表 10.2中。GOI的效率為1.8,參考基因的效率為1.94。

Threshold 1
Cq GOIΔCq GOIEΔCq GOICq RefΔCq RefEΔCq RefEΔCq GOI

EΔCq Ref
134 18 <
2268110.21711.9456.8
表 10.2使用 Cq 差異計算折疊變化(比率)的工作範例。

這是一個非常簡單的研究範例,要求測量兩個樣本中一個基因與單一參考基因進行規範化之後的折疊差。比值顯示了樣本 2 相對於樣本 1 的 GOI 折減變化,並修正為單一參考基因。然而,很明顯的是,選擇單一、適合的參照基因往往是不可能的,因此,有人提出了更複雜的歸一化方法。

正規化

大多數基於 PCR 的實驗的主要目的是解決樣品中是否存在目標(未知,UNK)這個基本問題。在最簡單的層面上,這個問題的答案是運行凝膠並檢查片段是否存在所需的 GOI。當片段存在時,片段大小的確認可確保結果呈陽性。但是,如果不存在,就有可能出現假陰性結果。因此,重複測試化驗並至少進行一次額外的 PCR 以作為上載和陽性 PCR 對照是非常重要的。通用的抑制對照檢測 SPUD(參見 Sample Purification and Quality-assessment)可用於支持對陰性結果的信心。另一種方法是進行對參考基因具有特異性的檢測。傳統上,檢測參考基因、GAPDH、18S 核糖體 RNA 或 β 肌動蛋白的 PCR 分析與檢測 GOI 的 PCR 分析同時進行,並在凝膠上顯現所產生的片段。GAPDH、18S 核糖體 RNA 及 β 動蛋白是構成性表達,因此在半定量分析中被用來當作負載對照。然而,不久之後發現這些基因並非在所有細胞中都以相同濃度廣泛表達,不論實驗設計為何。

標準化是將技術測量結果修正為穩定的參考值,以檢查真正的生物變異。將技術差異規範化的方法有很多,這意味著必須針對特定實驗選擇適當的方法並加以驗證7。必須認識到,採用不適當的歸一化技術可能比完全不歸一化更不利於整體分析過程8

樣品品質對分析歸一化的影響

我們已詳細討論了樣品的完整性和純度對 qPCR 和 RT-qPCR 的目標量測定的影響(

我們已詳細討論了樣品的完整性和純度對 qPCR 和 RT-qPCR 的目標量測定的影響(

Reverse Transcription、Reverse Transcription)。實驗證明,樣本中的抑制劑和 RNA 降解對特定目標9的測量有不同的影響。抑制劑會影響任何目標的測量,但程度不同,取決於分析設計。總 RNA 的降解會影響 mRNA 和 miRNA 的測量10,同樣也高度依賴於整體的實驗設計。因此,考慮模板濃度對 RT 反應的影響,以及樣本品質對標準化後數據的影響是非常重要的。歸一化不能抵消低品質檢測或樣品的影響(請參閱 Assay Optimization and Validation)。

歸一化方法

理想情況下,歸一化方法可抵消進行 qPCR 分析所需的多步過程中可能引入的變異性(圖 10.6)。但是,在過程中的任何一個階段應用歸一化方法,可能無法控制在較早或較後階段引入或將引入的技術錯誤和/或偏差。歸一化方法並非互相排斥,因此建議結合各種控制方法11

qPCR 是一個多步驟的過程,每個步驟都必須受到控制

圖 10.6.qPCR 是一個多步驟的過程,每個步驟都必須加以控制。必須在一系列的控制中考慮標準化。

歸一化的目的是提供一個穩定的參考點,讓測量結果可以參考;因此,歸一化因子的選擇必須是整個實驗過程中都穩定的測量結果。這可能是穩定的參考基因,或其中一種替代方法,例如細胞數、組織質量、RNA/DNA 濃度、外部尖峰12,或全球表達基因的代表性測量。

參考基因選擇

參考基因是其數量不會因為實驗而改變的目標。當量化 DNA 複本數變異時,其中感興趣序列的複本數可能會改變,因此只要以已知不會改變的替代基因組區域為目標,即可將測量歸一化。舉例來說,在量測人類表皮生長因子受體 2 (HER-2) 基因組擴大13時,就可以應用此方法。HER-2 基因組不穩定性是乳癌的預後指標,精確測量 HER-2 擴增狀態對病患管理非常重要。

在測量基因表達時,參考基因是指 mRNA 濃度不會因實驗而改變的靶點。舉例來說,在單層細胞中加入有絲分裂化合物後,就可以測量基因 X 表達的影響。為了測量基因 X 的變化,需要一個參考點。因此,另一個(或多個)已知不會受到有絲分裂原影響的基因也會被測量。這就提供研究人員一個直接的挑戰,就是在能夠研究 GOI 之前,先找到一個不受實驗程序影響的 mRNA 目標。這個參考基因的驗證過程是準確測量 GOI 的基礎。最廣泛使用的標準化方法是忽略這個過程,將基因表達資料標準化為單一、未驗證的參照基因。這種做法並不值得推薦,而且直接違反 MIQE 指引1。RT-qPCR 的 mRNA 定量通常會因為參考基因的錯誤選擇而受到影響。因為引物已經在冰箱裡、過去曾在 Northern 印迹上使用、同事使用過、或在其他實驗室的不同實驗中使用過,而按照相對普遍的做法使用參考基因是不可接受的。參考基因需要在特定的實驗情況下進行驗證,以確保相關的參考基因不會受到實驗的影響。如果沒有進行這項驗證,而參考基因受到實驗的影響,結果可能是不正確的,後續的詮釋很可能會產生無意義的資料8

有一系列的科學文獻描述了不同的歸一化方法7-14 也有大量的出版物描述了鑑定特定實驗情況下最合適的歸一化基因所需的協議。

選擇穩定的參考基因需要分析師在代表測試和對照 mRNA 的子集樣本上,評估一些(通常是 10 到 20 個基因)候選 mRNA 目標7 的 qPCR 的穩定性。完整的協議在 Appendix A, Protocols, of this guide and may be used in combination with different analytical methods using programs such as REST15, GeNorm14, Bestkeeper16, or NormFinder17.

參考基因穩定性分析

參考基因是 qPCR 相對定量分析的支點。因此,參考基因的穩定性對整個檢測的可靠性至關重要。如果參比基因的表達在不同樣本之間發生變化,這種變化會直接轉移到定量結果中,而增加的變化可能會掩蓋所希望觀察到的生物效應,更有甚者,可能會造成完全人工化的生物效應表象,這種生物效應與實際的相關基因無關。

可以說,最重要的安全措施是不只使用一個參考基因,而是兩個或更多。幾個參考基因的表達可以平均化,以減少由於規範化所造成的技術變異。這對於提高測量微小生物效應的顯著性很有幫助。然而,更重要的是,兩個或更多參考基因可提供相互控制,以維持穩定性,並控制可能影響其中一個參考基因表達水平的意外發生。

另一項安全措施是使用一種以上的方法來識別穩定的參考基因。

表 10.3 列出了我们之前与 EMBL 共同举办的研讨会上评估过的候选参考基因。樣本是從兩個不同處理組的人體細胞培養物中收集的。该数据集将用于演示参考基因验证的各个方面。

NormFinder 和 geNorm 算法在开发时都有一个假设,即测试众多候选参考基因可用于对单个候选参考基因的稳定性进行排序。舉例來說,如果所有候選參考基因都圍繞穩定的表達水準隨機變化,這個假設可能是真實的。然而,實際上未必如此。因此,為了避免誤導結果,謹慎的做法是避免使用受調控、特別是共同調控的候選參考基因。

參考基因加入編號。
118SNR_03286
2ACTBNM_001101
3ATP5BNM_001686
4B2MNM_004048
5CANXNM_001024649
6EIF4A2<NM_001967
7 EIF4A2 NM_002046
8GAPDHbNM_002046
9 GUSBGUSBNM_000181
10PPIANM_021130
11SDHANM_004168
12<TBPNM_003194
13TUBBNM_178012
14UBCNM_021009
15YWHAZNM_003406
表 10.3驗證參考基因的參考基因面板範例。為了達到精確的表現,避免共調控的參考基因候選是很重要的。

在 表 10.3 中所示的候選參考基因清單是特別挑選屬於不同功能類別的基因,以減少基因可能共調的機會。一個明顯的例外是 GAPDH,它在這裡有兩個版本。

第一個要展示的演算法是 geNorm。它透過計算稱為「M 值」的基因穩定性量度來評估基因的穩定性,而「M 值」則是基於所分析的候選參考基因與資料集中所有其他候選參考基因之間的成對比較。它是以迭代的方式執行的,也就是說,在這個範例中,首先在所有 15 個參考基因候選基因上執行該程序,移除最不穩定的候選基因,在其餘 14 個基因上重複該程序,移除第二個最不穩定的候選基因,如此類推,直到剩下兩個參考基因為止。

有時候,識別最穩定的參考基因可能特別具有挑戰性。其中一種情況可能是所有候選參考基因都表現不佳。另一種情況可能是所有候選參考基因都表現良好。為了區分這兩種情況,一個有用的準則是 M 值低於 0.5 的參考基因可被視為穩定表達。

要展示的第二個演算法是 NormFinder,這是一個免費提供的參考基因分析套件(附錄 B,其他資源)。其基本演算法採用類似方差分析的方法來評估參考基因的穩定性,即分析整體和子群的變異。這樣做的一個好處是所獲得的量測結果與基因表達水平直接相關。因此,Cq 單位的標準差 0.20 代表特定候選參考基因的拷貝數表達水平約 15%的變異。

為了方便起見,在這個示範中,這兩個分析套件都是使用 GenEx (MultiD) 資料分析軟體存取,但它們也可以獨立套件的方式取得(附錄 B,其他資源)。

在 圖 10.7 中顯示的柱狀圖說明了使用這兩種演算法根據各自的穩定性度量排序的參考基因。此外,顯示 NormFinder 累積標準偏差的圖表顯示,結合最多三個最佳參考基因可能會產生穩定性改善。

顯示穩定性措施的柱狀圖

圖 10.7.柱狀圖顯示穩定性量測:geNorm 的 M 值和 NormFinder 的標準偏差。此外,顯示 NormFinder 累積標準偏差的圖表顯示,最多三個最佳參考基因的組合可能會產生穩定性的改善。該資料集是針對表 10.3 所示的候選參考基因所設計的測試所產生,並在兩個不同處理組的人體細胞培養物上測量。請注意,在這個例子中,參考基因穩定性演算法 geNorm 和 NormFinder 對於最佳參考基因的看法並不一致。

各治療組兩個樣本的參考基因候選者的平均居中表達概況。

圖 10.8.每個治療組中兩個樣本的候選參考基因的平均中心表達圖。樣本 1 和 2 屬於第一處理組,樣本 3 和 4 屬於第二處理組。SDHA 和 CANX 的表達以紅色表示。UBC 的表達以黃色表示。表中列出了數據集中測得的 Cq 值。

由於表達曲線的偏差,SDHA和CANX有可能受到不同治療方案的調控,因此不適合作為參考基因。從資料集中移除這些基因並重複分析的結果是,兩種演算法的結果一致,參考基因的最佳選擇是 EIF4A2 和 ATP53(圖 10.9)。在 NormFinder 计算累积标准偏差时,也可以看出增加更多的参考基因并不能提高稳定性。

檢視表達輪廓和測得的 Cq 值

圖 10.9.檢視表達輪廓和測得的 Cq 值(圖 10.8),令人擔心 SDHA 和 CANX 可能在應用的檢測中共同調控。共同調控可能會破壞參考基因的穩定性演算法。柱狀圖顯示穩定性測量:A) geNorm 的 M 值和 B) NormFinder 的標準差。除了刪除 SDHA 和 CANX 的資料外,資料集與圖 10.8 所用的相同。請注意,在這個縮小的資料集中,參考基因穩定性演算法 geNorm 和 NormFinder 在最佳參考基因方面的結果是一致的。

本範例中的資料分析旨在說明,平行使用 geNorm 和 NormFinder 可以識別共調控的候選參考基因,並在進一步研究中剔除這些基因,最終識別出的參考基因比使用單一分析後更有信心採用。鑑定和選擇穩定的參考基因可使資料分析更有保障。

替代的歸一化方法

儘管參照基因歸一化是最常見的檢測歸一化方法,但在某些情況下這種方法並不適用,例如需要比較異質樣本群中的大量基因,或進行 miRNA 分析時。

根據組織質量或細胞數進行歸一化

測量細胞數或組織質量以作為歸一化因子並不如乍看之下那麼簡單。細胞培養實驗比較容易根據細胞數進行歸一化。然而,添加處理方法可能會影響細胞形態,使得與對照培養物比較時,細胞數量與總 RNA/基因表達的比率變得複雜。

生物組織在受試者內部和受試者之間可能具有高度的異质性,當健康組織與患病組織比較時,變異更為明顯。

即使是表面上不那麼複雜的組織(例如血液),其細胞數量和組成也可能有相當大的差異,因此表面上健康的捐贈者之間的基因表達也會有相當大的差異18

用於純化核酸的過程中的任何延遲都會導致測量的 RNA 發生變化。例如,處理外周血單核細胞和從細胞中萃取 RNA 的延遲,會導致基因表達出現相當大的變化19。萃取程序的基本方法也是技術變異的主要來源。即使是血液衍生細胞取樣和 RNA 純化所選擇的分離程序,也會造成表觀基因表達圖譜的差異20。因此,標準化的第一個考量是確保所有樣本的收集與處理過程完全相同。然後,進行充分的品質控制以確定樣品的濃度、完整性和純度是非常重要的(Sample Purification and Quality Assessment and associated protocols in 附錄 A)。

歸一化至 RNA 濃度

至少,模板濃度(qPCR 用 DNA 或 RT-qPCR 用 RNA)的估算是重要的,而且,正如在&.nbsp;Reverse Transcription)。

全局基因表達的正規化

測量大量目標時,分析師可以估計全局基因表達的平均值,並找出偏離這個平均值的受調節 RNA 序列。這種方法通常用於基因表達陣列的規範化。

最近探索的另一種方法是測量存在於許多 mRNA 中的內源表達重複元素 (ERE)。許多物種都含有這些重複元件 (靈長類動物的 ALU、小鼠的 B 元件),可以提供 mRNA 部分的估計。對這些目標序列的測量已被證實具有傳統歸一化系統的性能9  (Le Bert, et al., in preparation),可為複雜的實驗提供通用的解決方案或替代方案,因為在這些實驗中沒有穩定的參考基因組合。

miRNA數據的歸一化

目前還沒有關於miRNA通用參考基因的報告。因此,歸一化系統的選擇仍是相當經驗性的。在可能的情況下,可從全基因組方法(即微陣列)中找出穩定不變的 miRNA。小核細胞 RNA(snoRNA)也被用作參考基因。全基因表達也是一種有用的 miRNA 表達規範化方法,當一個穩定的參考基因不詳,而又分析了幾百個靶點時21,22,23。這種方法比較適合那些使用以複用形式捕獲所有 miRNA 的 cDNA 的方法,例如

生物和技術複製

歸一化的目的是避免系統性錯誤,並減少最終統計分析的資料變異性。為統計分析設定資料的另一個重要方面是使用資料複製品。

生物複製品對於統計分析來說是絕對必要的。統計顯著性等級通常設定為 5%的顯著性臨界值。對於接近這種顯著性水平的生物效應,可能需要至少 20 個生物複製品來決定測試的顯著性水平(1:20 對應 5%)。事實上,有人認為要準確估計顯著性25,至少需要記錄 50 倍的觀察數量,也就是大約一千個生物樣本。當然,實際的限制很少允許在這些水平上進行生物複製。此外,要達到特定顯著性水準所需的生物複製樣本數量的準確估計也取決於資料的變異性水準。儘管如此,重要的是要意識到一個常見的錯誤是低估能夠得出可靠結論所需的生物複製品數量。我們建議進行初步的試驗研究,以評估化驗的固有變異性和可觀察到的生物效應的潛在大小,從而為估計必要的生物複製品數量26奠定良好的基礎。

技術複製品並不直接用於統計分析。

技術複本並不直接用於統計分析,而是用於備份樣本(以防某些樣本在技術處理過程中遺失)和改進數據準確性的評估。如果假設成立,即技術複本在技術處理過程中的每個階段都會隨機地圍繞精確測量值變化,則技術複本可以提高數據的精確度。技術複本的平均值更接近精確測量。技術複本平均化的效果可以透過注意模擬資料集的置信區間大小來說明,該資料集具有預先設定的變異性,即標準差設為 1。如 表 10.4所示,置信區間隨著技術複本 (樣本) 數量的增加而變小,這表明精確測量的估計更加精確。此外,置信區間的收窄在技術複本數較少時最為顯著。將重複樣本數從 2-3 增加,置信區間會從 8.99-2.48 縮小,也就是說,精確測量的估計精確度提高了 3 倍以上。雖然增加複製次數會繼續改善量測精確度的估計值,但效果的幅度是遞減的。因此,很明顯,在技術處理變異是一個問題的情況下,使用三重複本而不是二重複本可能會有很大的優勢。

Samples Cl (α=0.05 and SD=1)
28.99
32.48
41.59
51.24
100.72
200.47
500.28
表 10.4標準差為 1 且 α 置信度為 5%、標準化估計平均值的置信區間大小。置信區間隨著技術複製樣品數量的增加而變小,這表示在複製樣品數量較多時,可以更精確地估計精確的測量結果。

在整個樣本處理過程中,包括 RNA 提取、反轉錄和 qPCR 檢測,可以在多個階段收集技術複本。如果在幾個階段都檢測到技術複製品,就會產生嵌套實驗設計。利用嵌套實驗設計的先導研究可能有助於找出造成技術處理錯誤最多的樣本處理階段,並根據這些資訊計算出最佳的取樣計劃27

統計分析和資料可視化

生物資料的科學分析以假設的提出和測試為中心。提出假設需要詳細瞭解檢驗的條件和變數。假設的成功測試需要謹慎的執行和適當的實驗設計,以最大化所需的可觀察信號,同時最小化技術變異。在這種情況下,區分探索性研究和確認性研究是有用的(圖 10.10)。

流程圖說明探索性和確認性統計分析所涉及的操作。

圖 10.10.探索性和確認性統計學分析的操作流程圖。在虛線箭頭之前,圖中左側顯示的是探索性統計研究中的操作。圖中虛線箭頭之後的右側顯示的是確認性統計學研究中的操作。

探索性研究的目的是使用一種或幾種不同的技術分析資料,以便證實一個假設。為了支持一個或幾個假設,資料集可以重新定義,並且/或者重複使用不同的分析技術。因此,探索式研究對於任何科學問題的具體細節都非常靈活。然而,在一個資料集上重複探究測試假設,可能會導致一些問題,破壞統計結論。這是因為多重測試的關係,多重測試指的是有幾個獨立假設的統計測試更有可能得到正面的顯著性,而且隨著測試的假設增加,這種機會也會增加,即使基本的概率分布是相同的。

為了避免誤導性的統計結果,探索性研究通常會結合確證性研究。

確證性研究的要求基於更嚴格的統計標準。首先,研究的假設(包括顯著性標準)需要在收集資料和分析之前定義好。此外,用於分析的資料集必須是專門為此目的收集的。在確認性研究中重複使用探索性研究的資料集在統計學上是不對的,因為該資料集本質上會偏向於所提出的假設。

統計測試

對於統計測試,我們會分析觀察到的現象是隨機發生的可能性。這稱為零假設28。如果根據 Null 假設,觀察到的現象很罕見,那麼結論就是 Null 假設不可能成立。

觀察到的現象因隨機機會而發生的估計可能性稱為 p值。 p值的測量範圍是 0 到 1,或等同於百分比單位。證實性研究的統計標準包括一個 alpha 臨界值,在此臨界值下,計算出的 p值將顯示觀察到的現象的顯著性。

許多演算法已經被開發出來,用於在各種假設和不同目的下計算 p值。一個常見的演算法是學生 t 檢驗。學生 t 檢定用於根據兩組資料平均值的差異計算 p值。學生 t 檢定的主要假設是兩組資料是獨立且符合正態分佈。與非參數統計檢驗相比,Student's t 檢驗的優點在於其功能強大29。與學生 t 檢定等效的非參數檢定可能是最著名的非參數統計檢定之一;Wilcoxon 秩和檢定(有時稱為 Mann-Whitney U 檢定;不要與 Wilcoxon 符號秩和檢定混淆,後者用於比較兩個配對組別)。非參數統計檢驗(如 Wilcoxon 秩和檢驗)比參數統計檢驗(如學生 t 檢驗)優勝之處在於它們不依存於資料集分佈的先驗假設。可以使用 Kolmogorov- Smirnov 的正態分布檢驗來決定是應用 Student's t-test 還是非參數檢驗之一

除了選擇算法為&.nbsp;p值计算算法的选择之外,还可以对输入到 p值计算算法中的数据集进行处理,以便于观察数据集中所需的属性。原始資料處理步驟和選擇 p值計算演算法的組合是建立假設模型的一部分。

在統計分析的探索階段中,建立假設模型的自由度很高,這是科學探究的重要部分。但是,使用科學的統計方法永遠無法證明假設。正確的科學方法是提出一個 Null 假設,使用獨立(最好是新收集的)資料集,並根據確認性研究流程圖(圖 10.10)接受或拒絕 Null 假設。

單元分析的可視化技術

正如有許多可用的分析方法一樣,也有許多資料可視化技術可供選擇。对于单变量数据分析,带有相关误差条的简单条形图是一种合适的可视化技术。儘管這是一種常見且簡單的視覺化技術,但仍有一些問題值得強調。首先,誤差柱可以說明不同的變異性來源;資料的固有變異性(標準差,SD)或釐定平均值的精確度。其次,平均值確定的精確度可以用不同的方式來說明,但它最終取決於資料的固有變異性與樣本數 (N) 的組合,其原始形式稱為平均值的標準誤差 (SEM, 公式 1):

SEM

等式 1. SEM

然而,SEM 並不是一個非常直觀的量度,而且要以有意義的方式比較不同實驗的 SEM 並不簡單。以圖表方式說明估計平均值的精確度和顯示統計顯著性的更常用方法是置信區間 (CI, 公式 2):

Cl

等式 10-2.Cl

在置信區間的等式中,可以看到 SEM 的存在,即標準差 (SD) 與樣本數 (N) 的平方根之間的比率,因此很明顯,置信區間是基於 SEM 的。置信區間的下限是由平均值減去 SEM 乘以 t 分布的百分位數而得。置信區間的上限是由 SEM 乘以平均值的 t 分佈百分位數所組成。置信區間的置信水平由與臨界值 t* 相關的置信水平設定;通常是 95% 的置信水平。

圖 10.11 顯示了一條柱形圖,其中的誤差條表示每個實驗組內 95% 的置信區間,突顯了在使用多種藥物劑量治療後,來自不同器官的樣本中基因表達的平均估計值相關的不確定性。此外,還顯示了對照樣本與來自不同藥物劑量反應的三個不同樣本中每個樣本的基因表達差異的 t 檢驗統計顯著性 p值,以星號符號表示。慣例是一個星號對應於低於 0.05 的 p值,兩個星號對應於低於 0.01 的 p值,三個星號對應於低於 0.001 的 p值。

相關基因相對於一對參考基因的折現變化 (log2) 表達量

圖 10.11.相對於每種器官類型中表現最低的樣本,相關基因相對於一對參考基因的表現折(log2)變化。柱高表示未處理(劑量 0)樣本或以三種不同藥物劑量(劑量 1、劑量 2 及劑量 3)之一處理的樣本中,幾個樣本中基因的平均表達量。誤差條表示平均表達量的 95% 置信區間估計值。一個星號表示經處理的樣本集的平均值與未經處理的樣本集的平均值相比,在統計學上有 5%的顯著差異;兩個星號表示在統計學上有 1%的顯著差異;三個星號表示在統計學上有 0.1%的顯著差異。

鑒於星號符號隱藏了 Table 10.5 中的範例所示。這背後的一個原因是,例如 0.032 的 p 值稍微「顯著」一些。當決定將資料分類為顯著時,應該精確地使用哪個臨界值時,像這樣的邊界情況可能會導致一些混淆。在現實情況中,0.051 的 p 值同樣顯著。8125rem;">p值為 0.049,但嚴格(雖然基本上是隨意)的 0.05 分界線會將其中一個歸類為顯著,而另一個則歸類為不顯著。

Gene Expression p-values
 0.702740.00034***0.781940.05551
0.01379*0.00295**0.209560.07582
0.03180*0.00157**0.615820.00075***
表 10.5平均值差異的顯著性估計。將處理後的樣本集的相關基因表達均值與未處理樣本的均值進行比較,並相對於兩個參考基因的表達數據進行表達。數據是相對於每個器官類型中表達量最低的樣本來表達的(圖 10.12 所示的數據)。使用學生 t 檢驗得出 p 值。

然而,条形图可视化有一个变体,它利用均值之差的置信区间来避免传统条形图的许多(如果不是全部)缺点24。利用均值差的置信區間,我們可以直接估算統計顯著性和相關的誤差條,同時突出生物效應大小和資料的變異性。 圖 10.12 顯示了在 圖 10.11中使用的資料均值差的置信區間變異。請注意,不包含均值間差異為零的置信區間對應於與 p值截止值( 圖 10.11 和 表 10.5中的 5%)相對應的置信水平下的顯著結果。

顯示未處理樣本集平均值差異的柱狀圖

圖 10.12.柱狀圖顯示圖 10.11 資料集中未處理的樣本集(劑量 0)與處理的樣本集之一(劑量 1、劑量 2 或劑量 3)的平均值之間的差異。誤差條顯示平均值差異的置信區間。不與 x 軸交叉的誤差條表示對應的均值比較在 t 檢驗中具有 5%的統計顯著性。PCR Technology, Current Innovations-3rd ed. 由 Taylor and Francis Group LLC Books 出版。經Taylor and Francis Group LLC Books許可,透過版權清算中心以書籍/電子書的格式重複使用。

多變量數據是針對每個取樣單位收集的多個變量的數據。 圖 10.11 和 10.12 中使用的數據是多變數,因為它們取決於劑量和器官類型等變量。然而, 圖 10.11 和 10.12 中的統計分析仍然是單變量的,因為每個表示(條狀圖)僅說明一個變量(基因表達)相對於其他變量的固定測量。對於多變數資料分析技術,層次聚類和主成分分析是資料表示的好選擇。

分層聚類

表徵資料最簡單有用的方法之一是將資料繪製成散點圖(例如繪製測量的 Cq&Cq&Cq&Cq)。sub>q 值與另一名基因的相應 Cq 值進行二維繪圖)。一維或二維圖表方便人眼觀察。使用適當的工具也可繪製三維圖表,但較高維的圖表顯著較難視覺化。然而,對於探索性研究而言,資料集本身就是多維的,因此整個資料集的散點圖可能會變得不切實際。

從一個 qPCR 資料集來看,舉例來說,可能有多個基因和/或多種類型的生物樣本代表。

對於探索性研究的資料進行特性化和可視化的另一種流行方式,是分析散點圖中資料點之間的距離量度。目前存在不同的距離量度,包括歐氏、曼哈頓和皮爾森相關。隨著計算能力的提升,即使是維度遠高於三維的多維資料,也可以直接計算距離。對於聚合分層聚類,會執行以下迭代過程:1) 尋找兩個最接近的物件,並將它們合併為一個群集;2) 透過聚類方法將新群集定義為新物件;3) 重複 1) 直到所有物件都合併為群集30。聚類方法的選擇包括 Ward 法、單一連結法和平均連結法31

解釋 qPCR 資料的分層聚類樹枝圖通常會得出基因表達圖譜相似性的結論。在探索性研究中,這些相似性可能會被用來提出基因表達核心調控的假設,這些假設可能會在隨後的確認性研究中被接受或否決。分層聚類樹狀圖的優點包括相似性關係可視化的清晰度。另一方面,對相似性量測的強烈強調可能會被視為對提出假設的限制,因為相似的表達剖面可能是假設中多餘的屬性。為了回答所需的假設,找出以特定組合互補的表達剖面集可能具有更高的價值。

主成分分析

另一種探索性研究資料特性化和可視化的流行替代方法,是利用整個多維資料集中所包含的資訊,選擇所需的特性,並將其投影到較低維的散點圖上,例如 2D 或 3D 圖。這可以使用主成分分析 (PCA)32,33,34, 35 來實現。在這裡,資料集(即 qPCR 測量的表達剖面)的原始坐標系被轉換到一個新的多維空間,在這個空間中,新的變數(主成分:PC 或因子)被建構出來。每個 PC 都是原始資料集中受試者的線性組合。根據數學定義,PC 是依重要性順序萃取的。這表示第一個 PC 可以解釋資料中的大部分資訊(變異),第二個 PC 則較少,如此類推。因此,前兩或三個 PC 坐標(稱為分數)可用於將整個資料集投影到一個方便的小維度上,適合在 2D 或 3D 圖中進行可視化。使用前兩個或三個 PC 來表示,就可以得到最能反映資料集變異性的投影。來自實驗設計條件的變異預期是系統性的,而混雜變異則預期是隨機的,因此在適當的條件下,這種表示方法可能是合適的。

正如之前提到的層次聚類,qPCR PCA 的詮釋通常會得出基因表達剖面相似性的結論。雖然 PCA 和分層聚類可能會產生互補的基因表達共調控模式洞察力,但兩種技術都著重於基因表達剖面的相似性。這就限制了單獨使用這些技術進行探索性研究時可發現的假設類型。為了擴大探索性研究中生成假設的範圍,最近有人提出了一種假設驅動的多元分析方法24。假設驅動、自訂設計的演算法可以找出生物相關的假設,否則常用的多元資料分析技術可能會遺漏這些假設。

材料
抱歉,發生意外錯誤。

Network error: Failed to fetch

1.
Bustin SA, Benes V, Garson JA, Hellemans J, Huggett J, Kubista M, Mueller R, Nolan T, Pfaffl MW, Shipley GL, et al. 2009. The MIQE Guidelines: Minimum Information for Publication of Quantitative Real-Time PCR Experiments. 55(4):611-622. https://doi.org/10.1373/clinchem.2008.112797
2.
Guescini M, Sisti D, Rocchi MB, Stocchi L, Stocchi V. 2008. A new real-time PCR method to overcome significant quantitative inaccuracy due to slight amplification inhibition. BMC Bioinformatics. 9(1): https://doi.org/10.1186/1471-2105-9-326
3.
Rutledge RG, Stewart D. 2008. Critical evaluation of methods used to determine amplification efficiency refutes the exponential character of real-time PCR. BMC Mol Biol. 9(1):96. https://doi.org/10.1186/1471-2199-9-96
4.
Rutledge RG, Stewart D. 2008. A kinetic-based sigmoidal model for the polymerase chain reaction and its application to high-capacity absolute quantitative real-time PCR. BMC Biotechnology. 8(1):47. https://doi.org/10.1186/1472-6750-8-47
5.
Livak KJ, Schmittgen TD. 2001. Analysis of Relative Gene Expression Data Using Real-Time Quantitative PCR and the 2???CT Method. Methods. 25(4):402-408. https://doi.org/10.1006/meth.2001.1262
6.
Pfaffl MW. 2001. A new mathematical model for relative quantification in real-time RT-PCR. 29(9):45e-45. https://doi.org/10.1093/nar/29.9.e45
7.
Dheda K, Huggett JF, Bustin SA, Johnson MA, Rook G, Zumla A. 2004. Validation of housekeeping genes for normalizing RNA expression in real-time PCR. BioTechniques. 37(1):112-119. https://doi.org/10.2144/04371rr03
8.
Dheda K, Huggett J, Chang J, Kim L, Bustin S, Johnson M, Rook G, Zumla A. 2005. The implications of using an inappropriate reference gene for real-time reverse transcription PCR data normalization. Analytical Biochemistry. 344(1):141-143. https://doi.org/10.1016/j.ab.2005.05.022
9.
Vermeulen J, De Preter K, Lefever S, Nuytens J, De Vloed F, Derveaux S, Hellemans J, Speleman F, Vandesompele J. 2011. Measurable impact of RNA quality on gene expression results from quantitative PCR. 39(9):e63-e63. https://doi.org/10.1093/nar/gkr065
10.
Ibberson D, Benes V, Muckenthaler MU, Castoldi M. 2009. RNA degradation compromises the reliability of microRNA expression profiling. BMC Biotechnology. 9(1):102. https://doi.org/10.1186/1472-6750-9-102
11.
Huggett J, Dheda K, Bustin S, Zumla A. 2005. Real-time RT-PCR normalisation; strategies and considerations. Genes Immun. 6(4):279-284. https://doi.org/10.1038/sj.gene.6364190
12.
Mitsuhashi M, Tomozawa S, Endo K, Shinagawa A. 2006. Quantification of mRNA in Whole Blood by Assessing Recovery of RNA and Efficiency of cDNA Synthesis. 52(4):634-642. https://doi.org/10.1373/clinchem.2005.048983
13.
Whale AS, Huggett JF, Cowen S, Speirs V, Shaw J, Ellison S, Foy CA, Scott DJ. 2012. Comparison of microfluidic digital PCR and conventional quantitative PCR for measuring copy number variation. 40(11):e82-e82. https://doi.org/10.1093/nar/gks203
14.
Vandesompele J, De Preter K, Pattyn F, Poppe B, Van Roy N, De Paepe A, Speleman F. 2002. Genome Biol. 3(7):research0034.1. https://doi.org/10.1186/gb-2002-3-7-research0034
15.
Pfaffl MW. 2002. Relative expression software tool (REST(C)) for group-wise comparison and statistical analysis of relative expression results in real-time PCR. 30(9):36e-36. https://doi.org/10.1093/nar/30.9.e36
16.
Pfaffl MW, Tichopad A, Prgomet C, Neuvians TP. 2004. Determination of stable housekeeping genes, differentially regulated target genes and sample integrity: BestKeeper ? Excel-based tool using pair-wise correlations. Biotechnology Letters. 26(6):509-515. https://doi.org/10.1023/b:bile.0000019559.84305.47
17.
Andersen CL, Jensen JL, Ørntoft TF. 2004. Normalization of Real-Time Quantitative Reverse Transcription-PCR Data: A Model-Based Variance Estimation Approach to Identify Genes Suited for Normalization, Applied to Bladder and Colon Cancer Data Sets. Cancer Res. 64(15):5245-5250. https://doi.org/10.1158/0008-5472.can-04-0496
18.
Eady JJ, Wortley GM, Wormstone YM, Hughes JC, Astley SB, Foxall RJ, Doleman JF, Elliott RM. 2005. Variation in gene expression profiles of peripheral blood mononuclear cells from healthy volunteers. Physiological Genomics. 22(3):402-411. https://doi.org/10.1152/physiolgenomics.00080.2005
19.
Barnes MG, Grom AA, Griffin TA, Colbert RA, Thompson SD. 2010. Gene Expression Profiles from Peripheral Blood Mononuclear Cells Are Sensitive to Short Processing Delays. Biopreservation and Biobanking. 8(3):153-162. https://doi.org/10.1089/bio.2010.0009
20.
Debey S, Schoenbeck U, Hellmich M, Gathof BS, Pillai R, Zander T, Schultze JL. 2004. Comparison of different isolation techniques prior gene expression profiling of blood derived cells: impact on physiological responses, on overall expression and the role of different cell types. Pharmacogenomics J. 4(3):193-207. https://doi.org/10.1038/sj.tpj.6500240
21.
Mestdagh P, Van Vlierberghe P, De Weer A, Muth D, Westermann F, Speleman F, Vandesompele J. 2009. A novel and universal method for microRNA RT-qPCR data normalization. Genome Biol. 10(6):R64. https://doi.org/10.1186/gb-2009-10-6-r64
22.
Mestdagh P, Derveaux S, Vandesompele J. 2012. Whole-Genome RT-qPCR MicroRNA Expression Profiling.121-130. https://doi.org/10.1007/978-1-61779-424-7_10
23.
D?haene B, Mestdagh P, Hellemans J, Vandesompele J. 2012. miRNA Expression Profiling: From Reference Genes to Global Mean Normalization.261-272. https://doi.org/10.1007/978-1-61779-427-8_18
24.
Nolan T, Bustin SA. 2013. PCR Technology: Current Innovations. 3. CRC Press.
25.
Manly B. 1998. Randomization, Bootstrap and Monte Carlo Methods.. 2. Chapman Hall:
26.
Kitchen RR, Kubista M, Tichopad A. 2010. Statistical aspects of quantitative real-time PCR experiment design. Methods. 50(4):231-236. https://doi.org/10.1016/j.ymeth.2010.01.025
27.
Tichopad A, Kitchen R, Riedmaier I, Becker C, Sta?hlberg A, Kubista M. 2009. Design and Optimization of Reverse-Transcription Quantitative PCR Experiments. 55(10):1816-1823. https://doi.org/10.1373/clinchem.2009.126201
28.
Fisher R. 1966. The design of experiments.. 8. Hafner: Edinburgh:
29.
Motulsky H. 1995. Intuitive Biostatistics. New York: Oxford University Press.
30.
Ward JH. 1963. Hierarchical Grouping to Optimize an Objective Function. Journal of the American Statistical Association. 58(301):236-244. https://doi.org/10.1080/01621459.1963.10500845
31.
Lance GN, Williams WT. 1967. A General Theory of Classificatory Sorting Strategies: 1. Hierarchical Systems. The Computer Journal. 9(4):373-380. https://doi.org/10.1093/comjnl/9.4.373
32.
Rao C. 1964. The use and interpretation of principal components analysis in applied research..
33.
Hotelling H. 1933. Analysis of a complex of statistical variables into principal components.. Journal of Educational Psychology. 24(6):417-441. https://doi.org/10.1037/h0071325
34.
Pearson K. 1901. LIII. On lines and planes of closest fit to systems of points in space. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science. 2(11):559-572. https://doi.org/10.1080/14786440109462720
登入以繼續

若要繼續閱讀,請登入或建立帳戶。

還沒有帳戶?

為便利客戶閱讀,此頁面中文以機器翻譯完成。雖然我們已盡力確保機器翻譯的準確性,但機器翻譯並非完美。如果您對機器翻譯的內容不滿意,請參考英文版本。