PCR/qPCR定性数据分析
传统的PCR完成后,会通过琼脂糖凝胶——最近更常使用的是毛细管电泳系统——来分辨并分析数据。在某些应用中,例如SNP基因分型,将使用用于分析的端点数据来运行qPCR。在每一种情况下,端点数据都将在PCR达到平台期后提供定性分析。在某些情况下,有可能分析端点数据以对PCR产量进行半定量分析,但更多时候则使用qPCR并对定量循环值 (Cq)1进行分析以进行定量测定。
qPCR数据分析
本指南中,重点强调了使用PCR或qPCR测定核酸时,导致变化产生的因素。为了使得到的测定结果最大可能地接近于反应中基因(靶点)的实际数量,应对每一个因子进行优化。 这些优化过程会为每个样品中的每个靶点生成一组Cq值。本章介绍了推导和分析这些Cq值从而得到可以代表生物学情况的可靠数据的过程。
推导准确的Cq值
基线校正
确定每个样品中每个靶点的Cq值。不同的分析方法结合不同的仪器,采用不同的途径来确定Cq(并且也使用不同的名称,例如,Ct、Cp、出发点)。对所有这些算法的深入研究不属于本指南的范围。然而,基于扩增曲线的qPCR测定对背景荧光敏感。背景荧光可能由一系列因素引起,包括塑料器皿的选择、未被淬灭的剩余探针荧光、泄漏到样品孔中的光以及对给定微量滴定板的光学检测的差异。在设计良好的测定中,与扩增信号相比,背景是比较低的。但是,背景信号的变化可能妨碍不同样品的定量比较。因此,校正导致基线差异的背景荧光变化是非常重要的(图10.1)。
图 10.1扩增曲线的组成。该图显示了不同样品中,荧光随循环数增加而增加。阈值设置在检测限以上,但远低于扩增速率放缓的平台期。
通常使用早期几个循环(如第5到第15个循环)的荧光信号强度来确定背景荧光的一个恒定线性部分。然后将其设置为扩增曲线的背景或基线。由于瞬时效应,最开始的几个循环(如第1到第5个循环)通常会显示出反应稳定的假象,因此建议在基线定义中将其避开。在基线校正中使用越多的循环,则基线变化的线性部分的潜在准确性越高。很多设备的软件包都允许人工设置用于基线定义的循环数。用户应该探索这些功能,抵制接受默认设置的诱惑。
图10.1是一个基线设置的效果示例。如图所示,Cq值和扩增曲线的形状受到精确的基线设置的影响。该示例中,标注为C3的曲线的基线被错误地手动调节,从而使得第5到第31个循环的数据被用于基线的计算。这导致曲线下降到零基线水平以下(图10.2A),同时Cq值为28.80。为了改正错误,查看原始数据R,确认线性背景的最后一个循环(扩增前的最后一个循环)。从图10.2B可以看出,这是第22个循环。在第5和第22个循环之间,基线被正确设置为零(图10.2C),随后扩增曲线也被校正(图10.2D)。校正后的Cq值为26.12。因此,正确和不正确的基线设置会导致Cq值的显著差异,由此证明,设置正确的基线是数据分析的一个重要组成部分。
图 10.2A–B. A)当基线设置不正确时,数据落入标准化荧光读数零点以下的典型示例(蓝色扩增曲线)。B) 同一个扩增曲线的原始数据显示了基线的线性范围并且该数据没有出错。
图 10.2C–D. C)使用适当的软件设置来定义基线的起始和终止范围。D) 应用经校正的基线设置可以得到高质量的数据
设置阈值
虽然一些研究者提倡绘制单独的扩增曲线来估计测量样品的扩增效率和靶点数量2,3,4,但最早和最常见的推导Cq的途径是使用阈值。阈值法是一种简单、高效的定量方法,因而被广泛使用。
阈值法的原理是,为了使得qPCR扩增相关的荧光信号可视化,信号必须增加直到超过仪器的检测限(基线;见图10.1)。达到这一点需要的循环数与样品中靶点的起始拷贝数成比例。因此,如果原始拷贝数低,则信号增加到超过基线需要的循环数就多,而如果拷贝数高则循环数就少。由于基线设置为系统的检测限,因此基线处的测量结果将会非常不准确。因此,在测量时会选择更高的荧光强度并引入人工阈值,而不是系统可以检测到的最低的荧光强度。
阈值强度的选择需要遵守几个基本原则。对于给定的靶点和其他用来比较的样品,将阈值设为固定强度是很重要的。如果在同一个平板上有太多样品,则需要采用板间校准方案,例如,包括用作板间参照或者标准曲线的连续稀释的重复参照。理论上,阈值可以设置在扩增曲线对数线性期的任意位置。但是,实际应用中,扩增曲线的对数线性期会受到很多因素的干扰,如背景荧光基线漂移、平台期或者由于测定效率的不同导致的扩增曲线在较高循环时斜率的不同。建议按以下条件设置阈值:
- 阈值需设置得足够高于背景荧光基线,确保避免由于背景荧光而导致扩增曲线过早地超过阈值。
- 阈值需设置在扩增曲线的对数期,以避免受到平台期的影响(在对数图上观察扩增曲线最容易发现这一点,图10.3A)。
- 阈值需设置在所有扩增曲线的对数期平行的位置。
阈值设置过程如图10.3所示。在图10.3A中,对数曲线的Y轴为对数刻度,从而将扩增的对数期进行视觉扩展,呈现为扩增曲线的一个线性部分。阈值设置为最高的荧光强度(参考Y轴),位于对数期且该位置上所有的扩增曲线都是平行的。然后将刻度返回到线性视图(图10.3B)以显示满足阈值设置要求的最高设置。或者,可以将阈值设置在对数期的较低端(图10.3C和10.3D)。只要扩增曲线的对数期是平行的,样品之间的ΔCq 就不会受到阈值设置的影响。
图 10.3阈值设置会影响记录的绝对Cq ,并可能影响样品间的ΔCq 。A).使用对数vs线性图分析数据,阈值设置为扩增曲线平行对数期上的最高荧光强度。 B).阈值设置同A)但显示为线性vs线性图。C).使用对数vs线性图分析数据,阈值设置为扩增曲线平行指数期上的最低荧光强度。D).阈值设置同C)但显示为线性vs线性图。在每种情况下,样品间的ΔCq 值是相同的。
当分析包括较高循环的数据时,为了更高的相关性,阈值被要求设置在扩增曲线平行的对数线性期上。对更高Cq的数据集,重复之前描述的针对图10.3中数据的阈值设置程序,结果见图10.4。表10.1中得到的 Cq数据显示了Cq的变异性,以及更重要的,显示了三种阈值设定的三个扩增曲线的ΔCq 值(图10.4)。由于扩增曲线不是平行的,ΔCq 值和由此对每个样品中靶点相对数量的估算极大地依赖于阈值的设置(图10.4)。
图 10.4.使用一个不同的数据集重复图10.3演示的分析过程。在这种情况下,由于在高Cq时反应效率的不同,导致了扩增曲线不是平行的。A)和B)中使用最低设置而C)和D)则采用最高设置,导致了两者的ΔCq值不同(归纳于表10.1)。
qPCR定量策略
正确的基线和阈值设置对于可靠的定量而言是必需的。设置完成后,可生成一个Cq值并将其作为定量的基础。然后使用标准曲线或相对/比较定量来确定指定样品中的靶点数量。
标准曲线定量
顾名思义,标准曲线定量需要使用标准曲线来确定测试样品中靶点的数量。因此,为样品确定的数量与标准曲线指定的数量相关。这就需要在每组样品反应的同时运行额外的外部标准。为了消除由于样品和标准品的测定效率不同而造成的潜在的定量差异,应慎重选择用于标准曲线的材料。外部标准的引物结合位点必须和靶点的相同,含有和靶点相同的序列,有相似的复杂性,并且处理方式尽可能相似。因此,当测定cDNA中的靶点浓度时,优先选择在对照样品的连续稀释液中测量相同的cDNA。但是,在一些研究中,实际条件无法做到这一点,因此,需要尽可能的再现样品的条件,例如,将来自与测试物种无关的物种的gDNA加入人工寡核苷酸标准或携带标准序列的线性化质粒中。一旦鉴定出合适的构建体或扩增子,就可以生成一条连续稀释的标准曲线。确定每个标准对应的靶点的Cq值,并与对应的浓度或相对浓度/稀释因子的对数作为坐标轴作图。由此得到标准曲线,从而可以通过比较未知样品扩增后的Cq值,得知测试样品的浓度。当使用标准曲线定量时,阈值必须保持恒定以确定同一平板上标准品和样品的Cq值。不同平板间的阈值可能会不同。
相对/比较定量
相对或比较定量根据不同样品中靶点序列Cq值的差异来确定其浓度的差异。该方法不是像标准曲线法那样测定每个样品中靶点的数量,而是得到一个数据集以显示样品间的倍数变化。
在该途径5的原型中,假定所有测定的效率都是100%,从而假定当结果为靶点的2倍差异时,Cq的差异为1 (ΔCq = 1)。为了确定靶点或者目的基因(GOI)的倍数变化,数据必须加入对照(参照基因,参考;请参阅随后的关于数据标准化的讨论)用于参考。
图 10.5.标准曲线的建立。对于稀释系列中每个样品记录的Cq值,使用对数线性坐标对相对浓度作图。
在等式1中,两个样品(A相对于B)中,经过校正的GOI与参照基因的比值按如下方法计算:以2(假定反应效率为100%)为底数,两个样品GOI的Cq值的差异作为指数,进行幂运算,除以2为底数参照基因的Cq值差异为指数的幂。
等式1. 原始(Livak)相对定量模型。
等式2.效率适应(Pfaffl)相对定量模型
表10.2中列出了一组q值,作为使用效率适应(等式2)相对定量模型的例子。GOI的效率为1.8而参照基因为1.94。
这是一个简单的研究范例,测定两个样品中同一种基因的倍数差异以及经过单个参照基因标准化后的倍数差异。比值表示为经过单个Ref基因校正后样品2中GOI相对于样品1的倍数差异。但是,显而易见的是,选择一个单独的合适的参照基因通常是不可能的,因此,研究者建议使用更复杂的方法来进行标准化。
标准化
大部分基于PCR的实验的主要目标是解决样品(未知,UNK)中是否存在靶点这个基本问题。最简单的解决这个问题的方法是运行一个凝胶来测试是否存在目标GOI的片段。当片段存在时,对片段大小的确认可以给出一个阳性结果。但是,当片段不存在时,则可能给出一个假阴性结果。因此,必须重复测试分析并进行至少一个额外的PCR以作为加载和阳性PCR对照。通用的抑制对照分析,SPUD(见样品纯化和质量评估)可以用来确认一个阴性结果的可信度。另外一个方法则是运行一个对参照基因特异的分析。习惯上,用于检测参照基因、GAPDH、18S核糖体RNA或者β肌动蛋白的PCR分析与检测GOI的PCR分析可以同时进行,并且得到的片段在凝胶上可视。GAPDH、18S核糖体RNA和β肌动蛋白是持续表达的,因此可用在半定量分析中作为加载控制。然而,研究者很快就发现,无论实验如何设计,这些基因不可能在所有的细胞中都以同样的浓度表达。因此,为了测量相对核酸浓度,需要使用一个稳定参照,通常是cDNA,但有时,比如在检查基因的拷贝数差异时,会使用gDNA。
标准化是使用稳定参照来校正技术测量结果以检查真实的生物变异的过程。很多方法被用于标准化技术差异,这意味着对于特异实验,需要选择适合的方法并验证7。需要认识到,与完全不进行标准化相比,采用不恰当的标准化技术可能会对整个分析过程造成更大的危害8。
样品质量对分析标准化的影响
对于使用qPCR和RT-qPCR测定靶点数量时,详细讨论了样品的完整性和纯度对它的影响(样品纯化和质量评估、样品质量控制和逆转录、逆转录)。经证明,样品中的抑制剂和RNA降解对于指定靶点的测定产生不同的影响9。抑制剂影响对任一靶点的测定,但程度不同,这取决于分析的设计。总RNA的降解影响mRNA和miRNA的测定10,并且也高度依赖于整体实验的设计。因此,关键是要考虑模板浓度对RT反应的影响,以及样品质量对于数据标准化后的影响。标准化不能抵消低质分析或低质样品的影响(参见测定的优化和验证)。
标准化方法
理想情况下,对于进行qPCR分析需要使用的多步骤过程中可能引入的变异性,可以采用标准化方法来抵消(图10.6)。但是,在过程的任何一个阶段进行的标准化处理可能无法控制分别在较早阶段已发生或较晚阶段将会发生的技术错误和/或偏差。标准化方法之间并不相互排斥,因此,推荐采用一个控制组合11。
图 10.6.qPCR是一个多步骤的过程,每个步骤都必须被控制。 在系列控制中必须考虑标准化。
标准化的目的是为了提供一个稳定的参照点以供测定时参照;因此,标准化因子的选择必须是在整个实验过程中都保持稳定的一个值。它可以是稳定的参照基因,或者一个其他的选择,如细胞数、组织质量、RNA/DNA浓度、一个外来的刺突12、或者全局表达基因的一个代表性的量度。
参考基因选择
参照基因是指那些数量不会因实验而改变的靶点。当计算其中的目的序列拷贝数可能会发生改变的DNA拷贝数变异时,可以使用一个已知不会改变的替代基因组区域作为靶点来将测量进行简单的标准化。该方法应用一个范例就是测定人表皮生长因子受体2(HER-2)的基因组扩增13。HER-2基因组的不稳定性是乳腺癌的一个预后指标,准确地测量HER-2的扩增状态对于患者管理是很重要的。使用qPCR来比较HER-2的拷贝与另一个作为对照的基因组靶点,可以测得HER-2的状态。
当测量基因表达时,使用mRNA浓度不会因实验改变的靶点作为参照基因。一个研究范例是通过在细胞单层中添加促进有丝分裂的化合物,测定对基因X的表达的影响。为了测定基因X的变化,需要一个参照点。因此,还对已知的不会受到上述分裂原影响的一个或一些其他基因进行了测量。这促使研究者在能够研究GOI之前,需要努力找到一个不受实验程序影响的mRNA靶点。确定参照基因的过程是准确测定GOI的基础。最广泛使用的标准化方法是忽略该过程,将基因表达数据标准化为一个单独的未经验证的参照基因。不被推荐使用这种做法,而且这种做法与MIQE指南直接对立1。参照基因的不正确选择通常会损害RT-qPCR中mRNA的定量。因为引物已经在冷柜而按照相对常用实践经验来使用一个参照基因是不可接受的,比如该方法曾被用于北方印迹杂交、曾被一个同事使用、或曾在另一个实验室用于一个不同的实验等。特定实验场景下,参照基因需要经过验证以确保所讨论的参照基因不会受到实验的影响。如果未经过验证且该参照基因被实验影响,结果会不准确,并且随后的解读可能会产生无意义的数据8。
有一系列科学文献描述了不同的标准化方法7-14,同时有大量的出版物描述了在指定的实验场景中确定最合适的标准化基因所需要的实验方案。在过去,关键问题是选择单个还是多个参照基因,然而运行成本的降低意味着目前的最佳实践已转向测量多个参照基因。
选择稳定的参照基因需要分析人员在代表测试mRNA和对照mRNA的样品子集上评估多个(通常为10到20个基因)候选mRNA靶点7的qPCR稳定性。本指南的附录A(实验方案)中提供了一个完整的实验方案,可与不同的分析方法结合使用,后者使用的程序包括REST15、GeNorm14、Bestkeeper16或NormFinder17。随后的章节“参照基因稳定性分析”中,会对该过程进行更详细的描述。
参照基因稳定性分析
参照基因是qPCR相对定量分析的关键轴心点。因此,对于整个分析的可靠性来说,参照基因的稳定性是决定性的。如果样品间参照基因的表达发生变化,将会直接改变定量结果,并且,额外的变异性会模糊预期的可观察的生物学效应,或者,更糟糕的,可能会为生物学效应产生一个与实际目的基因完全不相关的完全虚假的外观。因为上述原因,强烈建议随后采用若干安全措施使得参照基因的变异性不显著,并且尽可能显著地测量生物学效应。
可以证明,最重要的安全措施是使用不止一个,而是两个或更多的参照基因。可以平均几个参照基因的表达以降低标准化引起的技术变异。这可以有效提高对小生物学效应的测量的显著性。但是,更重要的是,两个或更多的参照基因可以相互对照以保持稳定性,并可以对可能会影响其中一个参照基因的表达水平的意外事件进行调控。如果使用一个单独的参照基因,则分析中可能存在风险,即基因表达的意外影响可能未被检测到。
另一个安全措施是使用不止一个方法来鉴定稳定的参照基因。以下示例阐述了参照基因标准化的几个方面,包括对一个数据集同时使用geNorm和NormFinder两种方法的可能的优势。
表10.3是一个Sigma与EMBL在之前的一个研讨会期间评估过的候选参照基因的列表。样品收集自两个不同处理组的人类细胞组织。数据集将被用于论证参照基因验证的各个方面。
NormFinder和geForm两种算法的开发均基于以下假设,即测试大量候选参照基因可以用于对单独的候选参照基因的稳定性进行排序。如果所有的候选参照基因都在一个稳定的表达水平附近随机变化,则该假设是成立的。然而,这在现实中不一定是正确的。为了避免误导结果,因此要谨慎地避免被调控的、尤其是被共调控的候选参照基因。
表10.3中列出的候选参照基因是经过特别挑选所选出的属于不同功能类别的基因,以降低基因被共调控的几率。GAPDH是一个值得注意的例外,它在表中有两个版本。最好的做法是避免被怀疑可能被共调控的基因的多次转移,尽管这可能不会影响分析。
首先演示的算法是geNorm。它通过计算被称为M值的基因稳定性值来评估基因的稳定性,该值基于待分析的候选参照基因和数据集中所有其他候选基因间的成对比较。该算法采用迭代的方式运行,这意味着在本示例中,最开始对所有15个候选参照基因运行该程序,除去最不稳定的基因,对剩下的14个基因重复该过程,除去第二最不稳定的候选基因,继续该过程,直到只剩下两个参照基因。
有些时候,鉴定出最稳定的参照基因可能是极具挑战的。一种情况可能是所有的候选参照基因都表现不佳。另一种情况可能是所有的候选参照基因都表现良好。为了区别这两种情况,一个有用的指南是认为M值低于0.5的参照基因是稳定表达的。
第二个演示的算法是NormFinder,它是一个免费的参照基因分析包(见附录B,其他资源)。基本算法采用类似ANOVA的方法来评估参照基因的稳定性,在其中会分析整群和子群的变化。这样做的一个优点是获得的量度与基因表达水平直接相关。因此,Cq的0.20的标准偏差就代表了特定候选参照基因在拷贝数表达水平上约15%的变异。
方便起见,本演示中使用GenEx(MultiD)数据分析软件访问这两个分析包,但是它们也可以作为独立包使用(见附录B,其他资源)。
图10.7的条形图显示了参照基因在使用两种算法后按照各自的稳定性值进行的排序。另外,来自NormFinder的累积标准偏差图显示一个包括最多三个最佳参照基因的组合可以提高稳定性。
图 10.7.条形图显示了稳定性值:geNorm的M值和NormFinder的标准偏差。另外,来自NormFinder的累积标准偏差图显示一个包括最多三个最佳参照基因的组合可以提高稳定性。数据集由针对表10.3所示的候选参照基因设计的测定所产生,并用两种不同处理组中的人细胞培养物进行测定。请注意,在这种情况下,参照基因稳定性算法geNorm和NormFinder无法就最佳参照基因达成一致。
图 10.8.每个处理组中两个样品中的候选参照基因的均值居中表达谱。样品1和2属于第一个处理组,样品3和4属于第二个处理组。SDHA和CANX的表达谱为红色。UBC的表达谱为黄色。附表列出了数据集中测得的Cq值。
由于偏离的表达谱,SDHA和CANX可能被不同的处理方法调控,不适合作为参照基因。将它们从数据集中移除,重复分析,直到两种算法达成一致,得到最佳参照基因为EIF4A2和ATP53(图10.9)。显然,在NormFinder中计算累积标准偏差时,添加更多的参照基因不会提高稳定性。
图 10.9.图10.9 对表达谱和测得的Cq值(图10.8)的检查发现SDHA和CZNX可能在测定中被共调控。该共调控可能会破坏参照基因稳定性算法。条形图显示了稳定性值:A)geNorm的M值和B)NormFinder的标准偏差。数据集与图10.8中使用的相同,除了SDHA和CANX的数据已经被移除。需注意到,在使用此减少后的数据集之后,参照基因稳定性算法geNorm和NormFinder在最佳参照基因上达成了一致。
本示例中的数据分析说明,相较于单一的分析,同时使用geNorm和NormFinder 可以鉴定出被共调控的候选参照基因,并且,在后续的研究中移除这些基因可以提供一个更放心采用的关于参照基因的最终鉴定。鉴定和选择稳定的参照基因可以提高数据分析的安全性。
替代标准化方法
虽然对于参照基因的标准化是测定标准化最常用的方法,但仍然存在该方法不适用的情况,例如要比较异质样品组中的大量基因时,或分析miRNA时。在这些情形中,必须要采用其他策略。
标准化为组织质量或细胞数量
测定细胞数量或组织质量以作为标准化因子并不像看上去那么简单。相对而言,基于细胞计数的细胞培养物实验更易于标准化。但是,增加一个处理可能会影响细胞形态,使得当与对照培养物比较时,细胞数量和总RNA/基因表达的比值更复杂。实验处理可能会导致额外细胞基质的产生,从而导致核酸提取效率的变化。
生物组织在受试对象内和受试对象之间可能是高度异质的,将健康组织和患病组织相比较时会有更明显的不同。即使是明显不太复杂的组织,例如血液,在细胞计数和组成方面也有显著差异,因此在表面健康的供体间,基因表达也有明显变化18。
在核酸纯化过程中的任一延迟都将会导致RNA测定的改变。例如,在处理外周血单核细胞和从细胞提取RNA过程的延迟,会造成基因表达的显著变化19。提取程序的基本方法是技术差异的主要来源。甚至从样品血样分离得到细胞和RNA纯化的过程也会导致基因表达谱的明显的不同20。因此,标准化首先要考虑的是确保所有样品的收集和处理都是完全相同的。因此必须进行足够的质量控制以确定样品的浓度、完整性和纯度(参见附录A中的样品纯化和质量评估以及相关实验方案)。
标准化为RNA浓度
作为最低要求,模板浓度(qPCR的DNA和RT-qPCR的RNA)的估算是很重要的,并且,如样品纯化和质量评估所述,因为核酸浓度的测定也是变化的和技术依赖的,需要确保在所有测量中使用同样的仪器。
当测定总RNA浓度时,绝大多数样品由rRNA组成,只有极少部分在检查基因表达时包含目标mRNA,或者在检查基因表达调控时包含sncRNA。这意味着如果rRNA浓度少量增加但mRNA保持稳定,总RNA浓度将会增加。mRNA浓度必须增加一个显著的量才会使得总RNA浓度有明显的增加。因此,rRNA浓度是mRNA浓度的不可靠量度,但是在很多实验方案中,需要等量的RNA浓度以确保准确的逆转录(见逆转录)。
标准化为全基因表达
当测定大量的靶点时,分析者可以估计全部基因表达的全局平均值,并鉴定偏离该平均值的调控RNA序列。该方法通常用于基因表达阵列的标准化。它是使用参照基因的一个重要替代,在很多靶点的测定中是更可取的。
另一个最近探索的方法是测量很多mRNA中存在的内源表达重复元素(ERE)。很多物种含有这这些重复元素(灵长类中的ALU,小鼠中的B元素),可以提供mRNA部分的估计。对靶点序列的测定已被用作常见的标准化系统9(Le Bert等,编撰中),并且当稳定的参照基因组合不可用时,可以为复杂实验提供一个通用的解决方案或一个替代方案。
miRNA数据的标准化
目前还没有关于miRNA通用参照基因的报道。因此,标准化系统的选择仍然是凭经验的。在可能的情况下,可以用全基因组方法,如微阵列,来鉴定稳定不变的miRNA。小核仁RNA(snoRNAs)已被用作参照基因。当一个稳定的参照是未知的并且已分析了数百个靶点时,全基因表达也是一个标准化miRNA表达的有用方法21,22,23。该方法更适合那些会导致以多种形式捕获所有miRNA作为cDNA的方案,如Exiqon和miQPCR系统(参见Castoldi等人的《PCR技术:当前的创新》24)。
生物学和技术重复
标准化的目的是为了避免系统误差并减少数据的变异性以用于最终的统计分析。为统计分析设置数据的另一个重要方面是使用数据重复。
生物学重复对于统计分析是非常重要的。统计显著性水平一般将5%设置为显著性截断值。对于接近该显著性水平的生物学效应,可能需要至少20个生物学重复以确定测定的显著性水平(1:20对应5%)。事实上,通常建议,为了准确估计显著性,观察数至少需要达到50次25,也就是大约1000个生物样品。当然,实际限制很少会允许进行这个水平的生物学重复。此外,准确估计必需的生物学重复数以达到指定的显著性水平也取决于数据的变异性水平。然而,重要的是认识到一个常见的错误是低估得出可靠的结论所必需的生物学重复数。建议在开始时进行试点研究以评估测定的固有变异性和可观察的生物学效应的潜在大小,为估计必须的生物学重复数奠定良好基础26。
技术重复并不直接用于统计分析。相反的,技术重复用于备份样品(万一有些样品在技术处理过程中丢失)和改进对数据准确性的评估。如果假定在技术处理过程的每个阶段,数据围绕精确测量值随机变化,则技术重复可以提高数据的准确性。技术重复的平均值更接近精确测量值。平均计数重复的效果可以通过具有预定变异性(即标准偏差设置为1)的模拟数据集的置信区间的大小来表明。如表10.4所示,随着技术重复(样品)数量的增加,置信区间变小,表明了对精确测量值的更准确的估计。此外,当技术重复数较少时,置信区间的缩小最为显著。将重复数从2增加到3,使得置信区间从8.99降低到2.48,即对于精确测量值的估计精度有超过3倍的提高。虽然增加的重复可以持续改进对精确测量值的估计,但效果降幅。因此,很明显,在使用技术处理变异性时,相较于一式两份,一式三份可能会更具优势。
图 10.10.图10.10 探索性和验证性统计分析涉及的操作的流程图。图的左手边,在虚线箭头之前,展示的是探索性统计研究涉及的操作。图的右手边,在虚线箭头之后,展示的是验证性统计研究涉及的操作。
探索性研究的目的是使用一种或几种不同的技术来分析数据从而证实某个假设。数据集可能被重定义,同时/或者不同的分析技术可能被重复采用,目的是支持一种或几种假设。因此,探索性研究可以很灵活的适应任何科学问题的特性。但是,对一个数据集的假设检验的反复探查可能会引发危害统计结论的问题。这是由于多次测试导致的,这指出了一个事实,即具有多个独立假设的统计检验更倾向于产生一个正的显著性,并且,随着额外的假设被检验,即使潜在的概率分布是相同的,其可能性也会增加。因此为了避免误导统计结果,探索性研究经常和验证性研究结合。
验证性研究需要建立在更严格的统计标准的基础上。首先,需要在数据的收集和分析之前,对研究的假设,包括显著性标准,进行定义。另外,需要为此专门收集用于分析的数据集。在验证性研究中重复使用探索性研究的数据集在统计学上是不正确的,因为该数据集本质上有利于所提出的假设。验证性研究的最终结果是根据预先设定的标准,拒绝或接受假设。
统计检验
在统计检验中,分析了观察到的随机发生的现象发生的可能性。这被称为零假设28。如果根据零假设观察到的现象很少,则认为零假设不太可能是有效的。零假设被拒绝,而备择假设显著的可能性则被接受。
对观察到的现象随机发生的可能性的估计被称为p值。p值的量度范围为0到1,或者是等效的百分比单位。验证性研究的统计标准包括一个α截断值,在该值下计算到的p值表示观察到的现象的显著性。通常使用5%的α截断值,但该截断值必须调整以适应特定研究对象的所需的和必要的标准。
已经开发了很多算法以在各种假设下和针对不同目的来计算p值。一个常用的算法是学生t检验。学生t检验是基于两组数据的平均值差异来计算p值。学生t检验的主要假设是这两组数据是独立的且符合正态分布。与非参数统计检验相比,学生t检验的优点是功能强大29。与学生t检验等效的非参数检验可能是最著名的非参数统计检验之一;Wilcoxon秩和检验(有时也称作Mann-Whitney U检验;不要与Wilcoxon符号秩检验混淆,后者用于比较两个配对组)。与参数统计检验如学生t检验相比,非参数统计检验如Wilcoxon秩和检验具有一个优点,即它们不依赖于之前关于数据集分布的假设。关于正态分布的Kolmogorov- Smirnov检验可以用来决定是应用学生t检验还是非参数检验的一种
在用于p值计算的算法选择之外,用于p值计算算法的数据集还可以被操纵,以便于观察数据集的所需属性。原始数据操纵步骤和p值计算算法选择的结合是构建假设模型的一部分。
在统计分析的探索阶段构建假设模型具有很高的自由度,这是科学探索的重要组成部分。但是,从未用科学的统计方法证明过一个假设。正确的科学方法是提出零假设,使用一个独立的(最好是新收集的)数据集,再根据验证性研究流程图来接受或拒绝零假设(图10.10)。
单因素分析的可视化技术
正如同有很多分析方法可用一样,也有很多数据可视化技术可供选择。对于单因素分析,带有相关误差线的简单的条形图是一个合适的可视化技术。尽管这是一个常见和简单的可视化技术,仍然有一些值得强调的问题。首先,误差线可以说明变异的不同来源、数据固有的变异性(标准偏差,SD)或者已确定的平均值的精度。其次,已确定的平均值的精度可以用不同方法来表示,但最终取决于数据固有的变异性和样品数量(N)的组合,并且在原始形式中,它被称作平均标准偏差(SEM,等式1):
等式1.SEM
但是,SEM并不是一个非常直观的量度,并且它不能以一种有意义的方式直接比较不同实验的SEM。置信区间(CI,等式2)是一种更流行的说明测定平均值精度的方法,并可以用图形方式来显示统计显著性:
等式10-2.Cl
在置信区间的等式中,SEM可以被看做是标准偏差(SD)和样品数(N)平方根的比值,因此,很明显的,置信区间基于SEM。将SEM乘以t分布的百分数并将其从平均值中减去,得到置信区间的下限。将SEM乘以t分布的百分数并加上平均值,得到置信区间的上限。置信区间的置信水平由临界值t*相关的置信水平设定;通常设定95%的置信水平。
图10.11是一个条形图,附带误差线表示每个实验组的95%的置信区间,强调了几个药物剂量处理后来自不同器官的样品中基因表达均值估计的不确定性。此外,还显示了t检验的统计显著性p值以表示对照样品和来自不同药物剂量反应的3个不同样品之间在基因表达上的差异,通过星号记法来标明。通常,一个星号对应p值低于0.05,两个星号对应p值低于0.01,三个星号对应p值低于0.001。
图 10.11.目的基因相对于一对参照基因的表达的倍数变化(log2),相对于在每种器官类型的最低表达样品中的表达的倍数变化。条高表明基因在未经处理(剂量0)或经过三种不同药物剂量(剂量1、剂量2和剂量3)的几个样品组中基因的平均表达。误差线表示表达均值估计的95%置信区间。一个星号表明经处理样品组均值和未处理样品组均值的统计显著性差异为5%;两个星号表明统计显著性差异为1%;三个星号表明统计显著性差异为0.1%。
由于星号记法隐藏了p的绝对值,通常会包括一个关于p的绝对值的表格,如表10.5所示。背后的一个原因是例如0.032的p值仅比0.055的p值略微“显著”。当用显著性给数据分类的情况下,在确定使用某个截断值时,类似这样的临界案例会导致一些混淆。在实际案例中,0.051的p值可能与0.049的p值一样显著,但是严格(虽然基本上是任意的)按照0.05的截断值则会将一个分类为显著而另一个不是。
但是,利用均值差异的置信区间对条形图可视化的变体,可以避免很多(即使不是全部)的传统条形图的缺点24。利用均值差异的置信区间,可以根据相关误差线直接估计统计显著性,同时突出生物效应大小和数据变异性。图10.12显示了具有图10.11中使用数据的均值差异的置信区间的条形图的变体。需要注意,不包含均值零差异的置信区间对应的置信水平对应p值截断值(5%,见图10.11和表10.5)为显著的。
图 10.12.图10.12 未处理样品集(剂量0)和一个处理样品集(剂量1、剂量2和剂量3)的平均值之间的差异的条形图,数据集来自图10.11。误差线表明均值差异的置信区间。不与x轴相交的误差线表明对应的t检验中的均值比较是统计学显著的(5%)。PCR技术,当前的创新第三版,由Taylor and Francis Group LLC Books出版。经Taylor and Francis Group LLC Books许可,通过版权结算中心以书籍/电子书形式复制使用。
多元数据是针对每个样品单元的几个变量收集的数据。图10.11和10.12中使用的数据是多元的,它们取决于多种变量,如剂量和器官类型。但是,图10.11和10.12中的统计分析仍然是单变量的,相对于其他变量的固定测量,其中每个表示(条形)只表明一个变量,即基因表达。对于多元数据分析技术,层次聚类和主成分分析是数据表示的良好选择。
层次聚类
表征数据的一个最简单的有效方法是在散点图中绘制数据(例如,在2D图中,绘制一个基因的Cq测量值与生物样品组中对应的另一个基因的Cq测量值的关系图)。一维和二维图可以方便人眼观察。使用适当的工具也可绘制三维图,但是更高维度的图显然更难以可视化。然而,在探索性研究中,数据集本质上是多维的,因此绘制所有数据的散点图变得不切实际。例如,在一个qPCR数据集中,可以选取有代表性的几个基因和/或几个类型的生物样品。
对于探索性研究数据的表征和可视化,一个流行的替代方法是分析散点图中数据点之间的距离量度。存在不同的距离量度,包括Euclidean、Manhattan和Pearson相关性。利用计算能力,即使是比三维更高维度的多维数据,也可能直接计算距离。对于凝聚层次聚类,需执行以下迭代程序:1)找到两个最接近的对象并将它们溶入一个簇中;2)通过聚类方法将新簇定义成新的对象;3)从1)重复,直到所有对象都被结合成簇30。其他聚类方法包括Ward方法、单链接算法和平均链接算法31。树形图常用于可视化层次聚类的结果。
对于qPCR数据层次聚类树形图的解读通常会导出关于基因表达谱相似性的结论。在探索性研究中,这些相似性可能会被用于形成一个关于基因表达共调控的假设,并在随后的验证性研究中接受或拒绝该假设。层次聚类树形图的优点包括清晰可视化相似性关系。另一方面,重点强调相似性测量可能会被视为是形成假设的限制,因为相似表达谱可能是假设中的冗余属性。对于在特定组合中互补的系列表达谱进行鉴定,在回答所需要的假设方面具有很高的价值。
主成分分析
对于探索性研究数据的表征和可视化,另一个流行的替代方法是利用整个多维数据集中包含的信息,选择所需要的属性,并将其投影到较低维度的散点图,例如2D或3D图。这个可以使用主成分分析(PCA)来实现32,33,34, 35。该方法中,数据集的原始坐标系(即qPCR测定的表达谱)被转换到一个新的多维空间,并构建新的变量(主成分:PC或因子)。每个PC都是原始数据集中研究对象的线性组合。通过数学定义,PC是按照重要性顺序排序的。这意味着第一个PC解释了数据中存在的大部分信息(方差),第二个较少,以此类推。因此,最初的两个或三个PC坐标(称为分数)可以用来获得整个数据集在方便的小维度上的投影,适用于2D或3D图的可视化。通过使用最初的两个或三个PC做表示,可以得到数据集中占最大变异性的投影。 实验设计条件的方差被预期为系统的,而混杂方差则是随机的,因此在适当的条件下可能会需要这种表示。
如之前层次聚类所述,对于qPCR PCA的解读通常会导出关于基因表达谱相似性的结论。虽然PCA和层次聚类可以产生对基因表达共调控模式的互补见解,但两者都集中在基因表达谱的相似性上。这对于单独使用这些技术进行的探索性研究中的假设的类型进行了限制。为了扩展探索性研究中产生的假设的范围,一种对多变量分析的假设驱动方法在最近被提出(Bergkvist等人, PCR技术,当前的创新24)。假设驱动的、专门设计的算法可以鉴别生物学相关的假设,而常用的多变量数据分析可能会错过这些假设。
如要继续阅读,请登录或创建帐户。
暂无帐户?