qBase软件计算qPCR数据的数学模型

摘要

     尽管相对定量PCR(qPCR)已经成为目的基因表达量测量的重要方法,精确并直接的处理原始测量结果仍然比较困难。本文指出一种应用模型用于相对定量,并且使用恰当的误差传递算法对组间实验的全部数据进行校准( inter-run calibration)。该模型及算法应用qBase软件即可,它是一个管理和自动分析qPCR数据的免费程序(注册测试时有使用日期限制,但宣传材料说是免费的。外网现在的网速,实在无法短时间内进行多伦测试。如想要自己进行上游算法控制,对数据处理感兴趣的同学可参考本文及之前几篇相关文章的这些算法,知其所以然后确认你的数据是否套用还是想要自己尝试修正甚至编写公式。要想你的数据准确,尽可能去了解各种或商业或免费软件的算法及推倒过程,也是数据质控的重要手段之一)。

Background

    十几年前qPCR就成为一种相对定量核酸序列的标准方法。它简单且高灵敏、专一又准确,故针对于高通量样本分析的应用快速扩大。来自qPCR仪配套的软件程序对可以直接提取Cq值(有软件叫Ct是同一个意思,起始荧光阈值),并且最好的情况下,通过对未知样品序列梯度稀释的方法绘制标准曲线而得到定量结果。然而,这些程序通常不能给来自1次或多次runs的未处理数据提供充分的解决方案并提供有意义的结果,例如如均一化和校准相对量数据。此外,目前可用的工具都有以下一个或多个固有的局限性:专用于一种仪器、数据导入繁琐、可处理的样本和基因数量有限、强制重复次数多、仅使用一个内参基因进行均一化、缺乏数据质量控制(例如,重复的变异性,阴性对照,内参基因表达的稳定性),无法校准多次运行、结果可视化选项有限、缺少实验存档和封闭的软件体系结构。

本文作者对经典的delta-delta-Cq方法进行了改进,将多个内参基因和基因特异性扩增效率以及整个计算过程中所有测量参数的误差考虑在内。除此之外,我们还开发了不同runs数据合并的校准算法来校正运行间的差异,这个误差常被忽略且低估(即错误的认为每板耗材均无误差,忽略不计,把所有数据当做一大板进行带入计算。)

本文高级模型和算法是在qBase中实现的,qBase是一个灵活的、开源的qPCR数据管理和分析程序。在程序开发过程中,遵循了四个基本原则:使用正确的模型和公式进行定量和误差传递校正,在需要时加入数据质量控制,在保持灵活性的同时尽可能实现工作流程的自动化,以及操作的用户友好性。该量化框架和软件完全符合当前想法,强调正确完成实时PCR分析的每一步如RNA质量评估、合适的反转录、选择恰当的均一化策略等,特别是当样本之间存在微小差异时需要可靠的证明。在此整体流程中,数据分析是重要的最后一环。

Results and discussion

Determination of the error on estimated amplification efficiencies

 

    qBase采用了一个经过验证和普遍适用的相对量化模型。一个重要的基本假设是PCR的效率是取决于试验本身而和样本无关的。虽然这在每种实验情况下都可能不成立,但目前对于如何计算样本特异性导致的PCR效率并将其用于稳定量化还没有达成共识。大多数的评价研究都认为这些样本效率估计方法缺乏精确性。因此,金标准仍然是使用一系列稀释序列估算的PCR效率(预先收集的cDNA样本,以尽可能模拟待测的实际样本情况),以保证至少有一个目标是准确和精确定量。样本特异性PCR效率评估有其有用性,但目前仅用于离群值检测。

根据Cq值计算相对表达量需要了解PCR的扩增效率。如上所述,最好使用已知的量(相对或绝对)梯度稀释序列的线性回归方程(材料和方法中的公式15)来确定扩增子特定扩增效率。然而,评估扩增效率的误差几乎从未被测定,也没有被考虑在内。这个误差也可以用线性回归法计算(公式2到46),随后应在定量Cq值转换为相对表达量的过程中传递计算。斜率提供的误差公式为了解如何获得更精确的扩增效率估算提供了数学基础,也就是说,通过扩大稀释范围并包括更多的测量点。

 Calculation of normalized relative quantities and error minimization

2001年首次报告了将表达量循环阈值(Cq;见材料和方法术语)转换为均一化相对表达量(NRQs)的方法。LivakSchmittgen所描述的最简单模型(详细见之前有关Livak法 2△△CT的文章),它假设100%PCR效率(指数函数的基E值为2),并使用单个内参基因进行标准化:

Pfaffl通过调整感兴趣基因(goi)和内参基因(ref)之间的PCR效率差异,修改了上述模型详细见之前发布过的Pfaffi法,带入实际扩增效率的△△CT

该模型是对经典的delta-delta-Cq方法的改进,但不能处理用多个(f)内参基因校正时的应用——这是可靠测量细微表达差异所必需的。

公式7-16详细说明了相对量、均一化和对应误差传递如何计算。

delta-Cq量化模型的基本原理是两个样品(通常是真正的未知样品和校准品或内参样品)之间Cq表达量差异(增量)以PCR反应的效率为基础,利用指数函数将其转化为相对表达量。原则上,可以选择任何样品作为校准品,无论是真正的未经处理的对照品,还是表达量最高或最低的样品。此外,任意Cq值都可以选作校准品的表达量Cq。校准品或Cq值的选择不影响相对定量结果;虽然数字可能不同,但样品之间的实际倍比差异保持相同,因此结果完全相等仅是重新“缩放”。然而,如果误差传递过程中考虑了估算扩增效率的误差(见上文),则校准品表达量Cq值的选择确实对相对量的最终误差有着深远的影响。为了解决这个问题,通过计算单个基因单次run中所有样品的算术平均值作为标准品表达量Cq值。由于误差的增加与感兴趣样品和校准品之间表达量Cq值差异成正比(公式12),如果将平均表达量Cq值用作校准品定量Cq值(图1),则整体最终误差最小化。

Fig 1内参表达量Cq值对误差增加的影响。分别使用最低Cq方块)、平均Cq(圆)或最高Cq(三角形)作为内参表达量Cq,计算五点四倍梯度稀释序列模拟实验的相对表达量。Cq定量值显示在左上角。右上角显示了不同样本相对量误差的增加情况,左下角图显示了平均增加

Evaluation of normalization

 

使用内参基因进行相对定量均一化的前提是,内参基因在所有检测样本中稳定表达。当只使用一个参考基因时,其稳定性无法评估。使用多个参考基因不仅可以产生更可靠的数据,而且还可以评估这些基因的稳定性。之前本文团队设计了一种鉴定一组样本中最稳定表达的参考基因的方法。同样的稳定性参数(公式21-25)也可用于在实际定量实验中评估所测量的内参基因。此外,在这里计算了实际实验中表达稳定性的另一个有力指标(公式17-20):均一化内参基因相对表达量的变异系数。理想情况下,一个内参基因在均一化后应该在所有样本中显示相同的表达水平。因此,变异系数可表明基因表达是否稳定。

为了为可接受的基因稳定性值(M)和变异系数(CV)提供参考值,我们首先建立内参基因表达数据矩阵,获得了属于5个不同人类组织组的85个样本的数据,之后计算这些均一化定量参数。Table1显示,在相对均质类样本中,稳定表达的内参基因的平均CVM值分别低于25%0.5。对于更多的异质类样本,平均CVM值分别增加到50%1

虽然目前认为使用多个稳定表达的内参基因是mRNA表达均一化的金标准,但其他策略可能更适合于某些特定应用,例如:计算细胞数并将mRNA表达水平表述为每个细胞的拷贝数。使用与生物学相关的、特定的内标(有时称为原位校准);或根据DNA进行均一化。显然,没有一种单一的策略通用于每一种实验情况,这仍然取决于每位研究人员来确定并验证最适合他们实验条件的方法。需要强调的是,所提出的qBase框架和软件与上述大多数规范化策略兼容。

Inter-run calibration

 

在进行高通量qPCR相对定量实验中,可以遵循两种不同的实验设置。①根据预先确定的样本最大化方法,对尽可能多的样本同时进行分析。这意味着,如果没有足够的孔在同一个run中运行不同基因,应在不同run里运行不同基因的试验。②相对而言,基因最大化设置是在同一run中分析多个基因,并在需要时跨runs分析样本(Fig 2)。后一种方法通常用于商业试剂盒或前瞻性研究。重要的是要认识到,在相对定量研究中,实验者通常对比较不同样本之间特定基因的表达水平感兴趣。因此,样本最大化方法是高度推荐的,因为它耐受(经常低估)技术学上(runrun)的样本差异。(样本最大化意思尽可能把同一个基因摆在同一个板上进行实验,这样拥有好多好多样本;而基因最大化意思把同个样本的不同基因摆在一个板子上进行实验,这样拥有好多好多基因。虽然基于算法及误差消除等原因推荐样本最大化,但实际操作中会发现基因最大化也是常态,所以要注意不同runs间由于使用了不同板子即耗材,哪怕同厂家同批次同类耗材而引入的系统误差,这个真的常常被忽略。

无论使用何种设置,只要所有样品未在同一次run中进行分析,则需要进行批次间校准,以校正可能的runs间变化。为此,实验者需要确定所谓批次间差异(IRCs);这些是在两次run中测试的相同样本。通过测量两次运行中IRC之间Cq或NRQ的差异,可以计算校正或校准因子以消除runs间差异,就好像所有样品都在同一次run中进行分析一样。

由于与仪器相关的变化(PCR block光源滤光片、检测器等)、数据分析设置(基线校正和阈值)、试剂(聚合酶、荧光团等)和塑料耗材的光学特性,定量Cq值和相对表达量之间的关系取决于不同样品run,因此需要批次间校准需要注意的是,批次间校准应在每个基因的基础上进行。这点想想倒是与我之前接受的内部培训不太一样,更严格准确些仅确定一对引物的相对表达量Cq或相对定量关系是不够的;实验者应对所有分析都这样做。为了证明样本最大化相对于基因最大化在减少变异方面的优势,我们设计并执行了一个由五个不同的运行组成的实验(Fig 2)。其中一个基因的结果如Fig 3所示。在基因最大化的情况下,11个样本分布在run 1和run 2上。样本13出现在两次run中,因此可以用作IRC。run 5包含样本最大化设置中的所有11个样本。当比较run 1和run 2之间的IRCCq值时,很明显run 2中的Cq值系统性地较高(0.77cycles)。在将Cq值转换为NRQs(从而也考虑到3内参基因的Cq运行差异)之后,样本13NRQ值平均相差72%(附加数据文件1)。必须认识到,这些值只是例子。尽管在精心设计和控制的实验中,这些差异可以最小化,但实际情况中它们可以大得多,而且通常是不可预测的。无论如何,通过进行适当的批间校准,这些运行依赖性差异可以得到纠正,由此产生的表达图谱(通过校准基因最大化设置获得)变得与样本最大化方法(在没有run间变异的情况下)高度相似。

 setupFigure 2 实验设计。实验设计用于评估批次间校准的效果。右侧,用样本最大化方法对11个样本的6个基因进行1.5runs的分析。左侧,基因最大化需要IRC(S1、S2、S3)来比较S5-S7(run 1)和S8-S11(run2或3),因此需要2runs完整运行。run 2的IRCs在相同的cDNA稀释度中测量,而在run 3中的IRCs是在新的cDNA稀释度上测量的。

 

Figure 3样本和基因最大化实验数据比较。将样本最大化方法(run5)与基因最大化方法(run1和2或1和3)进行比较。对于Cq值,IRCs之间的差异为0.77,NRQ值之间的差异为72%,并且在运行间校准后消除。同一显示项中的灰色和白色表示数据来自不同的run

 

 

本文所知,目前只有一个仪器软件可以执行这种校正,但算法是基于单个IRCCq。虽然基于Cq值校准数据是有效的,但是这种方法的缺点是在所有要校准的运行中都需要使用相同的模板稀释度(例如,来自新合成cDNA或新稀释度的核酸不能可靠地使用)。根据IRCs计算NRQ(公式13-16)校准运行通常更直接、更容易。校准的数量(在某种程度上也包括质量)在实验均一化调整数据。这有一个重要的优势,即同一RNA来源的独立制备的cDNA可在不同run中用作校准品(允许额外的run,即使校准品的cDNA用完)。在某种程度上,当基于NRQ进行校准时,即使是生物学重复(例如,再生细胞)也可以用于批间校准,前提是实验者意识到这引入了某种程度的生物学重复变异(但仍然充分消除了批次间变异)。用独立制备的cDNA作为校准品的有效性如Figure 2所示。基于来自不同cDNA制备的IRCsrun 1run 3之间的校准结果与通过样本最大化或者通过相同cDNA批次间校准获得的表达模式相同(Figure 3)。通过计算run 23中校准后的NRQsCNRQs)的比率(平均比率:0.98595%CI:[0.945,1.026])(附加数据文件2)也清楚地证明了这一点

建议使用多个IRCs如果使用2到多个校准品,其中1个失败则不会毁掉实验结果。此外,用多个IRCs进行校准,可以获得更精确的结果,误差更小。根据我们的实际校准计算实验,使用单个IRCrun间校准固有地增加了约70%的相对量不确定度,而一组3IRC计算中只增加了40%Table 2)。虽然仍然建议选择样本最大化设置,但基于多个IRCsNRQs的批次间校准在IRCs源中提供了可靠的结果和灵活性。

需要注意的是,如果在所有待校准的runs中使用同一组IRCs,则公式13′-16′能用于批间校准。对于更复杂的实验设计(在不同runs中使用不同的IRCs组合),本文实验室在开发更先进的批次间校准算法(挑战在于正确计算传递误差)。

批次间校准的过程非常类似于均一化。均一化消除样本特定的非生物学变化,而批次间校准消除了不同runs样本间的技术多样性差异。因此,相同的公式可用于计算批次间校准系数(不同IRCsNRQs的几何平均值;公式13-16’),相同的质量参数可用于监测批次间校准过程(前提是使用多个IRCs;公式21-25’)。IRC稳定性测量的计算允许评估校准质量,这依赖于IRCs的结果。本文的实验表明,在M值较低的情况下(附加数据文件2:M0.1),对于不同的IRCs选择,可以获得几乎相同的结果(Table 2)。如果其中一组IRCs的数据不一致或错误,则会获得更高的IRC-M值,并针对不同的IRCs组计算出不同的结果。因此,IRC稳定性测度M对于确定IRCs的质量(推荐使用多个IRCs),以及验证校准过程是否值得信赖具有重要价值。

qBase

当在电子表格中执行时,计算大数据集的NRQs,然后进行批次间校准是一个困难、容易出错和耗时的过程,尤其是误差将在所有计算中传递时。为了自动匹配计算,并提供数据质量控制和可视化结果,此团队开发了软件程序qBaseFigure 4a)。该程序由两个模块组成:用于管理和归档数据的“qBase浏览器”和用于将原始数据处理为具有生物学意义的结果的“qBase分析器”。

qBase Browser

    浏览器允许用户从当前可用的qPCR仪器中导入并按层次组织运行。在qBase中,数据被分为三层:来自单个runplate)的原始数据存储在run层;实验层将需要处理和可视化的不同run数据分组;项目层结合了许多相关的实验(例如,相同实验的生物学重复)。这种层次结构提供了一个清晰的框架,以简单明了的方式管理qPCR数据。qBase浏览器窗口分为两部分:屏幕底部提供一个类似浏览器的窗口来浏览数据;屏幕顶部包含一个单独的窗口,显示所选run、实验或项目的注释。qBase浏览器允许删除和添加项目、实验和run。导出和导入项目及实验的设置是不同qBase用户之间交换数据的一种方便方式。

Data import

每个qPCR仪器都有自己的数据收集和存储方法,同时在文件格式、表格布局和使用术语方面,导出文件存在很大的异构性。在导入到qBase的过程中,不同的仪器输出文件被转换成通用的内部格式。该格式包含孔名、样本类型、样本和基因名、定量循环值、起始量值(用于标准曲线)和排除状态的信息。最后一个字段指出是否应从进一步计算中排除测量值而不是(在操作中)实际放弃测量。

可以从多种数据格式导入数据。支持两种标准化格式(qBase内部格式和RDMLReal-time PCR Data Markup Language))以及许多仪器的专用格式。qBase标准格式由一个Excel表格组成,其中的列对应于qBase内部使用的信息。RDML是一种正在开发的通用格式,用于以XML文件的形式交换qPCR数据。

导入向导(wizard)引导用户完成数据导入过程(Figure 4b)。为了解决某些仪器软件包只为每个孔提供单个标识符字段的局限性(虽然有许多变量,如样本和基因名称、样本类型等等),qBase提供了从单个标识符中提取多种类型信息的可能性。因此,标识符“UNKN | John-Smith | Gremlin”可以提取为样本类型“UNKN”(unknown)、样本名“JohnSmith”和基因名“Gremlin”。

Figure 4  qBase。(a) qBase启动屏幕;(b)导入向导,允许选择输入文件的格式;(c)标准曲线,五点四倍稀释系列用于计算放大效率;(d)qBase Analyzer 主窗口,右侧为工作流程,左侧为样本和基因列表-特殊样本类型和内参基因(e)单基因直方图;(f)多基因直方图。

qBase analyzer

Step 1: Initialization

工作流的第一步是实验的(自动)初始化,在此过程中,来自同一实验的所有单独运行文件的原始数据被合并到一个数据表中。初始化过程还生成了实验中所有样本和基因的数据列表。一个实验中包含的重复、基因或样本的数量没有限制,除了Excel规定的限制(单个实验中最多可存储65535个孔)。与现有的PCR数据分析工具相比,这种无限制是一个重大的改进,现有的PCR数据分析工具通常仅限于处理来自单个96孔板的数据或使用固定数量的样本重复。在qBase中,具有相同样本和基因名称的孔被自动识别为技术重复,除非这些孔位于不同的runs中。在后一种情况下,它们被解释为IRCs并被重命名为IRCs,以指示分析它们的runs情况。在主屏幕上的样本和基因列表中,使用颜色区别来标记内参基因和特殊样本类型(标准曲线、无模板质控、无扩增质控和IRCsFigure 4d

Step 2: Review sample and gene annotation

在属于同一个实验的所有runs中,样本和基因名称都可以很容易地修改。这对于实现各runs间样本和基因的一致命名非常有用。若要仅更改特定run中选定的孔的名称,可在qBase中使用run编辑器。此编辑器可视化了带有孔注释的96孔板(或rotor离心式qPCR仪)布局。它允许修改基因和样本名称,以及单个选择的细胞或邻近细胞的样本类型和数量。这些工具一起使用户可以查看和更正注释。

Step 3: Reference gene selection

准确的相对定量需要适当的均一化来校正非特定的实验变化,例如样品之间的起始量和质量的差异。目前的共识是,需要多个稳定表达的内参基因来实现精确和稳定的均一化,尤其是测量细微的表达差异。虽然可以使用不同的工具来确定哪些候选内参基因得到稳定表达(例如,geNorm、BestKeeperNormfinder),多数软件不能使用一个以上的参考基因进行直接标准化。qBase允许使用最多5个可从基因列表中轻松选择的内参基因来标准化基因表达水平。

Step 4: Raw data quality control

在准备和执行qPCR反应时,可能会出现一些问题和错误。这些问题产生的错误数据需要被检测出来,并从进一步的数据分析中排除,以防止掩盖有价值的信息或产生假阳性结果。qBase提供了几个重要的质量控制检查,以评估是否:①无模板对照(NTC),所有基因(引物对)均要存在;②NTCsCq值大于用户定义的阈值;③感兴趣样本和NTCs之间Cq值的差异大于用户定义的阈值;④技术重复之间Cq值的差异小于用户定义的阈值;⑤基因是在多个runs中得出的(这意味着不是所有测试特定基因的样本都在同个run中进行分析)。 

在数据质量控制后,一个消息框会报告所有问题警报,相关的数据点在数据列表中用颜色显示,用户轻松地评估数据,并选择某些数据点排除在分析之外,而无需实际删除数据。

Step 5: Sample order and selection

在初始化过程中,样本按字母数字顺序排列,但样本的顺序可以通过用户定义的方式进行调整。可以使用键盘上下箭头或样品菜单在列表中重新排序示例。使用键盘上的“删除”按钮或样品菜单,可以排除不需要显示在结果中的样本。除了在分析软件主屏幕上更改默认的样本顺序和显示选择外,还可以在查看结果时临时对特定基因进行修改(见下文)。

Step 6: Amplification efficiencies

所有的定量模型以PCR反应的扩增效率为基础,用指数函数(对数)将Cq值转化为定量数值。虽然这些模型和导数公式已经使用多年,但没有任何模型或软件考虑到计算效率的误差(不确定性)。qBase是第一个通过适当的误差传递来考虑扩增效率误差的工具。

在qBase中,基因特异性扩增效率可以用三种方式指定。默认的扩增效率(和错误)可以设置为所有基因,也可以为每个基因单独提供。在后一种情况下,效率和相应的误差可以简单地键入(例如,当在独立实验中计算时),或从标准稀释序列计算。qBase为标准曲线的评估提供了一个接口,可以消除异常反应。扩增效率通过线性回归计算,并可保存到基因列表中,以便在进一步计算步骤中考虑(Figure 4c)。

Step 7: Calculation of relative quantities

通过对qPCR原始数据(Cq值)的质量控制、(一或多个)内参基因的选择和扩增效率的估算,qBase可以计算出均一化和重新标定的数值。该过程完全自动化,包括以下步骤:计算所有技术重复(基因和样本名称相同的数据点)的Cq值的平均值和标准差。——程序自动检测每个样本基因组合的技术重复次数,并可处理可变数量的技术重复(公式7-8);根据基因特定扩增效率将Cq值转换为相对数量(公式9-12);用参考基因(一或多个)相对数量的几何平均值计算样本特异性均一化因子(公式13-14);除以均一化因子的均一化(公式15-16);根据用户要求重新标定标准化量(相对于具有最高或最低相对量的样品,或相对于用户定义的校准品)(Figure 5)。在计算均一化和重定标度的相对量的每一步中,qBase传递误差。

根据设置,qBase将使用经典的delta-delta-Cq方法(100%PCR效率和一个内参基因),delta-delta-Cqpfafl模型(基因特异性PCR效率和一个内参基因)或我们的通用qBase模型(基因特异性PCR效率和多重内参)基因均一化。

Evaluation of normalization

均一化可以通过检查所有样本的均一化因子或计算内参基因稳定性参数来监控。在一个完美内参基因的实验中,相同的样本输入相同的质量,所有样本的均一化因子应该是相似的。变异表明起始量不等、PCR问题或内参基因不稳定。qBase均一化因子直方图可以方便地识别这些潜在的问题。qBase的一个独特之处是可以选择用多个参考基因对相对量进行标准化,从而得到更准确可靠的结果。

此外,qBase通过计算两个质量指标来评估应用内参基因的稳定性(从而评估均一化的可靠性):均一化内参基因表达水平的变异系数和基因组稳定性M值。这两个值都是有意义的,或者只有在多个内参基因被量化的情况下才能计算出来。这些质量值越低,内参基因在被测样本中的表达就越稳定。根据我们报告的来自13种不同人体组织的85个样本中10个候选内参基因的表达数据,我们计算了上述质量参数,并在Table 1中提出了MCV的可接受值。请注意,可接受范围在很大程度上取决于相对定量研究所需的精确度和分辨率。

Step 8: Inter-run calibration

qBase对于分析包含多个runs的实验特别有用且独特。由于用户通常需要比较不同样本之间给定基因的表达,因此样本最大化设置是首选,因为它将样本之间的技术差别(run-to-run)差异最小化。然而,基因最大化设置也经常使用。为了尽可能地纠正这种设置带来的批次间变异,qBase允许使用一个或多个IRCs校准runs误差(在特定基因的基础上)(Figure 5)。如果同一个基因在不同的序列中没有样本被测量,qBase就不能进行校准,并且批间差异被假定为零。没做IRC,默认不同runs无批间差,不校准另一个独特而重要的方面是,在均一化后进行批间校准,这大大增强了实验设计的灵活性,因为不再强制要求在所有的runs过程中使用相同的IRC模板(因此,可以合成新一批cDNA,在均一化过程中,变量将被消除)。

Step 9: Evaluation of results

均一化和重标度的相对量可以用三种方式表示:单基因直方图、多基因直方图或表格。默认的样本顺序和样本选择通过编辑样本列表在qBase主窗口中定义。对于单基因直方图(Figure 4e),默认顺序和选择可以更改为字母数字顺序、用户定义顺序或基于定量值的顺序(即降序)。选项菜单允许用户定义要显示的误差大小(平均单位的一个或多个标准误差)。对于两个直方图视图,Y轴的比例可以从线性模式切换到对数模式,反之亦然。多基因柱状图(Figure 4f)有助于比较不同基因之间的表达模式(但不是实际的表达水平)(因为每个基因都是独立重新缩放的)。直方图中显示的基因可以从基因列表中选择。表视图中的数据(有或无误差值)可以很容易地导出,以便在其他专用程序中进行进一步处理。

Distribution

qBase可免费用于非商业性研究,可从qBase网站下载。

Manual and tutorial

为了培训新的qBase用户,我们设计了一组Demo实验,在一个循序渐进的教程中进行了详细的解释。Demo实验1包括4runs96孔格式),包括16个样本、5个标准品和一个无模板对照,用于分析5个感兴趣基因和3个内参基因。Demo实验2在初始实验的基础上增加了两次runs,增加了8个样本和3个校准品用于运行批次间校准。经过练习,在不到一个小时内就可以对这6块板进行完整的分析。这包括数据导入、孔注校正、质量控制、放大效率测定、层间校准、计算和结果解释。据我们所知,没有其他工具可以执行所有这些功能。传统的电子表格计算需要相当长的时间,容易出错,而且不包括质量控制。

Conclusion

虽然qPCR已有十多年的历史,但所采用的计算模型仍有待改进。本文报告了先进的,经过验证的,相对定量模型,使用基因特异性扩增效率,并允许与多个内参基因均一化。误差在所有计算步骤中传递,以前忽略的误差,如估算扩增效率的不确定性,现在被考虑在内。此外,本文开发了一种批次间校准方法,允许在不同runs中分析的样本相互比较。

本文团队在一个易于使用、基于Microsoft Excel的工具中实现了这些改进和创新的方法,用于qPCR数据的管理和自动分析,即qBase。这个免费提供的软件包包含了几个数据质量控制步骤,使用了一个先进的相对定量模型,包括扩增效率校正、多内参基因均一化、批次间校准和每个计算步骤的误差传递。一个可设置的图形结果报告,导入和导出实验的可能性,分别允许简单的结果解释和数据交换。

最后,我们要指出,尽管我们的框架和程序有助于管理和解释mRNA数据,但生物学相关性或统计学意义的评估需要这些mRNA数据与蛋白质水平或活性的相关性,以及生物复制的测量。

 

Materials and methods

Terminology

根据实时PCR数据标记语言(RDML),我们使用所提出的通用术语来表示可用的描述(例如,定量循环值(Cq)而不是周期阈值(Ct)、起飞点(TOP)或交叉点(Cp))。

Error propagation

误差传递使用delta方法,基于truncated Taylor series展开。

Symbols used in formulas

N,重复次数ig,基因数量jcIRCs m数量,m’r,运行次数ll’s,样本数量kf,内参基因数量pp’h,已知数量Q的标准曲线点数量qCq,定量循环值;CF,校准因子;NF,均一化因子;RQ,相对表达量(相对于同一基因同一run中的其他样本);NRQ,均一化相对表达量;SE,标准误差;IRC,批间校准品;CV,变异系数;A,列矩阵,其中每个元素由log2转换(均一化)的相对数量比组成;VgeNorm成对变异;MgeNorm稳定性参数。

Determination of amplification efficiencies

标曲通过同个run测得的梯度稀释序列的 Cq及定量值生成。通过线性回归,可以计算出该曲线的斜率及其标准误差:

指数放大E的基数及其标准误差SEE)由以下值计算得出:

Conversion of Cq values into relative quantities

Step 1

计算给定的run内相同基因/样本组合jk的所有技术学重复的平均Cql

Step 2

使用基因特异性PCR效率Ejl将平均Cq值转换为RQ,并将总误差最小化:

Normalization: inter-run calibration

均一化和批次间校准的过程非常相似,因此并行描述。

Step 1

基于参考基因p的RQs计算样本k的均一化因子NF。

Step 2

将RQs转换为NRQs.

Step 2′

NRQs转换为CNRQs:

Coefficient of variation of NRQs of a reference gene

Step 1

计算所有样本k和给定内参基因p的平均NRQ:

Step 2

计算给定内参基因p在所有样本k中的变异系数CV:

Step 3

计算所有内参基因的平均变异系数:

Reference gene and IRC stability parameter M

由于均一化和批次间校准高度相似,使用稳定性参数M进行质量评估也很相似。因此,这两种方法是并行解释的。

Step 1

计算s×1矩阵Agene,其中kth元素为样本k中两个内参基因p和p’的相对表达量(尚未均一化)之间的log2转换比率;矩阵Asample的计算方法类似。

Step 1′

计算g×1矩阵Airc,其中jth元素同一run l中同一基因j的两个IRCs mm’NRQs之间的log2转换比率;矩阵Arun的计算方法类似:

Step 2

计算所有样本k和给定内参基因组合(pp’)的平均对数转换率和标准差Vgene。Vgene是两个内参基因的geNorm成对变异V

Step 2

计算所有runs l和给定IRC组合(mm’)和给定基因j的平均对数转换率和标准差VircvsampleVrun分别由AsampleArun计算

Step 3

计算给定内参基因p与所有其它被测内参基因p’的所有成对变异vsample的算术平均MgeneMgene代表特定内参基因pgeNorm基因稳定性测度M

Step 3

计算同一基因的给定IRC m与所有其他IRC m’的所有成对变化Virc的算术平均MircMsampleMrun分别根据vsampleVrun计算:

 

Step 4

计算所有内参基因的平均稳定性测度。

Step 4

计算所有IRC的平均稳定性测量值:

Calculations on the effect of inter-run calibration

Figure 3和附加数据文件1的计算已经按照上面列出的公式进行了描述。Cq差被定义为run 1run 2IRCs之间的平均差。倍比变化定义为run 1run 2IRCs的(CNRQ的几何平均值的比率。

为了计算批次间校准的影响,分别从qBase中检索了run123NRQ值。按照公式13′-16′所述,使用一个、两个或三个IRC(附加数据文件2)进行批次间校准。计算了两个IRCs对比三组两个IRCsircs1,2对比ircs1,3对比ircs2,3)的影响。同样,在所有独立的 IRC中,计算了用一个整体IRC 进行批次间校准的效果。

误差增量定义为校准前后的相对误差之比。这种增加的95%置信区间(CI)是根据对数转换率计算的。为了研究从三种可用的校准品中选择(选组IRCs的效果,对不同校准数据集的CNRQs 进行了重新缩放,以便进行比较。对数据集之间的倍比差进行对数变换,并计算95%置信区间。用相同或独立制备的cDNA进行校准的效果与选择IRCs的效果相似。IRC稳定性测量值按公式21′-25′计算

Additional data files 

    本文的在线版本提供了以下附加数据。附加数据文件1包含所有得出Figure 3所示结果的数据和计算。附加数据文件2包含用于评估批次间校准对最终结果影响的所有数据和计算。这些计算的结论部分见Table 2.

基础实验

伯乐Turbo快速半干转SOP及使用技巧

2020-8-14 23:54:57

基础实验

反复冻融对生物样本的影响有多大?

2020-8-14 23:56:14

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: [email protected]
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索