这一期我们来演示如何用NCBI中的Primer Blast工具来快速设计探针引物。
引物和探针的设计是qPCR实验中最开始,也是很重要的一个环节。目前可以使用的工具很多,比如桌面软件——Primer Premier,Primer Express等,大部分是收费的(我们常常要花很多精力去下载破解版),也有很多优秀的免费在线设计工具——Prime3Plus(http://primer3plus.com/cgi-bin/dev/primer3plus.cgi)、QuantPrime(https://www.quantprime.de/)以及我们要用到的Primer Blast(https://www.ncbi.nlm.nih.gov/tools/primer-blast/index.cgi)。
这些在线工具基于的算法大同小异,只是功能和特色上可能各有侧重。QuantPrime优势在于大批量的自动化程度较高的设计,如mRNA profiling实验等[1],但在specificity checking和数据库数量上略有欠缺[2]。Prime3Plus是很资深的设计工具,侧重于功能的全面性,提供很多的checkoption[3],但对于新手来讲快速掌握难度较大,而且界面友好程度不够。PrimerBlast基于NCBI强大的数据库,可以提供较全面的引物探针设计功能,很大程度上其算法也是基于Prime3(官网上有说明),综合来看是个不错的选择。
我们以SARS-CoV-2的N基因(市面绝大部分试剂盒的靶点之一)为例,介绍引物和探针的设计。
Ø 进入NCBI官网(https://www.ncbi.nlm.nih.gov/),选择在“Nucleotide”数据库中搜索“SARS-CoV-2”的核酸序列。
Ø 可看到SARS-CoV-2的详细信息,包括所有注释的蛋白读码框,点击条目进入。
Ø 基因组序列信息展示在页面最下面,可以将其复制粘贴到文本文档中加以保存;点击页面右边“Analyze this sequence”功能中的“Pick Primers”选项。
Ø 可以看到在模板区域已经显示出SARS-CoV-2的Reference Sequence No.,另外的两种上传模板信息的方法是将完整序列粘贴过来或者上传文本文档。由于我们要在N基因(CDS区域从28274到29533)上设计引物探针,因此需要在右边规定上下游引物的起始终止范围。
Ø 引物参数设置。如有固定的上游或者下游引物而只需搜索另外一条,可以将序列填到相应的位置。PCR产物范围设定为70 bp-150 bp,Tm最佳设为59℃,最高不超过61℃,上下游引物Tm最多差2℃,稍微将范围缩小可以帮我们找到质量更好的引物。修改过的参数以黄色框标注,另外PrimerBlast还有个好处是不懂的参数意义可以直接点开旁边的问号标识打开提示。
Ø 外显子/内含子选择。这一部分对于设计用于真核生物的基因表达的引物很重要,可以设计跨外显子的引物用于排除genomic DNA的干扰。“Exon junction span”处选择“引物必须跨外显子设计”,“Exonjunction match”设定外显子接合处两端与引物匹配最少的碱基数量,一般5‘端要比3‘端要多,因为3‘的匹配对于启始PCR非常关键,因此无需太多的匹配碱基来保证这一点,默认参数基本可以满足。“Intron inclusion”是以genomic DNA为模板时保证PCR反应要跨越至少一个内含子,从而可以轻易区分其与以cDNA为模板时的产物(长度不同)。是否要激活该选项取决于具体实验,因为既要保证产物小于150bp,还要保证一条引物跨外显子,并且引物被内含子分隔开,这显然不可能。因为没有一个外显子区段是小于150 bp的,所以一般该选项不会用于qPCR实验引物的筛选。由于我们要筛选检测病毒的引物,所以这些选项都不需要更改。
Ø 引物特异性检查。在提取SARS-CoV-2核酸的同时,不可避免会把人细胞的RNA一起提取纯化,因此需要避免引物在人的RNA中发生错配扩增导致假阳性。数据库选择“Refseq RNA”,物种选择人。在严格程度部分,图示中表示的意思是,引物在错配时至少要有4个碱基是不匹配的,其中在3’端最后的5个碱基中至少要有3个是不匹配的。另外当靶标与引物的错配碱基大于等于6时就排除该靶标(意味着不太可能产生错配的产物)。这些参数的设置都是要在严格程度和筛选难易程度上做平衡。
Ø 点开“Advancedparameters”选项卡,在“Primer parameter”中做如图示的改动,其他参数保持默认。这些参数的意义不在此一一详述,但绝大部分的默认参数都可以保证较高的引物质量。
Ø 杂交探针的设计。如图所示设置探针大小、Tm值等参数,同时勾选“Pick internal hybridizationoligo”和下面的“Show results in a new window”(便于后期修改参数再次进行筛选),点击“GetPrimers”。
Ø 图形化展示。首先给出引物对在模板中的相对位置,点击每一对引物可以获得具体的信息。
Ø 引物和探针信息。结果页面下面给出了十对引物和相应探针的详细信息,包括序列、Tm和GC含量等。Selfcomplementarity和Self 3′ complementarity数值越小越好,表明发生引物二聚体或者自身配对的概率很低。下图展示了前三对质量均较高的引物,一般而言探针离着上游引物越近剪切效率越高,但要保持3bp以上,所以第二对引物是不太合适的,第一对和第三对都可以选择(事实上两者相似度很高)。另外要注意的是探针5’端不能是G碱基开头,所以要把第一个碱基删掉。
至此,N基因的引物探针就设计完了,但检测SARS-CoV-2的准备工作还没有结束。对于高度危险的SARS-CoV-2而言,单靶点的检测是不够的,需要用两个甚至三个靶点同时检测来提高检出率,所以目前市场上的试剂盒基本都是两重(ORF1ab,N)或者三重(ORF1ab,N和E)。另外,SARS-CoV-2与SARS-CoV的序列相似度高达79%[4],因此需要避免对SARS-CoV的误检,所以要尽可能在相似度最低的区域来设计引物探针(如下图所示)。
最后,关于引物探针设计的一些小Tips:
I. 一般而言,引物探针设计完后最好再次进行specificity的确认,尤其是三重qPCR的引物探针是要混到一起的,有可能发生引物或者探针之间的交叉反应;
II. 搜索引物探针时条件可适当放宽,毕竟在qPCR反应中发生非特异性扩增需要同时满足三个条件:上下游引物和探针都可以比较“牢固”的匹配错误位点,这也正是探针法相对染料法特异性更高的原因。
III. 对于同一个区段用不同工具设计出来的引物探针序列未必相同,但并不代表有的质量差。比如这次针对SARS-CoV-2的ORF1ab设计的引物探针,中国CDC和美国CDC给出的序列就都不一样。事实上能够满足qPCR实验要求的引物和探针组合是很多的,所以设计时我们不必执着于质量最高的那个组合。
IV. 无论设计工具的算法有多先进,探针引物的性能如何最终还是要靠实验数据说话的。是否有非特异性产物产生需要用PCR后跑胶的方式或者溶解曲线(更推荐)来确认,设定的最佳Tm也是要通过温度梯度实验来最终确认。设计工具给出的参数仅仅是参考,绝不能代替后续确认流程。从经济的角度考虑,一般推荐针对一个靶点设计一条探针和相应的三对引物,经过实验筛选后确定最佳的引物组合。
下一期我们将讨论qPCR中两大实验类型——绝对定量和相对定量,一个很多人都容易犯迷糊的地方。
参考文献
1. Arvidsson,Samuel et al. “QuantPrime–a flexible tool for reliable high-throughput primerdesign for quantitative PCR.” BMC bioinformatics vol. 9 465. 1 Nov. 2008,doi:10.1186/1471-2105-9-465
2. Ye,Jian, et al. “Primer-BLAST: A tool to design target-specific primers forpolymerase chain reaction.” BMC Bioinformatics 13.1 (2012): 134-134.
3. Untergasser,Andreas et al. “Primer3Plus, an enhanced web interface to Primer3.” Nucleicacids research vol. 35,Web Server issue (2007): W71-4.
4. Lu,Roujian, et al. “Genomic characterisation and epidemiology of 2019 novelcoronavirus: implications for virus origins and receptor binding.” TheLancet (2020)