1. sci666首页
  2. 实用技巧
  3. 工具介绍

实用的基因序列研究软件(Chromas与Haploview)

此前通通君曾介绍过药物基因组学的基本知识,对于我们看来“高大上”的基因研究,有些学者可以拿它发文章发到手软。通通君接下来还是以华法林为例,聊聊那些实用的基因工具吧。

(一)Chromas

实用的基因序列研究软件(Chromas与Haploview)

做基因测序的朋友们大概都知道,这款仅有几百kB的小软件,是一代基因测序结果的专用“浏览器”之一。一代测序结果格式是这样的:Chromatogram File .ab1,我们可直接用Chromas打开:

实用的基因序列研究软件(Chromas与Haploview)

如果是反向序列,我们可以这样做:打开Edit,选择Reverse+Complement√,我们就得到该DNA位点的反向序列了。

实用的基因序列研究软件(Chromas与Haploview)

下面通通君附上软件的下载地址:http://technelysium.com.au/wp/chromas/

(二)Haploview:SNP的统计分析

实用的基因序列研究软件(Chromas与Haploview)

这是基因的连锁不平衡分析软件。这里我们科普一下知识。

连锁不平衡(linkage disequilibrium,LD)是指在某一群体中,不同座位上某两个基因同时遗传的频率明显高于预期的随机频率的现象。简单地说,只要两个基因不是完全独立地遗传,就会表现出某种程度的连锁。这种情况就叫连锁不平衡。

首先我们讲述该软件如何下载,http://www.broad.mit.edu/mpg/haploview/这是下载地址,安装Haploview前需先安装JAVA程序,我的JAVA软件是在官网上下载的,Haploview公司网站上也能下载该软件。安装好的界面是这样的。

实用的基因序列研究软件(Chromas与Haploview)

接下来我们讲述Haploview的数据导入:这里我们需要导入两种格式的文件,一种是数据文件,是.ped格式的;另一种是位点信息,是.info格式的。

数据文件.ped格式如下:

1 2 0 0 1 0 1  3 3  14  1
2 5 430 431 2 2 1  3 1  3 4  1
3 11 0 0 2 0 3  3 3  3 1  1
4 12 0 0 1 0 3  3 3  3 1  1
5 14 438 444 2 2 3  3 3  3 1  1

每一行代表一个样本个体,前6列是个体的基本信息,从第7列起每两列代表1个基因SNP位点,下面具体介绍每1列:

第一列:代表的是家系ID,如果你做的是家系研究,那么你的数据家系的编号应该放到第一位。如果你分析的是无关个体,则第一列不能用同一个ID,建议用自然序号1,2,3….来替代。
第二列表示个体的ID,就是你研究的所有个体的编号。在同一个家系内不可以重复,不同的家系间可以重复。如果做无关个体的研究则每个个体的编号不能重复。
第三列和第四列代表同第二列个体之间的家系关系,第三列代表父亲的ID,第四列代表母亲的ID,如果个体的父亲、母亲中某一个没有测到样本的话,则标记为0,如果你做无关个体的研究,则第三列,第四列都赋值为0。
第五列表示对应第二列个体的性别信息。1代表男性,2代表女性。

第六列表示第二列个体的患病状态。0表示疾病状态未知;1表示个体未患病,2代表个体患病。
第七列以后,每两列代表一个SNP位点(由于是二倍体,所以同一个位置有两个值),1代表碱基A;2代表碱基C;3代表碱基G;4代表碱基T。 缺失数据用0表示。当然你也不用这个编码,可以自己任意的定义。

位点信息.info的格式是这样的:

rs9923231    31096368

rs2884737    31094233

rs7196161    31099660

rs11150606       31087690

rs1057910    94981296

这个文件包含两列,第一列为SNP的名字,第二列为SNP的物理位置(bp)。很多情况下我们使用的SNP的名字为dbSNP中的名字,是用rs….表示的。因此第一列很多情况下rs开头的名称。第二列以rs9923231为例,我们在NCBI的SNP网站上可以轻松查到(https://www.ncbi.nlm.nih.gov/snp/),如下图:

实用的基因序列研究软件(Chromas与Haploview)

 检索之后如下图:

实用的基因序列研究软件(Chromas与Haploview)

 

图中红色圈圈内的31096368就是该SNP的物理位置。

此外,.info文件的行数必须和.ped文件中的第七列以后的SNP数目相同,并且一一对应,千万不能错哟。

数据写入之后,我们把ped和info格式的文件分别导入haploview软件,通常结果是这样的

实用的基因序列研究软件(Chromas与Haploview)

结果图往往是这样的:

实用的基因序列研究软件(Chromas与Haploview)

(其中方框里的数值代表D值,D值在80-100表示两位点高度连锁不平衡,在20-80表示中度的连锁不平衡,<20表示两位点间无连锁不平衡。)

聊完这两款基因软件(其中还有好多待开发的软件功能),大家是不是对基因研究又多了两项技能?

①SCI666交流QQ群:医学综合科研群:703163967 · 生信分析群:732179952 · Meta分析群:797345521(点击群号即可加群)。
②下载提示:点击查看百度网盘会员共享账号,部分内容具有时效性,若文中的下载链接失效请留言反馈。

发表评论

登录后才能评论

联系我们

(857)626-2666

在线咨询:点击这里给我发消息

邮件:123456@whu.edu.cn

QR code