多个物种的进化树做进化树进行序列比对时只要去头去尾吗

小木虫 --- 600万学术达人喜爱的学术科研平台
&&查看话题
关于进化树序列选择的问题
进行blast比对后,用MEGA建进化树时,怎样选取有效序列?
北京学而思教育科技有限公司 地址:北京市海淀区北三环甲18号中鼎大厦A座1层102室 电话:010- 上传我的文档
 下载
 收藏
擅长新老客户资料建立整理,客户的维护沟通,网络推广销售。
 下载此文档
正在努力加载中...
生物序列结构的比较及进化树的构建
下载积分:668
内容提示:生物序列结构的比较及进化树的构建
文档格式:PDF|
浏览次数:16|
上传日期: 18:35:50|
文档星级:
全文阅读已结束,如果下载本文需要使用
 668 积分
下载此文档
该用户还上传了这些文档
生物序列结构的比较及进化树的构建
官方公共微信第33卷第3期Voi.33No.3东南大学学报(自然科学版)
2003年5月May2003(NaturaiScienceEdition)JOURNALOFSOUTHEASTUNIVERSITY
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!不同物种间胰岛素及其编码mRNA,DNA序列比较与分析
周士新谢建明孙啸陆祖宏
(东南大学分子与生物分子电子学教育部重点实验室,南京210096)
摘要:通过PSI-BLAST搜索与人类胰岛素原(含有86个氨基酸)相似的蛋白质序列,并进行比对,计算比对矩阵的相似得分和期望值,同时运用CiustaiW算法对不同物种编码前胰岛素原mRNA及其翻译的蛋白质和DNA序列进行多重比对.结果发现,脊椎动物的胰岛素蛋白质一级结构(A链和B链)和mRNA非常相似,但部分动物C肽的部分序列有差异;系统进化分析表明,人和猴、小鼠和大鼠编码胰岛素的mRNA在进化上关系相近.各物种间编码相同氨基酸的核苷酸序列(CDS)相同,但编码胰岛素的DNA序列不同.各物种胰岛素原蛋白质序列中,A链和B链序列保守,C肽有一定的差异;DNA序列差异较大.
关键词:胰岛素;蛋白质(氨基酸)序列;信使RNA;DNA;C肽
中图分类号:@617文献标识码:A文章编号:(2-04
ComparisonandanalysisofinsulinseguencesandtheircodedmRNA
andDNAamongdifferentspecies
ZhouShixinXieJianmingSunXiaoLuzuhong
(KeyLaboratoryofMoiecuiarandBio-moiecuiarEiectronicsofMinistryofEducation,SoutheastUniversity,Nanjing210096,China)
,mRNAandDNAamongdifferentAbstract:Inordertounderstandtheseguencesofinsuiin(protein)
(86PSI-BLASTwasusedtosearchforthesimiiarproteinseguencesonthebasisofhumanproinsuiinspecies,
,andtheseguencesaiignmentsweremade.Meanwhiie,theCiustaiWprogramwasutiiizedtoaminoacids)
makemuitipieseguencesaiignmentofcodingmRNA,transiatedpreproinsuiin,andDNAofinsuiin.There-
(AchainandBchain)primaryproteinseguencesandmRNAofvertebratearesuitsindicatethattheinsuiin
guitesimiiar.ButC-peptideofsomeanimaisshowsomedifferencesinpartofaminoacidseguences.Anaiysis
mouseandratareguitesimiiarintheevoiution.Thereofphyiogenetictreeindicatesthathumanandmonkey,
areobviousdifferencesbetweenhumaninsuiinDNAseguencesandthoseofmouseorrat.However,theCDSmRNAofvariedspeciescodingthesameaminoacidsarehomoiogy.Theconciusionisthatinsuiin(A,Bchains)seguencesareconservative,howevertheseguencesofC-peptidehavesomedifferenceamonghumanandanimais,whiietheDNAseguenceshaveobviousdifferenceinhuman,mouseandrat.
Keywords:insuiin;protein(aminoacids)seguences;mRNA;DNA;C-peptide
前胰岛素原(preproinsuiin)在胰腺!细胞内质网
、(21合成,含有信号肽(24肽或氨基酸残基)A链
收稿日期:.
基金项目:国家自然科学基金“创新科学基金”资助项目
()、国家高科技发展计划(863计划)资助项
作者简介:周士新(1968—),男,博士生,主管医师,gizhou98@
陆祖宏(联系人),男,博士,教授,博士生;
导师,zhiu@.肽)、(30肽);前胰岛素原在胰岛!细胞C肽和B链高尔基体中脱去信号肽,形成含86个氨基酸残基的胰岛素原(proinsuiin),经蛋白酶将C肽水解,A,B链由2个二硫键相连成为有生物学活性的胰岛素(in-[1~3]suiin).胰岛素分泌功能的障碍或分泌相对不[4~6]足,会引发糖尿病.用生物信息学序列搜索蛋白质、mRNA和DNA多重比对的方法了解人类胰岛素和小鼠、大鼠、猪、牛等其他动物在蛋白质、mRNA和
第3期周士新,等:不同物种间胰岛素及其编码mRNA,DNA序列比较与分析293
并分析其中的原因,有助于在分DNA水平上的异同,
子水平更好地认识胰岛素,揭示不同物种在复制、转录和翻译胰岛素的联系和区别.
2.3胰岛素原mRNA及其翻译蛋白质和DNA序
列的多重比对
对不同物种间前胰岛素原用CIustaIW程序
mRNA及其翻译蛋白质和DNA序列进行多重比
胰岛素蛋白质序列来源于北京大学生物信息中胰岛素、胰岛素心镜像SWISSPROT蛋白质数据库,
原和前胰岛素原mRNA和DNA来源于欧洲生物信美国生物技息学研究所的EMBL核酸序列数据库、
术信息中心的GenBank和生物大分子结构数据库序列比对数据均为Fasta(Pearson)格式.PDB,
对.CIustaIW程序先用动态规划算法对各序列进行两两比较,获得最优得分值,形成系统发生树(phy-[9]
,再依据系统发生树对各序列依次Iogenetictree)
2.1多物种胰岛素原蛋白质序列的搜索
先使用胰岛素(insuIin)关键词搜索SWIS-得到人类含有86个氨基酸SPROT蛋白质数据库,
(aa)的胰岛素原蛋白质序列,再以其为检索对象,用
BLASTP搜索蛋白质数据库得到多种动物前胰岛素原的氨基酸序列一级结构,通过特殊重复位置(positionaIspecificiteratedBLAST,PSI-BLAST)BLAST
程序与人类胰岛素原蛋白质序列进行比对,计算各种动物胰岛素原与搜索蛋白质序列的相似得分
和期望值(!值)(scores).PSI-BLAST结果中被搜
以人类胰岛素原86个氨基酸进行PSI-BLAST
搜索蛋白质的结果
经PSI-BLAST搜索,获得lO8个!值小于8&
其中含有4种人工合成序lO!-ll的蛋白质序列,
列、多种名称不同序列相同的重复序列,例如,人类命名差异但序列相同有9个,小鼠有6个;除去人工合成和重复序列,共有4O种不同物种的胰岛素序列(有8种缺少C肽序列).选取具有代表性的l2种脊椎动物与人类胰岛素原86个氨基酸进行比对.常见脊椎动物胰岛素原的蛋白质序列较为相(小于5&lO-22),而且人类和灵长似,!值均较小
类哺乳动物(黑猩猩、短尾猿、绿猴)胰岛素原的氨基酸序列极为相似,黑猩猩与人类完全相同,短尾猿和绿猴与人类仅相差l个氨基酸;家畜、鼠类等哺乳动物胰岛素原蛋白质序列与人类基本相似;牛和(46~8Oaa)与人类相差较大;家禽羊胰岛素原C肽(鸡)和两栖类(青蛙)的C肽和B链(8l~llOaa)前半段与人类相差较大,而A链(25~45aa)和B链后
(胰岛素半段与人类相差不大.有生物活性的胰岛素原切除C肽)由二硫链将B链和A链相连,由于哺因此哺乳乳动物的A链和B链氨基酸序列很相近,动物胰岛素一级结构非常相似(见表l).
氨基酸序列
!值5&lO-465&lO-463&lO-453&lO-452&lO-4l5&lO-385&lO-385&lO-38l&lO-362&lO-345&lO-347&lO-235&lO-22
则与搜索序列的相似索序列的得分越高,!值越小,
2.2不同物种胰岛素原mRNA和DNA序列搜索
以人类含有86个氨基酸的胰岛素原蛋白质序(综列为搜索对象,用TBLASTN搜索核酸NR数据库合GenBank,EMBL,PDB,DDBJ数据库并剔除其中的重复序列)得到待比较动物的mRNA和DNA序列一(features)描述,得到级结构,通过数据库mRNA特征待比较动物胰岛素原mRNA所翻译的蛋白质序列.
编号NPOOOl98X6lO89JOO336X6lO92POl3llPOl3lONP-O324l3NP-O62OO3POl3l5POl3l7POl3l8POl332Pl27O6
物种人类黑猩猩短尾猿绿猴兔马小鼠大鼠猪牛羊鸡青蛙
PSI-BLAST搜索的常见脊椎动物胰岛素原氨基酸序列和!值
RREAEDLOVGOVELGGGPGAGSLOPLALEGSLOKRRREAEDLOVGOVELGGGPGAGSLOPLALEGSLOKRRREAEDPOVGOVELGGGPGAGSLOPLALEGSLOKRRREAEDPOVGOVELGGGPGAGSLOPLALEGSLOKRRREVEELOVGOAELGGGPGAGGLOPSALELALOKRXXEAEDPOVGEVELGGGPGLGGLOPLALAGPOOXXRREVEDPOVAOLELGGGPGAGDLOTLALEVAOOKRRREVEDPOVAOLELGGGPGAGDLOTLALEVAROKRRREAENPOAGAVELGG--GLGGLOALALEGPPOKRRREVEGPOVGALELAGGPGAG-----GLEGPPOKRRREVEGPOVGALELAGGPGAG-----GLEGPPOKRRRDVEOPLVSSPLRG---EAGVLPFOOEEYEKVKRKRDMEOALV--SGPODNELDGMOLOPOEYOKMKR
GIVEOCCTSICSLYOLENYCNGIVEOCCTSICSLYOLENYCNGIVEOCCTSICSLYOLENYCNGIVEOCCTSICSLYOLENYCNGIVEOCCTSICSLYOLENYCNGIVEOCCTGICSLYOLENYCNGIVDOCCTSICSLYOLENYCNGIVDOCCTSICSLYOLENYCNGIVEOCCTSICSLYOLENYCNGIVEOCCASVCSLYOLENYCNGIVEOCCAGVCSLYOLENYCNGIVEOCCHNTCSLYOLENYCNGIVEOCCHSTCSLFOLESYCN
FVNOHLCGSHLVEALYLVCGERGFFYTPKTFVNOHLCGSHLVEALYLVCGERGFFYTPKTFVNOHLCGSHLVEALYLVCGERGFFYTPKTFVNOHLCGSHLVEALYLVCGERGFFYTPKTFVNOHLCGSHLVEALYLVCGERGFFYTPKSFVNOHLCGSHLVEALYLVCGERGFFYTPKAFVKOHLCGSHLVEALYLVCGERGFFYTPMSFVKOHLCGSHLVEALYLVCGERGFFYTPMSFVNOHLCGSHLVEALYLVCGERGFFYTPKAFVNOHLCGSHLVEALYLVCGERGFFYTPKAFVNOHLCGSHLVEALYLVCGERGFFYTPKA--NOHLCGSHLVEALYLVCGERGFFYSPKA-VNOHLCGSHLVEALYLVCGDRGFFYYPKV
注:以人类胰岛素原蛋白质序列(下划线部分)为比对基准,各物种胰岛素原蛋白质序列与人类两两比对.
东南大学学报(自然科学版)第33卷
不同物种前胰岛素原mRNA序列的多重比对
ClustalW程序先将6种物种编码前胰岛素原的mRNA序列进行两两比对,各物种编码前胰岛素
(327~456原mRNA的碱基长度有不同程度的差异
,人和猴、小鼠和大鼠两两比对相似性得分较高bp)
(大于90,见表2);多重比对中,6种物种编码前胰
(前部和后部)序列不同,岛素原的mRNA修饰部分
编码蛋白质的mRNA核酸序列(CDS)较为相似,如图1所示.其中,!为各物种相同的序列.
长度/bp327333
两两比对相似性得分
表26种物种编码前胰岛素原的mRNA序列两两比对结果
序号123456
名称人-mRNA猴-mRNA猪-mRNA牛-mRNA小鼠-mRNA大鼠-mRNA
编号NM36AF79NM9129
图16种物种编码前胰岛素原的mRNA序列多重比对结果
构建6种物种编码前胰岛素原的mRNA序列的进化树
表3不同物种间前胰岛素原mRNA翻译的蛋白质序列两两比对结果
两两比对相似性得分
用ClustalW分析6种物种编码前胰岛素原
构建系统发生树(进化树),结果发mRNA序列,
现,人和猴、
小鼠和大鼠得分十分相近,聚为一类,显示了这6种编码胰岛素的mRNA在进化上关系的远近(见图2).
序列123456
名称人猴猪牛小鼠大鼠
图26种物种编码前胰岛素原的mRNA序列的进化树
几种哺乳动物胰岛素DNA序列的多重比对
不同物种间前胰岛素原mRNA翻译的蛋白质序列多重比对结果
ClustalW程序先将6种物种编码前胰岛素原
各物种前mRNA翻译的蛋白质序列进行两两比对,
胰岛素原mRNA翻译的蛋白质氨基酸残基长度差异较小(105~127aa),人和猴、猪和牛、小鼠和大鼠两两比对相似性得分较高(见表3);多重比对中,A链和B链各物种氨基酸序列极为相似,C肽氨基酸序列有一定差异,如图3所示.
从GeIBaIk数据库中编码人类胰岛素DNA序
,与小鼠和大鼠DNA列较长(编号J0bp)
长度相差很大,将编码人类胰岛素DNA起始
然后进行比较分析.1200bp的重复序列去除,
小鼠和大鼠胰岛素DNA序ClustalW程序先将人类、
列进行两两比对,小鼠和大鼠两两比较得分较高,
;多重比对中,人类与人类相比,得分较低(见表4)
和小鼠、大鼠只有中间转录mRNA的DNA序列相似,其他部分DNA序列不相似.
看过本文章的还看过。。。
不同物种间胰岛素及其编码mrna,dna序列比较与分析_生物学_自然科学_专业资......
不同物种间胰岛素及其编码mrna,dna 序列比较与分析 隐藏>> ......
不同物种间胰岛素及其编码mrna_dna序列比较与分析_周士新_生物学_自然科学......
外,第二及第三外显子都是胰岛素的主要肽链 编码区...该基因先转录 成mrna, 然 后按此 mrna 为模板, ...又称小卫星dna 插入片段的核昔酸序列分析表明,不论.........
鉴定及其意义 第一部分:生物基因组序列比对分析、...利 用模式生物基因组与人类基因组之间编码顺序上和...个体表现为葡萄糖水平较低、胰岛素耐受较 少,患2型.........
质编码基因的表达、生物多样性的形 此外 , 基因组...各种序列比较分析结果 (同一个体、同一物 种不同...蛋白结合成复合体 , 降解与其互补的 mrna 或 抑制.........
dna上的能与rna聚合酶结合并能起始 mrna合成的序列...胰岛素的结构及其生物合成
人胰岛素的生产方法 ..ab链编码序列 链编码序列 体外折叠 体外折叠 重组人.........
? 不同种的生物以及同一种生物的不同个 体之间都...基因及相关序列20%~30% 编码序列<10%——检测表...最早确定有多态性的是α 珠蛋白基因位点和胰岛素.........
真核生物基因转录一般从嘌呤起始,其 5’端大都经过...(a)序列,其长度因mrna种类不同而变 化,一般为..人类基因中内含子序列所占的比重分析基因 胰岛素 ?.........
基因工程制胰岛素(生工版)_生物学_自然科学_专业...的编码序列
基因工程制胰岛素三种方法...丙醇沉淀,可获得比较纯的总rna,用于下一步mrna 的.........
,在反转录酶的作用下,反转录合成 胰岛素 mrna 互补 dna,再以 cdna 第一链为模板,在反转录酶或 dna 聚合酶 i 的 作用在,最终合成编码它的双链 dna 序列。.........
生物的遗传信息储存在 dna 或 rna 的核苷酸序列中 b.核苷酸序列不同的基因可...检测到细菌的抗虫基因 b.大肠杆菌中检测到人胰岛素基因及其 mrna c.山羊乳腺.........
胰岛素 d.在输卵管细胞中无β 珠蛋白基因和胰岛素...基因组文库 c.cdna 文库中的基因可以在不同物种间...基因的碱基序列、基因的转录产物 mrna, 以及基因的.........
那么这段序列可能就 是编码区域 实现方法① 扫描给定的dna序列,在3个不同的...? 在 b细胞的细胞核中,第11对染色体短臂上胰岛 素基因区dna向mrna转录,mrna.........
不同物种中具有共同祖先的同源序列 b. 具有较小的...6 6要在数据库查询一段与某dna序列编码蛋白质最...参与mrna的特异降解 d.参与小体rna的拼接 二、选择.........
酵母菌等微生物作为受体细胞,最主要原因是( ) a....基因 b.大肠杆菌中检测到人胰岛素基因及其 mrna c....的基因中,编码区也含有不能编码蛋白质的序列 b.原.........
④几乎每个基因序列都与它所编码的蛋白质序列呈线性...mrna 只占初 级转录产物的一小部分 (3)原核生物...例如胰岛素就是通过加工去除 前体分子内部的 33 个.........
狭义概念:既将分子生物学的范畴偏重于核酸(基因)的...完成了第一个 蛋白质——胰岛素的氨基酸全序列分析...volkin 和 astrachan 发现了 mrna(当时尚未用此名.........
三维设计通用版2017届高考生物二轮复习基因的表达学前...dna 完全相同 解析:选 b 终止密码子不编码氨基酸,...胰岛素的氨基酸序列是由 mrna 的碱基序列直 接决定.........
②异源双链分析及dna序列测定; ③不连续相低严谨单个...实验用分子生物学的实验方法对非胰岛素依赖 型糖尿病...首先可能是insr基因完全 缺失,根本没有mrna的表达,.........
■ 24小时热门信息
整个基因组的3%, 其余97%左右 的dna 序列仍不大清楚功能,开始科学家们习惯地把这部分 dna 统称为“非编码dna”或“junk” dna,也就是基因组中 的非编码序列.........
有功能的非编码反基因,或者产生一个没有功能的非编码反转录假基因;④由于非编码 序列2次连续邻近复制产生的⑤插入转位 元件而致一个有功能的编码rna产生:.........
基因分为编码区和非编码区,非编码区又可分为信号序列和非信号序列两类。信号序列包括......
基于网络方法的dna序列编码区·非编码区性质研究_专业资料。利用了一种基于图论理论的方法对dna序列(片段),其编码区及非编码区进行分析。该方法通过复杂网络研究生物.........
■ 相关热门内容
dna序列分析软件介绍_自然科学_专业资料。很宽 antheprot: 蛋白质序......
dnaman 是一种常用的核酸序列分析 软件。由于它功能强大,使用方便,已 成为一种普遍使用的dna 序列分析工具。 打开dnaman,可以看到如下界面: ? ? ? ? 第一栏为.........
序列分析 一、碱基组成 dna序列一个显而易见的特征是四种碱基类 型的分布。...(genetic computer group 研制, 一种通用核酸、蛋白质分析软件包)的testcode、.........
福建农业生物技术通讯 1 生物信息 基因序列分析软件dnastar简介郑伟文,林......
dnaman 是一种常用的核酸序列分析 软件。由于它功能强大,使用方便,已 成为一种普遍使用的dna 序列分析工具。 打开dnaman,可以看到如下界面: ? ? ? ? 第一栏为.........
第七章 dna 序列分析 dna 的一级结构决定了基因的功能,欲想解释基因的生物学...一个高质量的序列,需要一个熟练的分析人员,在一套可 靠的分析软件的帮助下.........
dnaman 是一种常用的核酸序列分析 软件。由于它功能强大,使用方便,已 成为一种普遍使用的dna 序列分析工具。 打开dnaman,可以看到如下界面: ? ? ? ? 第一栏为.........
序列分析软件 dnaman 的使用方法简介作者: 吕惠平 dnaman 是一种常用的核酸序列分析软件.由于它功能强大,使用方便,已成为一种 普遍使用的 dna 序列分析工具.本文以.........
■ 热门推荐多序列比对名词解释_名词解释大全
在生物信息学中, 序列是最基本的数学模型, 它可以用来描述核酸分子和蛋白质分子的一级结构。对序列的操作有助于对的研究, 尤其是对序列进行比对( alignment)。多序列比对问题是计算分子生物学中最基本的问题之一。通过多序列比对, 研究者可以挖掘出更多的保守区间与结构信息。因此它是许多问题的基础, 比如片断组装、基因发现、构建、PCR 、多态位点( SNP)的寻找、预测同源序列的、蛋白质相互作用预测等。
由于人工比对的复杂性和生物序列中的功能不确定性, 无法用生物意义统一地衡量比对的效果。因此人们主观地根据比对后各个序列之间差异的大小来衡量。用来计算差异性的数学模型()主要有三种: 比对和函数( sum - of- pairs functions)、一致性函数( consensus functions)和树函数( tree functions) , 其中使用最普遍的是比对和函数, 其分值一般简称为SP值。目前的多序列比对算法都旨在寻找具有最优SP值的比对, W ang 等已经证明该问题是一个NP难题; 他们同时证明了其他几种主要的目标函数均是NP 难题。对于这种重要的难题, 目前的处理方法主要是: 、和引入其他信息。近似算法的思想是: 既然无法在内找到最优解, 那么设法在多项式时间内找到一个次优解, 并且证明该次优解与最优解间的距离在一定范围内。启发式方法的主要思想是: 既然无法在多项式时间内遍历整个空间, 那么在有限的时间内遍历尽量广泛、最优解存在可能性大的空间。虽然无法证明启发式方法解的收敛区域, 但实验证明启发式方法往往可以得到较好的效果。另外, 针对不同NP难题的实际背景, 可以结合如相关的领域知识, 从而简化问题。对于生物大分子序列的比对问题, 如果知道其比对后的长度和部分保守区间, HMM 模型通常可以被应用。由于上世纪90年代的实施, 在国际上对多序列比对问题的研究比较早, 而且方法较为成熟。目前主要的软件有c lusta l系列和T- coffee系列。下面详细介绍各种多序列比对方法。1 算法作为双序列比对的扩展, 最原始的多序列比对算法仍源于动态规划。解决双序列比对时, 动态规划需要建立一个, 得到最优值后进行回溯。扩展成n个序列后, 只需要把二维表扩展成n维表,以同样的方式填写并回溯即可。对于2个长为n的双序列比对, 动态规划的为O ( n2 ); 对于k个长为n的多序列比对, 动态规划的时间复杂性为O ( nk ) , 这种指数级别的时间复杂性, 在处理实际问题时是无法应用的。于是出现了树比对和星比对来近似地代替动态规划。树比对和星比对的本质思想都是将多序列比对问题转化为多个双序列比对问题。树比对是受序列进化的启发, 它认为对进化关系重构的过程即是对序列比对的过程。在树比对过程中, 先对所有的序列进行两两比对并计算它们的相似性, 确定每两个序列之间的距离。将距离最小的两个序列比对, 得到一个新的序列(与其他序列不同的是该序列每位上的元素不是一个字母, 而是多个字母及各自所占的比例)。这样k 个序列就变成了k - 1 个序列, 重复这个过程, 直到k个序列变成了1 个序列, 则这个序列就是k 个原始序列的多序列比对。这种思想也被称为 渐进法! ( progressive) , 类似于最小代价中的K ruska l算法。作为程序的副产物, clustal可以输出一颗进化树。树比对的时间复杂性O( k3 n2 )。在处理大规模生物数据时, 树比对的时间开销仍然过大。于是有人将树的拓扑结构简化, 将其视为只有一个内部节点, 其他都是叶结点的星。因此这种特殊的树比对算法被称为星比对, 有时也称为中心比对、表决比对。它认为在树比对中每次建立距离表都花费了大量时间, 并不一定要找两个距离最近的序列比对, 只要找到一个 中心序列!,该序列与其他序列的相似程度最高, 然后其他所有的序列都与中心序列进行比对, 然后根据中心序列的变化再将这些双序列比对的结果合并, 得到多序列比对的结果。星比对操作简单, 时间复杂性只有O( k2 n2 )。。星比对方法虽然在多项式时间内可以完成, 仍然不能处理大规模数据, 比如基因组数据。如果多个序列之间相似度高, 则可以利用关键字树方法改进星比对, 从而在线性时间内完成对多个相似序列的比对。该法可以有效地应用于比较同一物种个体的差异, 进而发现多态位点。树比对和星比对都秉承着 一旦为空格, 始终为空格!的思想, 即在双序列比对时加入了空格, 在后面的过程中该空格将一直被保留。这是树比对和星比对最大的缺憾, 为了避免这种问题, 大量的被应用。2 启发式方法是最简单的一种优化算法。当变量变化的空间较大、无法穷举时, 遗传算法作为一种有方向性的遍历, 经常被优化问题的研究者所采用。多序列比对问题在本质上是对空格的添加。可以把一个多序列比对的SP 值看作是适应度函数, 要寻找的就是一种空格添加的方法, 使适应度函数达到最优。具体的选择、交叉、变异等操作有所不同,针对空格的特殊性, 一些研究者也填入了其它的遗传操作。遗传算法不但在限定时间内可以给出近似优化的解, 而且易于被并行化使用。在将遗传算法应用于多序列比对时, 有研究者发现由于交叉和变异操作的, 导致了优化过程过慢。因此有人利用粒子群优化算法来处理上述问题中的空格位置, 得到了较好的效果。将每一种比对视为一个粒子, 在所有粒子中比对得到SP值最优的粒子被认为是最优粒子, 于是所有的粒子朝全局最优粒子的位置和历史最优位置运动, 通过不断地更新全局和历史的最优位置, 直至找到满意的结果。在启发式地搜索解空间时, 通常需要开始的时候搜索的步长大一些, 而接近优化值时步长小一点。因此通常在各种方法中融合入的思想。多序列比对问题中也有模拟退火的应用。A* 算法也是一种基本的人工智能算法。它用合理的启发式函数限制多序列比对的搜索空间, 进而使用动态规划方法。A* 算法的优势在于处理图搜索问题, 而多序列比对问题可以归结为在有向无环图中寻找给定两点间的。但是A* 算法的应用最大的困难在于预测函数和目标函数的选取。如果选取不当, A* 算法将等同于动态规划。而迄今为止还没有完全令人满意的选取方法, 现在还大都依靠人的经验来选取。还有许多启发式方法(如等), 它们同A方法一样, 尽管在应用到多序列比对问题上作了许多尝试, 但中间还存在着一些难处理的问题, 因而还没有形成基于这些方法的主流软件。因此本文不对这些方法作过多的讲述。与双序列比对一样, 多序列比对的方法建立在某个数学或生物学模型之上。因此, 多序列比对的结果也没有绝对正确和绝对错误之分, 而只能认为所使用的模型在多大程度上反映了序列之间的相似以及它们的生物学特征。以上两类方法都是基于优化SP值的, 下面我们将介绍另外一类方法。与其说这是一类方法, 不如说这是一种模型, 因为它从本质上不同于SP值的优化。3 基于的方法组合优化算法和启发式算法都是基于对目标函数的优化。然而当涉及到插入、删除操作时, 像SP值等这种直观上的目标函数无法解释其生物意义,无论参数如何选取。因此, 有研究者从概率模型来对多序列比对进行优化。概率模型并不解释每种比对的生物意义, 它的思想是从已知的生物比对中学习概率。它认为: 具有生物学意义的比对必定以高概率出现。当HMM()在基因发现(寻找CG 岛、寻找TATA- box 等)上获得成功后, 研究者便把相同的思想应用于多序列比对问题。使用HMM处理多序列比对的基本过程是:(1) 人为构建HMM框架。这里需要设定的是比对后的长度, 一旦设定后其基本框架如图1所示。对于该长度, 一般选取要比对序列的平均长度, 也有部分HMM可以适当地调节长度。(2) 用比对好的序列训练HMM 的参数, 包括每个状态的转移概率和发射概率。这一步主要使用B aum-W elch算法。( 3) 依次将需要比对的序列输入给HMM, 返回其最优状态序列, 从而完成多序列比对。寻找最优状态序列一般使用基于动态规划的V iterb i算法。HMM 进行多序列比对的优点在于: 它可以结合入更多的生物信息, 比如二级结构。这些信息通过影响HMM中的参数(转移概率和发射概率)来影响多序列比对的结果。这也是这种方法深受生物学家欢迎的原因之一。但HMM 的不足在于: 首先它要对比对后的长度有一个准确的估计, 如果在HMM的拓扑结构设置不当的话, 会导致比对的结果非常不好; 另外HMM 的时间复杂性高, 其参数的训练过程需要对大量的小树进行精确运算, 不适合比对大规模数据(例如在基因组级别上的比对)。4 相关软件上面讲述了多种多序列比对的算法及模型, 利用这些算法分别产生了不同的软件。由于机理不同, 对于同一组序列, 各种软件给出的结果往往相差很大。对于非专业的使用者, 尤其是生物背景的研究人员, 很难处理多组结果, 往往随机选取一组。针对这种情况, 本文总结了几种主流软件的相关信息与优缺点, 如表1所示。表1 主要的多序列比对软件比较对于上述多序列比对软件, C edric从方法上进行了分析, 并详细地总结了每种软件的优缺点和适用情况。Julie 等人使用BA liBASE 数据库中标记过的序列进行测试, 系统地衡量了目前各个多序列比对软件的效果。当统计一组序列的替换率时,多重序列比对(multiple sequence alignment)通常比两两比对更合适,因为多重比对尽可能多地考虑到了序列中的空位。进行多重比对最直接的技术就是适当改进。对于n条序列的比对,可以用一个n维的矩阵来替代Needleman-Wunsch算法中使用的二维矩阵。但是,随着比对序列数量的增大,多重比对算法的计算复杂度快速增加。因此,利用启发式进行比对的方法被提出来。算法中包括CLUSTAL算法。CLUSTAL算法是由D.G.Higgins和P.M.Sharp在1998年首次提出的,这种算法开始时先比对亲缘关系较近的序列,然后再将其他亲缘关系较远的序列加入其中,从而产生一个完整的多重比对序列。首先该算法构建一棵系统发生树,以此来确定被比较序列间相似的程度。有了这棵树的指导,然后对于关系密切的序列利用动态规划算法进行两两比对。 在多重序列比对中,打分矩阵的选择是一个比较重要的问题。一些矩阵适用于关系较近的序列,例如PAM-1和BLOSUM-90,而另一些矩阵,例如PAM-1000和BLOSUM-35,可能更适合那些亲缘关系较远的序列,使用了不合适的矩阵通常会使比对结果很糟糕。在CLUSTAL算法最新的版本CLUSTALW中,根据序列与亲缘关系最近的那对序列间的差异度,被赋予了权重,而对于空位与空位片段的罚分是根据各条序列的权重来定的,正如打分矩阵的选择。 对于多重序列比对的打分,现在还有一个新的改进,就是允许在两条序列比对的同一位点加入空位。空位位点间的比对得分通常为0.5 多序列比对研究的发展方向随着分子生物学研究的深入, 越来越多的问题需要对生物序列进行比对, 从而挖掘出更多有用的信息。大规模高通量的序列比对仍然没有被很好地解决, 更高效的启发式算法和并行算法还将继续被研究下去。在未来多序列比对的研究将更加集中在以下三个方向:(1)寻找更加高效的优化算法。目前的各种组合算法及启发式算法在本质上都是在寻找一个时间与优化结果的平衡。花费的时间越长, 得到的优化结果越好; 想要得到更好的优化结果, 则需要的算法时间开销越大。因此, 同许多优化问题一样( 比如构建进化树), 在可容忍的时间内, 得到更好的优化结果的研究将一直持续下去, 直到的解决。(2)在生物的序列中往往隐含着一定的结构信息, 生物学家在比对序列时通常希望对应的结构能够比对到一起(比如蛋白质序列中螺旋同螺旋比对、片层同片层比对, RNA 序列中茎区同茎区比对、环区域同环区域比对)。这需要一种新的目标函数把序列相似性和结构相似性结合起来, 然而对结构相似性的衡量以及目标函数的选取, 还有待深入的研究。目前已有研究者用结构信息循环修正比对结果, 取得了较好的效果。(3)越来越多的研究者认识到: 多序列比对不仅是一个有趣的数学问题, 它更是一种实用的生物信息工具。作为一种工具, 它被应用到多个其它问题上(如片段组装、构建进化树、预测大分子结构、寻找基因等)。而针对每一种具体的问题, 对比对又有了具体的限制。因此, SP值将不是唯一的优化衡量标准, 针对具体问题发展具体的多序列比对方法目前已经被大多数研究者所接受。总之, 随着序列、结构、功能等生物体信息的膨胀, 对多序列比对方法的要求将越来越具体、越来越严格。基于SP值优化的多序列比对算法虽然已经被研究的较为深入, 但基于具体问题的多序列比对算法还有广阔的研究空间。 多序列比对仅是基于核苷酸或氨基酸序列间的相似度,其目的是比对序列中具有结构上或功能上重要性的区域。
在生物信息学中, 序列是最基本的数学模型, 它可以用来描述核酸分子和蛋白质分子的一级结构。对序列的操作有助于对的研究, 尤其是对序列进行比对( alignment)。多序列比对问题是计算分子生物学中最基本的问题之一。通过多序列比对, 研究者可以挖掘出更多的保守区间与结构信息。因此它是许多问题的基础, 比如片断组装、基因发现、构建、PCR 、多态位点( SNP)的寻找、预测同源序列的、蛋白质相互作用预测等。
由于人工比对的复杂性和生物序列中的功能不确定性, 无法用生物意义统一地衡量比对的效果。因此人们主观地根据比对后各个序列之间差异的大小来衡量。用来计算差异性的数学模型()主要有三种: 比对和函数( sum - of- pairs functions)、一致性函数( consensus functions)和树函数( tree functions) , 其中使用最普遍的是比对和函数, 其分值一般简称为SP值。目前的多序列比对算法都旨在寻找具有最优SP值的比对, W ang 等已经证明该问题是一个NP难题; 他们同时证明了其他几种主要的目标函数均是NP 难题。对于这种重要的难题, 目前的处理方法主要是: 、和引入其他信息。近似算法的思想是: 既然无法在内找到最优解, 那么设法在多项式时间内找到一个次优解, 并且证明该次优解与最优解间的距离在一定范围内。启发式方法的主要思想是: 既然无法在多项式时间内遍历整个空间, 那么在有限的时间内遍历尽量广泛、最优解存在可能性大的空间。虽然无法证明启发式方法解的收敛区域, 但实验证明启发式方法往往可以得到较好的效果。另外, 针对不同NP难题的实际背景, 可以结合如相关的领域知识, 从而简化问题。对于生物大分子序列的比对问题, 如果知道其比对后的长度和部分保守区间, HMM 模型通常可以被应用。由于上世纪90年代的实施, 在国际上对多序列比对问题的研究比较早, 而且方法较为成熟。目前主要的软件有c lusta l系列和T- coffee系列。下面详细介绍各种多序列比对方法。1 算法作为双序列比对的扩展, 最原始的多序列比对算法仍源于动态规划。解决双序列比对时, 动态规划需要建立一个, 得到最优值后进行回溯。扩展成n个序列后, 只需要把二维表扩展成n维表,以同样的方式填写并回溯即可。对于2个长为n的双序列比对, 动态规划的为O ( n2 ); 对于k个长为n的多序列比对, 动态规划的时间复杂性为O ( nk ) , 这种指数级别的时间复杂性, 在处理实际问题时是无法应用的。于是出现了树比对和星比对来近似地代替动态规划。树比对和星比对的本质思想都是将多序列比对问题转化为多个双序列比对问题。树比对是受序列进化的启发, 它认为对进化关系重构的过程即是对序列比对的过程。在树比对过程中, 先对所有的序列进行两两比对并计算它们的相似性, 确定每两个序列之间的距离。将距离最小的两个序列比对, 得到一个新的序列(与其他序列不同的是该序列每位上的元素不是一个字母, 而是多个字母及各自所占的比例)。这样k 个序列就变成了k - 1 个序列, 重复这个过程, 直到k个序列变成了1 个序列, 则这个序列就是k 个原始序列的多序列比对。这种思想也被称为 渐进法! ( progressive) , 类似于最小代价中的K ruska l算法。作为程序的副产物, clustal可以输出一颗进化树。树比对的时间复杂性O( k3 n2 )。在处理大规模生物数据时, 树比对的时间开销仍然过大。于是有人将树的拓扑结构简化, 将其视为只有一个内部节点, 其他都是叶结点的星。因此这种特殊的树比对算法被称为星比对, 有时也称为中心比对、表决比对。它认为在树比对中每次建立距离表都花费了大量时间, 并不一定要找两个距离最近的序列比对, 只要找到一个 中心序列!,该序列与其他序列的相似程度最高, 然后其他所有的序列都与中心序列进行比对, 然后根据中心序列的变化再将这些双序列比对的结果合并, 得到多序列比对的结果。星比对操作简单, 时间复杂性只有O( k2 n2 )。。星比对方法虽然在多项式时间内可以完成, 仍然不能处理大规模数据, 比如基因组数据。如果多个序列之间相似度高, 则可以利用关键字树方法改进星比对, 从而在线性时间内完成对多个相似序列的比对。该法可以有效地应用于比较同一物种个体的差异, 进而发现多态位点。树比对和星比对都秉承着 一旦为空格, 始终为空格!的思想, 即在双序列比对时加入了空格, 在后面的过程中该空格将一直被保留。这是树比对和星比对最大的缺憾, 为了避免这种问题, 大量的被应用。2 启发式方法是最简单的一种优化算法。当变量变化的空间较大、无法穷举时, 遗传算法作为一种有方向性的遍历, 经常被优化问题的研究者所采用。多序列比对问题在本质上是对空格的添加。可以把一个多序列比对的SP 值看作是适应度函数, 要寻找的就是一种空格添加的方法, 使适应度函数达到最优。具体的选择、交叉、变异等操作有所不同,针对空格的特殊性, 一些研究者也填入了其它的遗传操作。遗传算法不但在限定时间内可以给出近似优化的解, 而且易于被并行化使用。在将遗传算法应用于多序列比对时, 有研究者发现由于交叉和变异操作的, 导致了优化过程过慢。因此有人利用粒子群优化算法来处理上述问题中的空格位置, 得到了较好的效果。将每一种比对视为一个粒子, 在所有粒子中比对得到SP值最优的粒子被认为是最优粒子, 于是所有的粒子朝全局最优粒子的位置和历史最优位置运动, 通过不断地更新全局和历史的最优位置, 直至找到满意的结果。在启发式地搜索解空间时, 通常需要开始的时候搜索的步长大一些, 而接近优化值时步长小一点。因此通常在各种方法中融合入的思想。多序列比对问题中也有模拟退火的应用。A* 算法也是一种基本的人工智能算法。它用合理的启发式函数限制多序列比对的搜索空间, 进而使用动态规划方法。A* 算法的优势在于处理图搜索问题, 而多序列比对问题可以归结为在有向无环图中寻找给定两点间的。但是A* 算法的应用最大的困难在于预测函数和目标函数的选取。如果选取不当, A* 算法将等同于动态规划。而迄今为止还没有完全令人满意的选取方法, 现在还大都依靠人的经验来选取。还有许多启发式方法(如等), 它们同A方法一样, 尽管在应用到多序列比对问题上作了许多尝试, 但中间还存在着一些难处理的问题, 因而还没有形成基于这些方法的主流软件。因此本文不对这些方法作过多的讲述。与双序列比对一样, 多序列比对的方法建立在某个数学或生物学模型之上。因此, 多序列比对的结果也没有绝对正确和绝对错误之分, 而只能认为所使用的模型在多大程度上反映了序列之间的相似以及它们的生物学特征。以上两类方法都是基于优化SP值的, 下面我们将介绍另外一类方法。与其说这是一类方法, 不如说这是一种模型, 因为它从本质上不同于SP值的优化。3 基于的方法组合优化算法和启发式算法都是基于对目标函数的优化。然而当涉及到插入、删除操作时, 像SP值等这种直观上的目标函数无法解释其生物意义,无论参数如何选取。因此, 有研究者从概率模型来对多序列比对进行优化。概率模型并不解释每种比对的生物意义, 它的思想是从已知的生物比对中学习概率。它认为: 具有生物学意义的比对必定以高概率出现。当HMM()在基因发现(寻找CG 岛、寻找TATA- box 等)上获得成功后, 研究者便把相同的思想应用于多序列比对问题。使用HMM处理多序列比对的基本过程是:(1) 人为构建HMM框架。这里需要设定的是比对后的长度, 一旦设定后其基本框架如图1所示。对于该长度, 一般选取要比对序列的平均长度, 也有部分HMM可以适当地调节长度。(2) 用比对好的序列训练HMM 的参数, 包括每个状态的转移概率和发射概率。这一步主要使用B aum-W elch算法。( 3) 依次将需要比对的序列输入给HMM, 返回其最优状态序列, 从而完成多序列比对。寻找最优状态序列一般使用基于动态规划的V iterb i算法。HMM 进行多序列比对的优点在于: 它可以结合入更多的生物信息, 比如二级结构。这些信息通过影响HMM中的参数(转移概率和发射概率)来影响多序列比对的结果。这也是这种方法深受生物学家欢迎的原因之一。但HMM 的不足在于: 首先它要对比对后的长度有一个准确的估计, 如果在HMM的拓扑结构设置不当的话, 会导致比对的结果非常不好; 另外HMM 的时间复杂性高, 其参数的训练过程需要对大量的小树进行精确运算, 不适合比对大规模数据(例如在基因组级别上的比对)。4 相关软件上面讲述了多种多序列比对的算法及模型, 利用这些算法分别产生了不同的软件。由于机理不同, 对于同一组序列, 各种软件给出的结果往往相差很大。对于非专业的使用者, 尤其是生物背景的研究人员, 很难处理多组结果, 往往随机选取一组。针对这种情况, 本文总结了几种主流软件的相关信息与优缺点, 如表1所示。表1 主要的多序列比对软件比较对于上述多序列比对软件, C edric从方法上进行了分析, 并详细地总结了每种软件的优缺点和适用情况。Julie 等人使用BA liBASE 数据库中标记过的序列进行测试, 系统地衡量了目前各个多序列比对软件的效果。当统计一组序列的替换率时,多重序列比对(multiple sequence alignment)通常比两两比对更合适,因为多重比对尽可能多地考虑到了序列中的空位。进行多重比对最直接的技术就是适当改进。对于n条序列的比对,可以用一个n维的矩阵来替代Needleman-Wunsch算法中使用的二维矩阵。但是,随着比对序列数量的增大,多重比对算法的计算复杂度快速增加。因此,利用启发式进行比对的方法被提出来。算法中包括CLUSTAL算法。CLUSTAL算法是由D.G.Higgins和P.M.Sharp在1998年首次提出的,这种算法开始时先比对亲缘关系较近的序列,然后再将其他亲缘关系较远的序列加入其中,从而产生一个完整的多重比对序列。首先该算法构建一棵系统发生树,以此来确定被比较序列间相似的程度。有了这棵树的指导,然后对于关系密切的序列利用动态规划算法进行两两比对。 在多重序列比对中,打分矩阵的选择是一个比较重要的问题。一些矩阵适用于关系较近的序列,例如PAM-1和BLOSUM-90,而另一些矩阵,例如PAM-1000和BLOSUM-35,可能更适合那些亲缘关系较远的序列,使用了不合适的矩阵通常会使比对结果很糟糕。在CLUSTAL算法最新的版本CLUSTALW中,根据序列与亲缘关系最近的那对序列间的差异度,被赋予了权重,而对于空位与空位片段的罚分是根据各条序列的权重来定的,正如打分矩阵的选择。 对于多重序列比对的打分,现在还有一个新的改进,就是允许在两条序列比对的同一位点加入空位。空位位点间的比对得分通常为0.5 多序列比对研究的发展方向随着分子生物学研究的深入, 越来越多的问题需要对生物序列进行比对, 从而挖掘出更多有用的信息。大规模高通量的序列比对仍然没有被很好地解决, 更高效的启发式算法和并行算法还将继续被研究下去。在未来多序列比对的研究将更加集中在以下三个方向:(1)寻找更加高效的优化算法。目前的各种组合算法及启发式算法在本质上都是在寻找一个时间与优化结果的平衡。花费的时间越长, 得到的优化结果越好; 想要得到更好的优化结果, 则需要的算法时间开销越大。因此, 同许多优化问题一样( 比如构建进化树), 在可容忍的时间内, 得到更好的优化结果的研究将一直持续下去, 直到的解决。(2)在生物的序列中往往隐含着一定的结构信息, 生物学家在比对序列时通常希望对应的结构能够比对到一起(比如蛋白质序列中螺旋同螺旋比对、片层同片层比对, RNA 序列中茎区同茎区比对、环区域同环区域比对)。这需要一种新的目标函数把序列相似性和结构相似性结合起来, 然而对结构相似性的衡量以及目标函数的选取, 还有待深入的研究。目前已有研究者用结构信息循环修正比对结果, 取得了较好的效果。(3)越来越多的研究者认识到: 多序列比对不仅是一个有趣的数学问题, 它更是一种实用的生物信息工具。作为一种工具, 它被应用到多个其它问题上(如片段组装、构建进化树、预测大分子结构、寻找基因等)。而针对每一种具体的问题, 对比对又有了具体的限制。因此, SP值将不是唯一的优化衡量标准, 针对具体问题发展具体的多序列比对方法目前已经被大多数研究者所接受。总之, 随着序列、结构、功能等生物体信息的膨胀, 对多序列比对方法的要求将越来越具体、越来越严格。基于SP值优化的多序列比对算法虽然已经被研究的较为深入, 但基于具体问题的多序列比对算法还有广阔的研究空间。 多序列比对仅是基于核苷酸或氨基酸序列间的相似度,其目的是比对序列中具有结构上或功能上重要性的区域。
相关文章推荐:}

我要回帖

更多关于 怎么进行多序列比对 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信