已知真菌基因组dna提取序列如何预测cDNA序列

对一条新的基因序列进行生物信息学的分析
&&&&对一条新的基因序列进行生物信息学的分析海南中学 作者: 作者:许汝言 指导老师: 指导老师: 黄小葵论文摘要本研究的主要内容是运用生物信息学的手段结合生物学实验 方法对从一株产 -甘露聚糖酶的新菌种 a.tabescens ejly2098 获得的新基因序列( 命名为 man)进行生物信息学的分析。针对 然后结合利用所&&&&获得的信息设计生物学方法证实其生物学功能。 关键词:-甘露聚糖酶;a.tabescens ejly2098;生物信息学论文目的和意义英国《自然》杂志网络版 2006 年 5 月 18 日报道,科学家已对含 有 2.23 亿个碱基对,占人类基因组中碱基对总量的 8%左右的人类第 一号染色体完成测序,宣告持续 16 年的人类基因组计划全部完成。 作为人类自然科学史上重要的里程碑, “人类基因组” 的研究已从 “结 构基因组”阶段进入“功能基因组”阶段。在人类基因组计划后相继 推出的水稻基因组计划、马铃薯基因组计划、草鱼基因组计划等,和 快速增长的微生物基因测序, “海量” 的基因信息的积累, 催生了 “功 能基因组”时代的来临。针对充分利用“海量”基因组信息的生物信 息学不仅应运而生,而且为以注释、阐明基因功和利用基因生物学功 能的“后基因组时代”的研究发挥了重大作用。 生物信息学是把基因组 dna 序列信息分析作为源头,在获得了蛋 白质编码区的信息后,进行蛋白质空间结构的预测和模拟,然后依据 特定蛋白质的功能进行必要的药物设计。就是说,生物信息学的主要 任务是组织和分析生物学数据,而生物学数据的分析离不开计算机算 法的运用。因此,可以说生物信息学是一门集生命科学、计算机科学、 数学、物理学为一身的多学科交叉的前沿学科。 生物信息学的主要研究对象是序列,即一维的分子排列顺序所分 析,包括 dna 分子碱基序列和编码蛋白质的氨基酸序列。dna 序列分 析的主要任务是基因识别和发现某些功能区(如启动子、增强子 等),dna 序列研究的最终目的是说明遗传语言的语法和语法规则,从 而最终读懂 dna 序列。 蛋白质的结构预测研究始终是生物信息学的核 心内容之一,目前研究工作是利用一级结构中的氨基酸排列顺序所隐 藏的信息来预测蛋白质的高级结构,而蛋白质结构研究的最终目标是 阐明肽链的折叠规律,即所谓破译“第二套生物学密码” 。 “基因组计划”积累了大量生物信息。而生物信息学的任务就是 挖掘和利用这些信息,从众多生命信息中发现统一的,本质的,有用的 规律。而这些规律必将促进生命科学,如结构生物学,生物技术,药物 设计,分子进化等研究工作的进展。 所以,生物信息学将在 “后基因组” 的时代,发挥极其重要的作用,批注 [l1]: 批注 [l2r1]: 这将有助于全部读懂人类基因组的全部信息,有助于揭示基因组物质 结构的复杂性,有助于生命起源和生物进化问题的最终解决,有助于 识别与鉴定人类特定疾病的相关基因,有助于药物设计理论和方法的 改进和提高。[1-10]研究现状随着信息学大环境的改善,如信息高速公路、 国际互联网的发展, 生物信息学发展迅速。美国、日本及欧洲各国的生物信息学已相继在 internet 上建立了各自的网络节点,进行管理大型数据库,为研究人 员提供研究数据的分析、处理、采集、交换的服务。国际互联网所到 之处,都有各种研究机构的联网、数据库的建立,开展生物信息学研 究。各种数据库各具特色:genbank、embl、ddbj 是三大核苷酸及蛋 白质数据库;gdb 数据库主要收集遗传学制图的资料;ceph 的数据库 收集 yaccontig;genethon、chlc 储存遗传学标记系列;whiethead 研究所的数据库可了解全部 18000 个 sts 及联系作图的信息; 另外还 有突变序列的数据库在建立之中。在各类数据库建立的同时,数据库 设计中出现了集成化趋势,集成化包括:各类数据的集成、数据库与 数据分析软件的整合。各种数据库分析、测序应用软件包也被开发出 来。[11]除了数据库、数据分析软件的发展,生物信息学中比较基因组学 的发展也较为突出。其中河豚、鼠、猪、牛和马的基因组与人基因组 的比较研究,秀丽隐杆线虫与人基因组的比较研究、酵母与人基因组 的比较研究,支原体与嗜血流感杆菌基因组的比较研究,都取得了成 果,从比较中分离到一些人类遗传病的候选基因,鉴定了一些新克隆 的基因,为人类基因组的分析提供了有益的数据。 随着计算机技术的发展和渗透,生物信息学在人类基因组中大规 模测序的自动化控制、测序结果分析处理、序列数据的计算机管理、 各类遗传图谱、物理图谱的绘制、研究数据网络获取、分析和交换, 以数据分析的结果辅助基因组研究等都发挥着不可替代的功能,显示 出越来越重要的作用。全长 cdna 序列 man 的生物信息学分析前言随着因特网在上世纪 90 年代的出现和信息技术的迅猛发展。 生命科学也相伴走向信息化,其主要标志就是人类基因组计划的 实施,这一计划及其相继展开的众多的基因组计划使得生物学数 据急剧增加,而传统的实验手段却远远不能满足对这些数据的解 释,使之上升到科学知识的高度[9-10]。 随着人类基因组计划的实施 ,分子生物学家提供了大量的有关生物 分子的数据,如何将这些从实验室中取得的生物信息进行整理,,并能 对以后的研究提供资料和依据,这就需要运用到现代计算机技术对这 些原始数据进行收集,整理和分析,从而是人们在研究过程中及时得到 有效的生物信息.因此,生物信息学不仅是一门学科,也是研究过程中 的一项技术和开发工具.核酸序列分析是生物信息学应用中的一个重 要方面.dna 序列分析可分两大类:1.面向测序的 dna 序列分析; 2. 指定 dna 序列的分析. 通过一个简单序列相似性的比较可以对未知 序列进行初步的功能预测,对后续实验确定初步研究方向[12]。 本论文通 过对从真菌a.tabescens 中克隆出一个基因的全长 cdna 进行生物 信息的分析,预测这个未知 cdna 的功能. 目前因特网上有许多生物学信息库,采用不同的算法,对生物学数据 进行从序列水平到结构层次,进而到功能的多种分析。本章的分析主 要利用这些数据库和相关软件完成。材料和仪器 (1)生物技术实验室从一株产 -甘露聚糖酶的新菌种 a.tabescens ejly2098 克隆出一个全长 cdna(命名为 man) (2)可以连接国际互联网的计算机 核酸序列的基本分析 运用 dnaman 软件分析核酸序列的分子质量、 碱基组成和碱基 分布。同时运用 bioedit(版本 7.0.5.3)软件对 man 做酶切谱分析。 碱基同源性分析 进行碱基同源性分 碱基同源性分析 运用 ncbi 信息库的 blast 程序对 man 进行 碱基同源性分 (translated query vs.protien database(blastx)) 网站如下:http://www.ncbi.nlm.nih.gov/blast/ 参数选择:translated query-protein database [blastx];stander1 开放性阅读框(orf) 开放性阅读框(orf)分析 利用 ncbi 的 orf finder 程序对 man 做开放性阅读框分析,网 址如下: http://www.ncbi.nlm.nih.gov/projects/gorf/orfig.cgi 参数选择:genetic codes:1 standard 对蛋白质序列的结构功能域分析 运 用 简 单 模 块 构 架 搜 索 工 具 ( simple modular architecture research tool,smart) manorf 出的蛋白质序列进行蛋白质结构 对 功能域分析。该数据库由 embl 建立,其中集成了大部分目前已知 的蛋白质结构功能域的数据。[12] 网址如下: http://smart.embl-heidelberg.de/ 运用 ncbi 的 blast 程序再对此蛋白质序列进行 rpsblast 分析rpsblast 分析其保守功能域参数选择:search database:cdd v2.07-11937pssms expect:0.01 filter:low complexity search mode:multiple hits 1-pass 同源物种分析 用 dnaman 软件将蛋白质序列与 ghf5 的 -甘露聚糖酶序列和 ghf6 的 -甘露聚糖酶序列序列比对,根据结果绘出系统进化树,并 进行分析。 蛋白质一级序列的基本分析 运用 bioedit(版本 7.0.5.3)软件对 man orf 翻译的蛋白的一些 基本性质,对分子量、等电点、氨基酸组成等作出分析。二级结构和功能分析 信号肽预测 利用丹麦科技大学(dtu)的 cbs 服务器蛋白质序列的信号肽 (signal peptide)预测,进入 prediction serves 页面。 网址如下: http://www.cbs.dtu.dk/services/signalp/ 参数选择: eukaryotes;both;gif (inline);standard; 疏水性分析 利用瑞士生物信息学研究所(swiss institute of bioinformatics, sib)的 expasy 服务器上的 protscale 程序[13]对 orf 翻译后的氨基 酸序列做疏水性分析 网址如下: http://us.expasy.org/cgi-bin/protscale.pl 参数选择: hphob. / kyte & doolittle 蛋白质溶解能力和 prosite motif search 的分析 利用美国哥伦比亚大学(columbia university)的 predictprotein 服务 器(phd)[14]对 orf 翻译后的氨基酸序列通过发邮件的方式获得蛋 白质溶解能力和 prosite motif search 分析的结果。 网址如下: http://cubic.bioc.columbia.edu/pp/submit_def.html 磷酸化位点分析 磷酸化和去磷酸化是细胞内信号传导的重要方式, 利用丹麦科技 大学(dtu)的 cbs 服务器上的 netphos2.0 server 程序[15] 做磷酸化位点分析。 netphos2.0 server 程序是基于神经网络算法, 对蛋白序列中的 ser、thr 和 tys 三种氨基酸残基可能成为的磷酸化 位点作出预测, 网址如下: http://www.cbs.dtu.dk/services/netphos/ 跨膜区分析 蛋白质序列含有跨膜区提示它可能作为膜受体起作用, 也可能是 定位于膜的锚定蛋白或者离子通道蛋白等,从而,含有跨膜区的蛋白 质往往和细胞的功能状态密切相关。[12]利用丹麦科技大学(dtu)的 cbs 服务器上的 tmhmm server v. 2.0 程序进行蛋白序列跨膜区分 析。 网址如下: http://www.cbs.dtu.dk/services/tmhmm/ 参数选择: extensive with graphics 亚细胞定位 通过 wolf psort 工具基于其氨基酸序列预测蛋白质亚细胞定位点 网址如下: http://wolfpsort.seq.cbrc.jp/ 参数选择: fungi;from text area 二硫键分析 运用 scratch protein predictor 对蛋白质的二硫键做出分析。 网址如下: http://www.ics.uci.edu/~baldig/scratch/index.html 参数选择: dlpro(disulfide bonds) 二级结构预测 运用 pbil lyon-gerland 信息库对蛋白质序列进行二级结构预测 (secondary structure prediction) ,主要用 hopfield 神经网络 (hnn)预测。 网址如下: http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.plpage=/npsa /npsa_hnn.html讨论与结果 从一株产 -甘露聚糖酶的新菌种 a.tabescens ejly2098 获得的全长 cdna 序列如下: acgcgggggaaagatg atgcatctgctcgcttttctgtctctgagtacattcctgtgctctgcgttcgc atg tgctgttcctgagtggggccaatgtggcggcattggatggacaggacagaccacttgcgttagtgg tacagtatgcgcagctctcaatgactattattctcaatgtgtgcctggaacggccacaacaacggc cgctcccacgactgctacatcaacaaccatttcttccacttctcgcacaactgctacgtcgaccac agcttccgcaccatcttctactggctttgtaactacctctggcacagagttccgcctcaacggtgc caaatttactatcttcggcgccaactcatactgggtcgggttgatgggctatagcactacagatat gaataaagccttcgcagacatcgcggctacaggtgccaccgtcgtccgcacatggggcttcaatga ggtaacgagtcctaacgggatttattaccagagttggtccggaagtacaccaactatcaacacagg ttctacgggtcttcaaaactttgatgccgtcgtcgctgctgctgctgcacatggcttgaggcttat tgttgccataacgaacaactggtccgactatggtggaatggatgtatacgttaaccaaattgtcgg gtctggctctgcgcacgatttattctataccgactgtgaggttatatctacttacatgaactacgt caagaccttcgtctcgcgctatgtgaacgaacctactattttaggttgggagcttgcaaatgaacc tagatgcaaggggagtaccgggacgacctctggatcatgcactgcaacgactatcacaaaatgggc cgcggcaatttcagcgtacatcaagtcgatcgatcccaaccatcttgtcgggataggagatgaagg gttctacaatgaacctagcgcaccaacatatccatatcaaggtagcgaaggtatcgattttgatgc aaatttggccattagtagcattgatttcggtacattccattcctatcctatcagctggggtcaaac cactgatcctcagggatggggtacgcaatggatcgctgatcatgcaacgtcaatgacagctgcggg aaagcccgtaatcttagaggagtttggagtcaccactaatcaagcaactgtttatggcgcctggta tcaggaagttgtctcttcgggtcttactggtgctcttatttggcaagctggttcttatttatcatc cggagctactccggacgacggatatgcaatttatcctgatgatcctgtatattccctggaaacctc ctatgcggttacattgaaagcgcgggcgtag taggatagggtacagaataaattttgctccgatgtggt tag actgtagccgagcggcttgactatgtgaataaaaatagcactgttgtcacgatcgatcaacaccta aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa核酸序列的基本分析 核酸序列的基本分析结果如下:seq new: 1483 composition 388 358 351 386 0 other percentage: 26.2% 24.1% 23.7% 26.0% 0.0%other molecular weight (kda): ssdna: 457.73 dsdna: 914.24 origin 1 acgcggggga aagatgcatc tgctcgcttt tctgtctctg agtacattcc tgtgctctgc 61 gttcgctgct gttcctgagt ggggccaatg tggcggcatt ggatggacag gacagaccac 121 ttgcgttagt ggtacagtat gcgcagctct caatgactat tattctcaat gtgtgcctgg 181 aacggccaca acaacggccg ctcccacgac tgctacatca acaaccattt cttccacttc 241 tcgcacaact gctacgtcga ccacagcttc cgcaccatct tctactggct ttgtaactac 301 ctctggcaca gagttccgcc tcaacggtgc caaatttact atcttcggcg ccaactcata 361 ctgggtcggg ttgatgggct atagcactac agatatgaat aaagccttcg cagacatcgc 421 ggctacaggt gccaccgtcg tccgcacatg gggcttcaat gaggtaacga gtcctaacgg 481 gatttattac cagagttggt ccggaagtac accaactatc aacacaggtt ctacgggtct 541 tcaaaacttt gatgccgtcg tcgctgctgc tgctgcacat ggcttgaggc ttattgttgc 601 cataacgaac aactggtccg actatggtgg aatggatgta tacgttaacc aaattgtcgg 661 gtctggctct gcgcacgatt tattctatac cgactgtgag gttatatcta cttacatgaa 721 ctacgtcaag accttcgtct cgcgctatgt gaacgaacct actattttag gttgggagct 781 tgcaaatgaa cctagatgca aggggagtac cgggacgacc tctggatcat gcactgcaac 841 gactatcaca aaatgggccg cggcaatttc agcgtacatc aagtcgatcg atcccaacca 901 tcttgtcggg ataggagatg aagggttcta caatgaacct agcgcaccaa catatccata 961 tcaaggtagc gaaggtatcg attttgatgc aaatttggcc attagtagca ttgatttcgg 1021 tacattccat tcctatccta tcagctgggg tcaaaccact gatcctcagg gatggggtac 1081 gcaatggatc gctgatcatg caacgtcaat gacagctgcg ggaaagcccg taatcttaga 1141 ggagtttgga gtcaccacta atcaagcaac tgtttatggc gcctggtatc aggaagttgt 1201 ctcttcgggt cttactggtg ctcttatttg gcaagctggt tcttatttat catccggagc 1261 tactccggac gacggatatg caatttatcc tgatgatcct gtatattccc tggaaacctc 1321 ctatgcggtt acattgaaag cgcgggcgta ggatagggta cagaataaat tttgctccga 1381 tgtggtactg tagccgagcg gcttgactat gtgaataaaa atagcactgt tgtcacgatc 1441 gatcaacacc taaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaa 对其所做对其所做的酶切谱分析结果如下:① 对 dq286392 的酶切图(见附录 1) ② 单酶切统计,见下表:restriction table:enzymerecognitionfrequency positions__________________________________________________________________________ acci aloi aloi alwi apoi bani bbei bbsi bbvi bceai bcgi bcgi bcli bfrbi bgli bmri bpuei bsahi bsaji bsawi bsaxi bsaxi bsemii bseri bseyi bsgi bsiei bsihkai bsli bsmai bsmbi bsmfi gt'mk_ac 2 1 1 258, 640 632 600 833, 885, , 2, 8, 429, 83 531 53, 156, 551, 554, 557, 560, 1, 540 , 32,
91 371 1 2 2 3 1 1 3 1 1 1 3 2 4 3 1 1 2 3 605 349, 09 501,
215 185 30, 67, 45 559 199, 889, 23 81, 449, 963, 3,
57, , 1079gaacnnnnnntccnnnnnnn_nnnnn' ggannnnnngttcnnnnnnn_nnnnn' ggatcnnnn'n_ r'aatt_y g'gyrc_c g_gcgc'c gaagacnn'nnnn_ gcagcnnnnnnnn'nnnn_ acggcnnnnnnnnnnnn'nn_ cgannnnnntgcnnnnnnnnnn_nn' gcannnnnntcgnnnnnnnnnn_nn' t'gatc_a atg'cat gccn_nnn'nggc actgggnnnn_n' cttgagnnnnnnnnnnnnnn_nn' gr'cg_yc c'cnng_g w'ccgg_w acnnnnnctccnnnnnnn_nnn' ggagnnnnngtnnnnnnnnn_nnn' ctcagnnnnnnnn_nn' gaggagnnnnnnnn_nn' c'ccag_c gtgcagnnnnnnnnnnnnnn_nn' cg_ry'cg g_wgcw'c ccnn_nnn'nngg gtctcn'nnnn_ cgtctcn'nnnn_ gggacnnnnnnnnnn'nnnn_ 1 1 1 1 5 3 4 2 1 73 3 3bsp1286i g_dgch'c bspcni ctcagnnnnnnn_nn' bspei bsri bsrbi bsrdi bstf5i bstz17i bsu36i btgi btsi cac8i clai eaei eagi eari ecii faui foki fspi haeii hin4i hin4i hincii hpai hphi hpy8it'ccgg_a actg_gn' ccg'ctc gcaatg_nn' ggatg_nn' gta'tac cc'tna_gg c'cryg_g gcagtg_nn' gcn'ngc at'cg_at y'ggcc_r c'ggcc_g ctcttcn'nnn_ ggcggannnnnnnnn_nn' cccgcnnnn'nn_ ggatgnnnnnnnnn'nnnn_ tgc'gca r_gcgc'y gaynnnnnvtcnnnnnnnn_nnnnn' gabnnnnnrtcnnnnnnnn_nnnnn' gty'rac gtt'aac ggtgannnnnnn_n' gtn'nac3 4 2 1 4 1 1 1 1 4 3 3 1 1 1 2 4 2 2 3 3 2 1 1 5 10501,
290, 366, 618, 99 1,
889, 979, 6, 997 196 2, 8,
143, 673 352, 79, 79, 7 647 0, 641, 647, 752 75, 502, 728, 823, 908, , , 1435hpy188iii tc'nn_gahpyf10vi gcn_nnnnn'ngc1167, 92, 418, 430, 452, 562, 571 574, 871, 997, 1099kasi mboii mlyi mmei mnlig'gcgc_c gaagannnnnnn_n' gagtcnnnnn'2 5 2348, 1, 335, 531, 59 643 311, 330, 455, 580, 692, 830, , 1328tccracnnnnnnnnnnnnnnnnnn_nn' 1 cctcnnnnnn_n' 9msci msli mspa1i mwoitgg'cca caynn'nnrtg cmg'ckg gcnn_nnn'nngc1 1 3 11999 50 861,
66, 91, 417, 429, 451, 561, 570 573, 870, 996, 1098nari nlaiv nsii pleigg'cg_cc ggn'ncc a_tgca't gagtcnnnn'n_2 5 1 2349, 9, 350, 431, , 1158 pshai pvui pvuii sacii sali sfani sfci sfoi smli tati tspdti tspgwi tsprigacnn'nngtc cg_at'cg cag'ctg cc_gc'gg g'tcga_c gcatcnnnnn'nnnn_ c'trya_g ggc'gcc c'tyra_g w'gtac_w atgaannnnnnnnn_nn' acggannnnnnnnn_nn' _nncastgnn'1 2 2 1 1 5 4 2 1 2 5 1 3735 889, ,
4, 26, 542, 786, 977 380, 388, 424, 81 584 42, 507 411, 732, 802, 934, 949 64, 1432enzymes that cut five or fewer timesenzymerecognitionfrequency positions__________________________________________________________________________ acci aloi aloi alwi apoi bani bbei bbsi bceai bcgi bcgi bcli bfrbi bgli bmri bpuei bsahi bsaji bsawi bsaxi bsaxi bsemii bseri bseyi bsgi gt'mk_ac 2 1 1 258, 640 632 600 833, 885, , 2, 8, 429, 83 531 3 3 3 1 1 1 1 1 2 2 3 1 1 3 1 1 1 199, 211, 540 , 32,
91 371 605 349, 09 501,
215 185 30, 67, 45 559gaacnnnnnntccnnnnnnn_nnnnn' ggannnnnngttcnnnnnnn_nnnnn' ggatcnnnn'n_ r'aatt_y g'gyrc_c g_gcgc'c gaagacnn'nnnn_ acggcnnnnnnnnnnnn'nn_ cgannnnnntgcnnnnnnnnnn_nn' gcannnnnntcgnnnnnnnnnn_nn' t'gatc_a atg'cat gccn_nnn'nggc actgggnnnn_n' cttgagnnnnnnnnnnnnnn_nn' gr'cg_yc c'cnng_g w'ccgg_w acnnnnnctccnnnnnnn_nnn' ggagnnnnngtnnnnnnnnn_nnn' ctcagnnnnnnnn_nn' gaggagnnnnnnnn_nn' c'ccag_c gtgcagnnnnnnnnnnnnnn_nn' 5 3 4 2 1 bsiei bsihkai bsli bsmai bsmbi bsmficg_ry'cg g_wgcw'c ccnn_nnn'nngg gtctcn'nnnn_ cgtctcn'nnnn_ gggacnnnnnnnnnn'nnnn_3 2 4 3 1 1 2 3 3 4 2 1 4 1 1 1 1 4 3 3 1 1 1 2 4 2 2 3 3 2 1 1 5 2 5 2199, 889, 23 81, 449, 963, 3,
57, , 54, 6, 618, 99 1,
889, 979, 6, 997 196 2, 8,
143, 673 352, 79, 79, 7 647 0, 641, 647, 752 348, 1, 335, 531, 59 643 999 50 861,
349, 9, 350, 431, , 1158bsp1286i g_dgch'c bspcni bspei bsri bsrbi bsrdi bstf5i bstz17i bsu36i btgi btsi cac8i clai eaei eagi eari ecii faui foki fspi haeii hin4i hin4i hincii hpai hphi hpy8i kasi mboii mlyi mmei msci msli mspa1i nari nlaiv nsii plei ctcagnnnnnnn_nn' t'ccgg_a actg_gn' ccg'ctc gcaatg_nn' ggatg_nn' gta'tac cc'tna_gg c'cryg_g gcagtg_nn' gcn'ngc at'cg_at y'ggcc_r c'ggcc_g ctcttcn'nnn_ ggcggannnnnnnnn_nn' cccgcnnnn'nn_ ggatgnnnnnnnnn'nnnn_ tgc'gca r_gcgc'y gaynnnnnvtcnnnnnnnn_nnnnn' gabnnnnnrtcnnnnnnnn_nnnnn' gty'rac gtt'aac ggtgannnnnnn_n' gtn'nac g'gcgc_c gaagannnnnnn_n' gagtcnnnnn'tccracnnnnnnnnnnnnnnnnnn_nn' 1 tgg'cca caynn'nnrtg cmg'ckg gg'cg_cc ggn'ncc a_tgca't gagtcnnnn'n_ 1 1 3 2 5 1 2 pshai pvui pvuii sacii sali sfani sfci sfoi smli tati tspdti tspgwi tsprigacnn'nngtc cg_at'cg cag'ctg cc_gc'gg g'tcga_c gcatcnnnnn'nnnn_ c'trya_g ggc'gcc c'tyra_g w'gtac_w atgaannnnnnnnn_nn' acggannnnnnnnn_nn' _nncastgnn'1 2 2 1 1 5 4 2 1 2 5 1 3735 889, ,
4, 26, 542, 786, 977 380, 388, 424, 81 584 42, 507 411, 732, 802, 934, 949 64, 1432enzymes that do not cut: _________________________________________________________ aari, aatii, acc65i, acli, afei, aflii, afliii, agei, ahdi, alei, alwni, apai apali, asci, asei, asisi, avai, avrii, baei, baei, bamhi, banii, bbvci, bcivi bglii, blpi, bme1580i, bmgbi, bmti, bpli, bpmi, bpu10i, bsai, bsaai, bsabi, bsiwi bsmi, bsphi, bspmi, bsrfi, bsrgi, bsshii, bsssi, bstapi, bstbi, bsteii, bstxi bstyi, drai, draiii, drdi, eco57i, ecoicri, eco57mi, econi, ecoo109i, ecori, ecorv fali, fsei, fspai, hgai, hindiii, kpni, mfei, mlui, naei, ncoi, ndei, ngomiv, nhei noti, nrui, nspi, paci, pcii, pflmi, pmei, pmli, ppii, ppii, ppumi, psii, pspomi psri, psri, psti, rsrii, saci, sandi, sapi, sbfi, scai, sexai, sfii, sgrai, smai snabi, spei, sphi, srfi, sspi, stui, styi, swai, taqii, taqii, tth111i, xbai, xcmi xhoi, xmai, xmni, zrai碱基同源性分析 dq286392序列的blastx分析结果(见图1) : 图1dq286392序列的blastx分析结果score sequences producing significant alignments: gi||gb|abb88954.1| gi|7208638|emb|cab76904.1| gi|1679597|emb|caa90423.1| gi||gb|abg79370.1| gi||gb|eau91632.1| gi||gb|abg79371.1| mannanase [armillariella tabescens] cel4a mannanase [agaricus bisporus] cel4b mannanase [agaricus bisporus] man5d [phanerochaete chrysosporium] hypothetical protein cc1g_09314 [... man5c [phanerochaete chrysosporium] (bits) 768 532 528 513 473 467 278 277 272 261 260 258 254 252 250e value 0.0 2e-149 3e-148 1e-143 2e-131 6e-130 6e-73 9e-73 4e-71 7e-68 2e-67 8e-67 7e-66 3e-65 2e-64gi||ref|xp_| endo-1,4-beta-mannosidase, p... gi||ref|xp_| endo-1,4-beta-mannosidase, p... gi||ref|xp_| gi||ref|xp_| gi||gb|abc59553.1| gi||dbj|bae66031.1| gi|558311|gb|aaa67426.1| endo-1,4-beta-mannosidase [asper... endo-1,4-beta-mannosidase [asper... beta-mannanase [aspergillus sulphureu unnamed protein product [aspergillus mannanasegi||ref|xp_| endo-1,4-beta-mannosidase [n... gi||ref|xp_| hypothetical protein ateg_08...……(以下省略) 由分析结果可知,dq286392 和其他物种的 -甘露聚糖酶相似性最 高,尤其是与 agaricus bisporus 物种的 cel4a 和 cel4b 的 -甘露 聚糖酶的相同性达到 64%和 63%,相似性均达到 76%。 以下是 dq286392 分别与 cel4a 和 cel4b 序列对比:gi|7208638|emb|cab76904.1| length=439 score = 532 bits (1371), expect = 2e-149 cel4a mannanase [agaricus bisporus]identities = 284/442 (64%), positives = 339/442 (76%), gaps = 7/442 (1%) frame = +2 query 23 sbjct 5 query 203 sbjct 65 query 383 sbjct 118 query 563 sbjct 178 query 743 sbjct 238 query 923 sbjct 298 laflslstflcsafaavpewgqcggigwtgqttcvsgtvcaalndyysqcvpgtatttaa 202 + f+ l+ + a a vp wgqcgg gwtg+t c sg+ c n++ysqc+pg+ t t irfiilaisislatadvpvwgqcggrgwtgetacasgsscvvqnewysqclpgsttptnp 64 pttatsttisstsrttatsttasapsstgfvttsgtefrlngakftifgansywvglmgy 382 p t t++ ++ t+ +t gfv sgt f lng k+t+ g nsywvgl g ppttttsqttappttshpvst-------gfvkasgtrftlngqkytvvggnsywvgltgl 117 sttdmnkafadiaatgatvvrtwgfnevtspngiyyqswsgstptintgstglqnfdavv 562 st+ mn+af+dia g t vrtwgfnevtspng yyqswsg+ ptintg++gl nfd v+ stsamnqafsdianaggttvrtwgfnevtspngnyyqswsgarptintgasgllnfdnvi 177 aaaaahglrlivaitnnwsdyggmdvyvnqivgsgsahdlfytdcevistymnyvktfvs 742 aaa a+g+rliva+tnnw+dyggmdvyvnq+vg+g hdlfyt+ + + +yv+tfvs aaakangirlivaltnnwadyggmdvyvnqmvgngqphdlfytntaikdafksyvrtfvs 237 ryvneptilgwelaneprckgstgttsgsctattitkwaaaisayiksidpnhlvgigde 922 ry nept++ welaneprckgstgttsg+ct tt+t wa +sa+ik+id nhlv igde ryaneptvmawelaneprckgstgttsgtcttttvtnwakemsafiktidsnhlvaigde 297 gfynepsaptypyqgsegidfdanlaissidfgtfhsypiswgqttdpqgwgtqwiadha 1102 gfyn+p aptypyqgseg+df+anlaiss+df tfhsyp wgq d + wgtqwi dha gfynqpgaptypyqgsegvdfeanlaissvdfatfhsypepwgqgadakawgtqwitdha 357query 1103 tsmtaagkpvileefgvttnqatvygawyqevvssgltgaliwqagsylssgatpddgya 1282 sm sbjct 358 kpvileefgvttnq y w+ ev ssgltg liwqags+ls+g t +dgya asmkrvnkpvileefgvttnqpdtyaewfnevessgltgdliwqagshlstgdthndgya 417 1348query 1283 iypddpvysletsyavtlkara +ypd pvy l s+a +k ra sbjct 418vypdgpvyplmkshasamknra439gi|1679597|emb|caa90423.1| length=439 score = 528 bits (1360),cel4b mannanase [agaricus bisporus]expect = 3e-148identities = 280/442 (63%), positives = 336/442 (76%), gaps = 7/442 (1%) frame = +2 query 23 sbjct 5 query 203 sbjct 65 query 383 sbjct 118 query 563 sbjct 178 query 743 sbjct 238 query 923 sbjct 298 laflslstflcsafaavpewgqcggigwtgqttcvsgtvcaalndyysqcvpgtatttaa 202 + f+ l+ + a a vp wgqcgg wtg+t c sg+ c n++ysqc+pg+ t t irfiilaisislatadvpvwgqcggrdwtgetacasgsscvvqnewysqclpgsttptnp 64 pttatsttisstsrttatsttasapsstgfvttsgtefrlngakftifgansywvglmgy 382 p t++ ++ t+ +t gfv sgt f lng k+t+ g nsywvgl g ppatttsqttappttshpvst-------gfvkasgtrftlngqkytvvggnsywvgltgl 117 sttdmnkafadiaatgatvvrtwgfnevtspngiyyqswsgstptintgstglqnfdavv 562 st+ mn+af+dia g t vrtwgfnevtspng yyqswsg+ ptintg++gl nfd v+ stsamnqafsdianaggttvrtwgfnevtspngnyyqswsgarptintgasgllnfdnvi 177 aaaaahglrlivaitnnwsdyggmdvyvnqivgsgsahdlfytdcevistymnyvktfvs 742 aaa a+g+rliva+tnnw+dyggmdvyvnq+vg+g hdlfyt+ + + +y + fvs aaakangirlivaltnnwadyggmdvyvnqmvgngqphdlfytntaikdafksygrafvs 237 ryvneptilgwelaneprckgstgttsgsctattitkwaaaisayiksidpnhlvgigde 922 ry nept++ welaneprckgstgttsg+ct tt+t wa +sa+ik+id nhlv igde ryaneptvmawelaneprckgstgttsgtcttttvtnwakemsafiktidsnhlvaigde 297 gfynepsaptypyqgsegidfdanlaissidfgtfhsypiswgqttdpqgwgtqwiadha 1102 gfyn+p aptypyqgseg+df+anlaiss+df tfhsyp wgq d + wgtqwi dha gfynqpgaptypyqgsegvdfeanlaissvdfatfhsypepwgqgadakawgtqwitdha 357query 1103 tsmtaagkpvileefgvttnqatvygawyqevvssgltgaliwqagsylssgatpddgya 1282 sm sbjct 358 kpvileefgvttnq y w+ e+ ssgltg liwqags+ls+g tp+dgya asmkrvnkpvileefgvttnqpdtyaewfneiessgltgdliwqagshlstgdtpndgya 417 query 1283 iypddpvysletsyavtlkara +ypd pvy l s+a sbjct 418 +k ra vypdgpvyplvkshasamknra 开放性阅读框(orf) 开放性阅读框(orf)分析 用 ncbi 的 orf finder 对 dq286392 序列作开放阅读框分析,结果如 图 2:序列 dq~1351 位存在一个长 1338bp 的开放阅读框,编码 为 445 个氨基酸,起始密码子为 atg,终止密码子为 tag,编码区两 侧为 13bp 的 5’非翻译区和 100bp 的 3’非翻译区(1~13bp,1352~ 1451bp),而且在 3’末端的 polya 尾上游 88bp 和 38bp 处各有一个 加尾信号,为 aataaa,进一步表明所获得片段包括全长的 mrna3’非 翻译区 。将该蛋白质序列命名为“man”。 序列“man”的开放阅读框及其编码的氨基酸序列如下: 14 atgcatctgctcgcttttctgtctctgagtacattcctgtgctct m h l l a f l s l s t f l c s 59 gcgttcgctgctgttcctgagtggggccaatgtggcggcattgga a f a a v p e w g q c g g i g 104 tggacaggacagaccacttgcgttagtggtacagtatgcgcagct w t g q t t c v s g t v c a a149 ctcaatgactattattctcaatgtgtgcctggaacggccacaaca l n d y y s q c v p g t a t t194 acggccgctcccacgactgctacatcaacaaccatttcttccact t a a p t t a t s t t i s s t239 tctcgcacaactgctacgtcgaccacagcttccgcaccatcttct s r t t a t s t t a s a p s s284 actggctttgtaactacctctggcacagagttccgcctcaacggt t g f v t t s g t e f r l n g329 gccaaatttactatcttcggcgccaactcatactgggtcgggttg a k f t i f g a n s y w v g l374 atgggctatagcactacagatatgaataaagccttcgcagacatc m g y s t t d m n k a f a d i419 gcggctacaggtgccaccgtcgtccgcacatggggcttcaatgag a a t g a t v v r t w g f n e464 gtaacgagtcctaacgggatttattaccagagttggtccggaagt v t s p n g i y y q s w s g s509 acaccaactatcaacacaggttctacgggtcttcaaaactttgat t p t i n t g s t gl q n f d554 gccgtcgtcgctgctgctgctgcacatggcttgaggcttattgtt a v v a a a a a h g l r l i v599 gccataacgaacaactggtccgactatggtggaatggatgtatac a i t n n w s d y g g m d v y644 gttaaccaaattgtcgggtctggctctgcgcacgatttattctat v n q i v g s g s a h d l f y689 accgactgtgaggttatatctacttacatgaactacgtcaagacc t d c e v i s t y m n y v k t734 ttcgtctcgcgctatgtgaacgaacctactattttaggttgggag f v s r y v n e p t i l g w e779 cttgcaaatgaacctagatgcaaggggagtaccgggacgacctct l a n e p r c k g s t g t t s824 ggatcatgcactgcaacgactatcacaaaatgggccgcggcaatt g s c t a t t i t k w a a a i869 tcagcgtacatcaagtcgatcgatcccaaccatcttgtcgggata s a y i k s i d p n h l v g i914 ggagatgaagggttctacaatgaacctagcgcaccaacatatcca g d e g f y n e p s a p t y p959 tatcaaggtagcgaaggtatcgattttgatgcaaatttggccatt y q g s e g i d f d a n l a i1004 agtagcattgatttcggtacattccattcctatcctatcagctgg s s i df g t f h s y p i s w1049 ggtcaaaccactgatcctcagggatggggtacgcaatggatcgct g q t t d p q g w g t q w i a1094 gatcatgcaacgtcaatgacagctgcgggaaagcccgtaatctta d h a t s m t a a g k p v i l1139 gaggagtttggagtcaccactaatcaagcaactgtttatggcgcc e e f g v t t n q a t v y g a1184 tggtatcaggaagttgtctcttcgggtcttactggtgctcttatt w y q e v v s s g l t g a l i1229 tggcaagctggttcttatttatcatccggagctactccggacgac w q a g s y l s s g a t p d d1274 ggatatgcaatttatcctgatgatcctgtatattccctggaaacc g y a i y p d d p v y s l e t1319 tcctatgcggttacattgaaagcgcgggcgtag 1351 s y a v t l k a r a *对蛋白质序列的结构功能域分析 结果如图 3 和图 4
图3用 smart 对 manorf 出的蛋白质序列结构功能域分析图4rpsblast 结果由分析结果可知, man 有 -甘露聚糖酶的结构域外, 还含有 cbd (纤 维素结合域)和 ghf5 的结合域。 同源物种分析 man 与 ghf5 的 -甘露聚糖酶序列比对:clustal multiple sequence alignment a.aculeatus a.bisporus t.reesei a.fumigatus a.sulphureus a.tabescens h.jecorina --------------------------------------------------------------------------------------mkpairfiilaisislatadvpvwgqcggrgwt -----------------------------------------------------------mpskkplsnstafslsknsqitfsvlgimhplpsvallsaigavaaqvgpwgqcggrsyt ---------------------------------------------------------------------------------------mhllaflslstflcsafaavpewgqcggigwt ------------------------------------------------------------a.aculeatus a.bisporus t.reesei a.fumigatus a.sulphureus a.tabescens h.jecorina-------------------------mklshmllslaslgva---------talrtpnhna getacasgsscvvqnewysqclpgsttptnpppttttsqttapp-----------ttshp -----------------------------------------------------------getscvsgwscvlfnewysqcqpatttstssvsataapsstssskesvpsattskkpvpt -------------------------mklssslltlaslalanlstalpkaspapstssss gqttcvsgtvcaalndyysqcvpgtatttaapttatsttisstsr----ttatsttasap ------------------------mmmlsksllsaataasalaavlqp----------vpa.aculeatus a.bisporus t.reesei a.fumigatus a.sulphureus a.tabescens h.jecorinaattafpstsglhftidgktgyfagtnsywigfltn-nddvdlvmsqlaasdlkilrvwgf vstgfvkasgtrftlngqkytvvggnsywvgltglstsamnqafsdianaggttvrtwgf -assfvtisgtqfnidgkvgyfagtncywcsfltn-hadvdstfshisssglkvvrvwgf gsssfvkadglkfnidgetkyfagtnaywlpfltn-dadvdsvmdnlqkaglkilrtwgf astsfastsglqftidgetgyfagtnsywigfltd-dsdvdlvmshlkssglkilrvwgf sstgfvttsgtefrlngakftifgansywvglmgysttdmnkafadiaatgatvvrtwgf rassfvtisgtqfnidgkvgyfagtncywcsfltn-hadvdstfshisssglkvvrvwgf .. * * * . * * *.** . . . .* *** ndvntkptdgtvwyqlha--ngtstintgadglqrldyvvtsaekygvkliinfvnewtd nevts---pngnyyqswsg--arptintgasgllnfdnviaaakangirlivaltnnwad ndvntqpspgqiwfqkls--atgstintgadglqtldyvvqsaeqhnlkliipfvnnwsd ndvnskpssgtvyfqlhdpstgtttintgadglqrldyvvsaaekrgiklliplvnnwdd ndvttqpssgtvwyqlhq--dgkstintgadglqrldyvvssaeqhgikliinfvnywtd nevts---pngiyyqswsg--stptintgstglqnfdavvaaaaahglrlivaitnnwsd ndvntqpspgqiwfqkls--atgstintgadglqtldyvvqsaeqhnlkliipfvnnwsd *.*.. . .* *****. ** * *. .* ...*.. * * * yggmqayvtaygaa--aqtdfytntaiqaayknyikavvsrysssaaifawelaneprcq yggmdvyvnqmvgngqphdlfytntaikdafksyvrtfvsryaneptvmawelaneprck ygginayvnafgg---nattwytntaaqtqyrkyvqavvsryanstaifawelgneprcn yggmnayvkaygg---sktewytnskiqsvyqayikavvsryrdspaimawelsnearcqa.aculeatus a.bisporus t.reesei a.fumigatus a.sulphureus a.tabescens h.jecorinaa.aculeatus a.bisporus t.reesei a.fumigatus a.sulphureus a.tabescens h.jecorinayggmsayvsayggs--detdfytsdtmqsayqtyiktvverysnssavfawelaneprcp yggmdvyvnqivgsgsahdlfytdcevistymnyvktfvsryvneptilgwelaneprck ygginayvnafgg---nattwytntaaqtqyrkyvqavvsryanstaifawelgneprcn ***. ** ** . *... * ** .. *** ** ** g--------cdtsvlynwisdtskyiksldskhlvtigdegfgldvdsdgsypytygegl gstgttsgtcttttvtnwakemsafiktidsnhlvaigdegfynqpg-aptypyqgsegv g--------cstdvivqwatsvsqyvksldsnhlvtlgdeglglstg-dgaypytygegt g--------cstdviynwtaktsayiksldpnhmvatgdegmgvtvdsdgsypystyegs s--------cdttvlydwiektskfikgldadhmvcigdegfglntdsdgsypyqfaegl gstgttsgsctattitkwaaaisayiksidpnhlvgigdegfyneps-aptypyqgsegi g--------cstdvivqwatsvsqyvksldsnhlvtlgdeglglstg-dgaypytygegt * . . * * ..* .* *.* **** .*** ** nftknlgistidfgtlhlypdswgts---ydwgngwitahaaackavgkpclleeygvts dfeanlaissvdfatfhsypepwgqgadakawgtqwitdhaasmkrvnkpvileefgvtt dfaknvqiksldfgtfhlypdswgtn---ytwgngwiqthaaaclaagkpcvfeeygaqq dfaknlaapdidfgvfhlytedwgikd--nswgngwvtshakvckaagkpclfeeyglkd nftmnlgidtidfatlhlypdswgts---ddwgngwisahgaackaagkpclleeygvts dfdanlaissidfgtfhsypiswgqttdpqgwgtqwiadhatsmtaagkpvileefgvtt dfaknvqiksldfgtfhlypdswgtn---ytwgngwiqthaaaclaagkpcvfeeygaqq * *. .** * * ** **. *. * .** . **.* nhcavespwqqtagnatgisgdlywqygttfswgqspn-dgntfyyntsdftclvtdhva nqpdtyaewfnevess-gltgdliwqagshlstgdthn-dgyavypdgpvyp-lmkshas npctneapwqttslttrgmggdmfwqwgdtfangaqsnsdpytvwynssnwqclvknhvd dhcsasltwqktsvss-gmaadlfwqygqtlstgpspn-dhftiyygtsdwqcgvadhls nhcsvespwqqtalnttgvsadlfwqygddlstgespd-dgntiyygtsdyeclvtdhva nqatvygawyqevvss-gltgaliwqagsylssgatpd-dgyaiypddpvys-letsyav npctneapwqttslttrgmggdmfwqwgdtfangaqsnsdpytvwynssnwqclvknhvd * . *. . ** * . * * . ainaqsk----------------------------------------------------amknra-----------------------------------------------------ain--------------------------------------------------------tl---------------------------------------------------------aidsa------------------------------------------------------tlkara-----------------------------------------------------ainggtttpppvssttttssrtsstppppggscsplygqcggsgytgptccaqgtciysn .. -------------------------a.aculeatus a.bisporus t.reesei a.fumigatus a.sulphureus a.tabescens h.jecorinaa.aculeatus a.bisporus t.reesei a.fumigatus a.sulphureus a.tabescens h.jecorinaa.aculeatus a.bisporus t.reesei a.fumigatus a.sulphureus a.tabescens h.jecorinaa.aculeatus a.bisporus t.reesei a.fumigatus a.sulphureus a.tabescens h.jecorinaa.aculeatus a.bisporus t.reesei a.fumigatus a.sulphureus a.tabescens h.jecorina------------------------ywysqclnt图5 7种真菌-甘露聚糖酶的氨基酸序列比对 通过man man与其他6种真菌ghf5的-甘露聚糖酶的氨基酸序列比对。可 man a.tabescens ejly2098的-甘露聚糖酶序列和ghf5的-甘露聚糖酶 的氨基酸序列保守性较强。 man与ghf6序列比对 manclustal multiple sequence alignmentorpinomyces piromyces a.tabescens-----------------------------------------------------------mkslnviltllsliisvlskkvyyeaedgklngitvfkelsgfsgkgyvgrfenpg--------------------mhllaflslstflcsafaavpewgqcggigwtgqttcvsgtvcorpinomyces piromyces a.tabescens-----------------------mhfnkvsallltlatsvag--qfregfvqtdgtnfvv -----------------------------nsvtvtvdapatgmydlsiiycanmgqkins aalndyysqcvpgtatttaapttatsttisstsrttatsttasapsstgfvttsgtefrl . * . . . . * dgckryfsgsntyylmvsnhervdl--aletyarhnlnvvrawafcdec----------ltvndqsvg-ditftentkfetkdvgavylnkgkntiglvsswgwmwvdafvindapnaa ngakftifgansywvglmgysttdmnkafadiaatgatvvrtwgfnevts---------* *. .* .* --------------------------------------------------edatrlvdfs kdvssklnptlvnpkaipaakklydflktnygkrilsgqvgaagqagdegqeiqriqkat --------------------------------------------------pngiyyqsws . g--------pevtlngenmekvdyylaaa----aqrnirvvltltnnwtdygg----mdv gklpavwn-------------mdfifesndctwrpqnpditemainwwkkyegkgimaaq gs------tptintgstglqnfdavvaaa----aahglrlivaitnnwsdygg----mdv * * . .. . * * * * wvkqfgg--------kyhdefytnkdiikg---ykqyikaminrvntytgqlykddptif whwniagktgdfafyskdttfnlenavtegtweyekiikdidrvsghikklqavnmpliworpinomyces piromyces a.tabescensorpinomyces piromyces a.tabescensorpinomyces piromyces a.tabescensorpinomyces piromyces a.tabescensyvnqivgsg------sahdlfytdcevist---ymnyvktfvsr--------yvneptil . * * . * .* * * s----------wqlanearcnngphglpvkncntdtitkwmdeiatfihqedpnhlvssg rplhenngdwfwwgnnpkaca----------------klwkilyermvnyhglnnli--g----------welaneprck-gstgttsgsctattitkwaaaisayiksidpnhlvgig * * * * . *.*. iegigtppagvdkntyvytytegtdyeaisaldsidyntvhmyp------------------------------wlwngnn----dantpvdyidiigvdiyandhgpqttaynthfdf degfyneps---aptypyqgsegidfdanlaissidfgtfhsyp---------------.* . ** * -------------------------vgwg-lkdyakdgvtwikahadvdkkfnkptvvee yggkkmvvlsengripdiqqcvdqdvwwg-------------------------------------------------------iswgqttdpqgwgtqwiadhatsmtaagkpvilee . ** wglstsadnvpieqrdpiytqwmnevlandnigmnmfwyvcgedyygt-----dgylle-----------------yfqtwnsefilqd-------------syhtdaqlk-------fgvtt--------nqatvygawyqevvssg-ltgaliwqag--sylssgatpddgyaiyp . * * . * edeitavidpftkklyanqtcenldtisivhtdlvdvyyevegcqpkygtctggkccahg -------------eyfnhktvmnmdelpsfn---------vdsyngdsgsshng-----ddpvysletsyavtlkara-----------------------------------------orpinomyces piromyces a.tabescensorpinomyces piromyces a.tabescensorpinomyces piromyces a.tabescensorpinomyces piromyces a.tabescensorpinomyces piromyces a.tabescensorpinomyces piromyces a.tabescenstrcegseyygqcrpiteppyrgatspvegyvlpgakstskknnttkktttktttsaksep ------------------------------------------------------nsesns ------------------------------------------------------------orpinomyces piromyces a.tabescenstssssdecfsialgfpccsdntvvysdndgdwgvengewcgiggtivdndscfakslgys ntgnsdecwsinlgypccigdyvvttdengdwgvennewcg-----ivhkscwseplgyp ------------------------------------------------------------orpinomyces piromyces a.tabescensccsscdvvytdndgnwgvengewcgikdsc-----------------------------ccvgntvisadesgdwgvennewcgivhkscwaeflgypccvgntvistdefgdwgvend ------------------------------------------------------------orpinomyces------- piromyces a.tabescensdwcgiln -------图63种真菌-甘露聚糖酶的氨基酸序列比对通过man man与其他2种真菌ghf6的-甘露聚糖酶的氨基酸序列比对。可知, man a.tabescens ejly2098的-甘露聚糖酶序列和ghf6的-甘露聚糖酶氨基酸序 列差异较大。 系统进化树分析图79种真菌-甘露聚糖酶的氨基酸序列比对生成的系统进化树由-甘露聚糖酶进化树,可知,a.tabescens和a.bisporus最为相似,可归为一类。此外,a.tabescens和a.bisporus与其他ghf5的-甘露聚糖酶的氨基酸序列的5种真菌可聚为一大类。 a.bisporus :agaricus bisporus(cab76904) a.fumigatus :aspergillus fumigatus af293(eal85463) a.sulphureus :aspergillus sulphureus (abc59553) a.aculeatus :aspergillus aculeatus (aaa67426) h.jecorina :hypocrea jecorina (aaa34208) a.tabescens :armillariella tabescens t.reesei:trichoderma reesei (1qns_a) orpinomyces : orpinomyces sp. pc-2 (aal01213) piromyces : piromyces sp. (caa62968) (dq286392)蛋白质一级序列的基本分析 结果如下protein: ~out length = 445 amino acids molecular weight = 46959.25 daltonsamino acid number ala cys asp glu phe gly his ile lys leu met asn pro gln arg ser thr val a c d e f g h i k l m n p q r s t v 50 8 19 14 17 45 6 24 8 22 6 18 18 13 7 45 61 27mol% 11.24 1.80 4.27 3.15 3.82 10.11 1.35 5.39 1.80 4.94 1.35 4.04 4.04 2.92 1.57 10.11 13.71 6.07 trp tyrw y13 242.92 5.39图8氨基酸组成分析结果,蛋白质分子质量为molecular weight = 46959.25 daltons man 的 445 个氨基酸中强碱性氨基酸(k,r)有 15 个,强酸性氨 基酸(d,e)有 33 个,疏水氨基酸(a,i,l,f,w,v)有 153 个,不带电荷的极性氨基酸有(n,c,q,s,t,y)个。 附[16]:一、组成蛋白质的 20 种氨基酸的分类 1、非极性氨基酸 包括:甘氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、苯丙氨酸、 脯氨酸 2、极性氨基酸 极性中性氨基酸:色氨酸、酪氨酸、丝氨酸、半胱氨酸、蛋氨酸、 天冬酰胺、谷氨酰胺、苏氨酸 酸性氨基酸:天冬氨酸、谷氨酸 碱性氨基酸:赖氨酸、精氨酸、组氨酸 其中:属于芳香族氨基酸的是:色氨酸、酪氨酸、苯丙氨酸 属于亚氨基酸的是:脯氨酸 含硫氨基酸包括:半胱氨酸、蛋氨酸二级结构和功能分析 信号肽预测 结果如图 9图 9 信号肽分析 由图 9 分析,可知信号肽序列为:mhllaflslstflcsafa 在生物体内, 蛋白质的合成场所与功能场所常常被一层或多层细胞膜 所隔开,这样就产生了蛋白质转运的问题。核糖体是真核生物细胞内 合成蛋白质的场所,几乎在任何时候,都有数以百计或千计的蛋白质 离开核糖体并被输送到细胞各个部分, 以补充细胞的物质成分和更新 细胞功能。由于细胞各部分都有特定的蛋白质组分,因此,合成的蛋 白质必须准确无误地定向运送才能保证生命活动的进行。一般认为, 蛋白质定位的信息存在于该蛋白质自身结构中, 并且通过与膜上特殊 受体的互相作用得以表达。在起始密码子后,有一段编码疏水性氨基 酸序列 rna 片段,这个氨基酸序列就称为信号序列。含有信号肽的 蛋白质一般能够被分泌到细胞外,可能作为重要的细胞因子起作用, man 的第 18~19 位之间有信号肽的剪 从而具有潜在的应用价值[12]。 切位点。 疏水性分析 结果如图 10: 图 10疏水性分析using the scale hphob. / kyte & doolittle, the individual values for the 20 amino acids are: ala: 1.800 arg: -4.500 asn: -3.500 asp: -3.500 cys: 2.500 gln: -3.500 glu: -3.500 gly: -0.400 his: -3.200 ile: 4.500 leu: 3.800 lys: -3.900 met: 1.900 phe: 2.800 pro: -1.600 ser: -0.800 thr: -0.700 trp: -0.900 tyr: -1.300 val: 4.200 asx: -3.500 glx: -3.500 xaa: -0.490 weights for window positions 1,..,9, using linear weight variation model: 1 2 3 4 5 6 7 8 91.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 edge center edge由图中得知,man 的疏水性较强,最大值达到 2.300,且位于 n 端 的信号肽剪切处,最小值为-1.822。 蛋白质溶解能力和 prosite motif search 的分析 结果如下:蛋白质溶解能力分析结果,可知:man 有 45.7%的残基暴露于蛋白 质表面, 54.83%的残基位于蛋白质内部, 说明其亲水性比疏水性较弱。 prosite motif searchtop - bottom - prosite ------------------------------------------------------------pattern-id: asn_glycosylation ps00001 pdoc00001 pattern-de: n-glycosylation site pattern: n[^p][st][^p] 200 nwsd pattern-id: pattern-de: pattern: 75 440 pattern-id: pattern-de: pattern: 97 124 219 226 331 417 pattern-id: pattern-de: pattern: 24 pkc_phospho_site ps00005 pdoc00005 protein kinase c phosphorylation site [st].[rk] tsr tlk ck2_phospho_site ps00006 pdoc00006 casein kinase ii phosphorylation site [st].{2}[de] sgte sttd sahd tdce ssid tpdd myristyl ps00008 pdoc00008 n-myristoylation site g[^edrkhpfyw].{2}[stagcn][^p] gqcggi 33 40 56 105 164 216 264 271 336 379 399 409 pattern-id: pattern-de: pattern: 443 pattern-id: pattern-de: pattern: 26 pattern-id: pattern-de: pattern: 252gqttcv gtvcaa gtattt gakfti gstpti gsgsah gstgtt gsctat gtfhsy gvttnq gltgal gsylss microbodies_cter ps00342 pdoc00299 microbodies c-terminal targeting signal [stagcn][rkh][livmafy]$ ara cbd_fungal ps00562 pdoc00486 cellulose-binding domain, fungal type cgg.{4,7}g.{3}c.{5}c.{3,5}[nhg].[fywm].{2}qc cggigwtgqttcvsgtvcaalndyysqc glycosyl_hydrol_f5 ps00659 pdoc00565 glycosyl hydrolases family 5 signature [liv][livmfywga]{2}[dneqg][livmgst].ne[pv][rhdnstlivfy] lgwelanepr由分析结果得知,man 含有 1 个 n 型糖基化位点,含有 2 个蛋白激 酶 c 磷酸化位点,6 个酪蛋白激酶ⅱ磷酸化位点,13 个肉豆蔻酰基 化位点,1 个 c—末端锚定微体信号,1 个真菌纤维素结合结构域,1 个 ghf5 的结合域。 蛋白质的糖基化, 酰基化和磷酸化都是化学修饰, 具有重要的生物学意义,提供蛋白质功能信息。磷酸化位点分析 由以上的 prosite motif search 可知 man 含有磷酸化位点, 磷酸化位点分析结果如图 11:图 11 磷酸化位点分析445 sequence mhllaflslstflcsafaavpewgqcggigwtgqttcvsgtvcaalndyysqcvpgtatttaapttatsttisstsrtta tsttasapsstgfvttsgtefrlngakftifgansywvglmgysttdmnkafadiaatgatvvrtwgfnevtspngiyyq swsgstptintgstglqnfdavvaaaaahglrlivaitnnwsdyggmdvyvnqivgsgsahdlfytdcevistymnyvkt fvsryvneptilgwelaneprckgstgttsgsctattitkwaaaisayiksidpnhlvgigdegfynepsaptypyqgse gidfdanlaissidfgtfhsypiswgqttdpqgwgtqwiadhatsmtaagkpvileefgvttnqatvygawyqevvssgl tgaliwqagsylssgatpddgyaiypddpvysletsyavtlkara ..................................t.........................t.......s....s.s..t. .s...s..s......ts.......................................................s....... ...........................................y.....y......s.s......t.............. ....y........................s...................................y.......y...... ..........s................t................s................................... ..........y.s...t....y........ys..t.y..t..... phosphorylation sites predicted: ser: 15 thr: 9 tyr: 9 80 160 240 320 400 480 80 160 240 320 400 480由磷酸化位点分析,有 15 个 ser,9 个 thr,9 个 tyr 可能成为蛋白 激酶磷酸化位点。跨膜区分析 分析结果如下:# sequence length: 445 # sequence number of predicted tmhs: 0 # sequence exp number of aas in tmhs: 0.0000001 # sequence exp number, first 60 aas: 0.53369 # sequence total prob of n-in: 0.02631 sequence tmhmm2.0 outside 1 445图 12 跨膜区分析 man 无明显跨膜区,不可能是膜上的受体或定位于膜上。亚细胞定位final results:extracellular, 48.0 %: extracellular, including cell wall 16.0 %: nuclear 12.0 %: cytoplasmic 12.0 %: endoplasmic reticulum 8.0 %: vesicles of secretory system 4.0 %: mitochondrial prediction for queryprotein is exc 亚细胞定位分析可知 man 有 48%的可能性分泌到细胞外,16%的可能 性存在于细胞核内,有 12%的可能性存在于细胞质中,有 12%的可能 性存在于分泌泡中,4%的可能性存在于线粒体中。二硫键分析 结果如下:total number of cysteines: 8 predicted number of bonds: 3 cysteines at the following positions are predicted to form the disulfide bond: 26,37,43,53,262,273 predicted disulfide bonds(cysteine pairs) ordered by probability in descending order: bond_index cys1_position cys2_position 1 262 273 2 26 43 3 37 53由分析可知,man 含有 8 个 cys,共形成 3 个二硫键,分别连接着第 262 位和第 273 位,第 26 位和第 43 位,第 37 位和第 53 位的 cys。 绝大多数情况下二硫键是在多肽链的 β-转角附近形成的。二硫键的 形成并不规定多肽链的折叠, 然而一旦蛋白质采取了它的三维结构则 二硫键的形成将对此构象起稳定作用。 假如蛋白质中所有的二硫键相 继被还原将引起蛋白质的天然构象改变和生物活性丢失。 在许多情况 下二硫键可选择性的被还原。同时,该蛋白含有二硫键也使得该蛋白 对热、对蛋白酶降解较为稳定。二级结构预测 结果如下:hierarchical neural network result for : unk_317230 abstract guermeur, y. phd thesis view hnn in: [mpsa (mac, unix) , about...] [antheprot (pc) , download...] [help] 10 20 30 40 50 60 70 | | | | | | | mhllaflslstflcsafaavpewgqcggigwtgqttcvsgtvcaalndyysqcvpgtatttaapttatst ceeeehhhhhhhhhhhhhhcccccccccccccccceeecccehehhhhhcccccccccccccccccccce tisstsrttatsttasapsstgfvttsgtefrlngakftifgansywvglmgysttdmnkafadiaatga eeecccccccccccccccccceeeecccceeeeccceeeeecccceeeeeccccchhhhhhhhhhhhccc tvvrtwgfnevtspngiyyqswsgstptintgstglqnfdavvaaaaahglrlivaitnnwsdyggmdvy eeeeeeeccccccccceeeeeccccccccccccchhhhhhhhhhhhhhccceeeeeecccccccccceee vnqivgsgsahdlfytdcevistymnyvktfvsryvneptilgwelaneprckgstgttsgsctattitk eeeeeccccccceeecchhhhhhhhhhhhhheeeeccccceeeeeccccccccccccccccccchhhhhh waaaisayiksidpnhlvgigdegfynepsaptypyqgsegidfdanlaissidfgtfhsypiswgqttd hhhhhhhhhhhccccceeecccccccccccccccccccccccccccceeeeeeccccccccccccccccc pqgwgtqwiadhatsmtaagkpvileefgvttnqatvygawyqevvssgltgaliwqagsylssgatpdd cccccchhhhchccchcccccceeeeeececccceeeeehhhhhhhhccccceeeeeccccccccccccc gyaiypddpvysletsyavtlkara ccceccccccchhhhhhhhhhhccc sequence length : 445 hnn : 102 is 22.92% alpha helix (hh) : 310 helix (gg) : 0 is 0.00% pi helix (ii) : 0 is 0.00% beta bridge (bb) : 0 is 0.00% extended strand (ee) : 96 is 21.57% beta turn (tt) : 0 is 0.00% bend region (ss) : 0 is 0.00% random coil (cc) : 247 is 55.51% ambigous states () : 0 is 0.00% other states : 0 is 0.00% 图 13二级结构预测man 的二级结构,主要以 α–螺旋,不规则盘绕和延伸链为蛋白最大 量的结构元件,–折叠散布于整个蛋白质中。总结与展望本章通过对对从一株产 -甘露聚糖酶的新菌种 a.tabescens ejly2098 获得的新基因序列( 命名为 man)及进行生物信息学的分 析,总结结果如下: man 于 14~1351 位存在一个长 1338bp 的开放阅读框,编码为 445 个 氨基酸,起始密码子为 atg,终止密码子为 tag。将其 orf 出的氨 基酸序列(命名为 man,已登录 genbank 号:dq286392)继续进行 生物信息学的分析,dq286392 与目前数据库中存有的数据中具有明 显的同源性, 尤其与 ghf5 的 -甘露聚糖酶的氨基酸序列保守性较强。 对其进行的一级结构分析和二级结构分析中,表明了 man 是一个酸 性蛋白,亲水性较弱,疏水性较强,信号肽序列为第 1 位~ 第 18 位, 亚细胞定位最大可能性为定位于细胞外。含有 n 型糖基化位点,蛋 白激酶 c 磷酸化位点,酪蛋白激酶ⅱ磷酸化位点,肉豆蔻酰基化位 点, c—末端锚定微体信号,真菌纤维素结合结构域, ghf5 的结 合域。主要以 α–螺旋,不规则盘绕和延伸链为新蛋白最大量的结构 元件,–折叠散布于整个蛋白质中。 通过这些分析数据,可以从功能、结构上获得有价值的信息,为下一 步的研究及开发利用做出探索、提出可参考的研究方案。 在人类基因组计划的推动下, 以生物信息的采集、 处理、 存储、 传布、 分析和解释等多个方面为研究内容的生物信息学得到了很好的发展。 本章通过运用生物信息学研究内容的一部分对一个未知基因序列的 结构和功能进行了预测,为下一步研究方案的制定提供了依据,以期 研究的顺利进行。现生物信息学技术贯穿了生物学,信息学和数学等 多门学科,不仅为科学的研究起到了重大作用,而且能为高新技术产 品的开发带来巨大的经济效益和发展潜力。附录 1:ioedit version 7.0.5.3 (10/28/05) restriction mapping utility (c)1998, tom hall~out restriction map
13:09:59 1483 base pairs translations: nonerestriction enzyme map:1 1acgcgggggaaagatgcatctgctcgcttttctgtctctgagtacattcctgtgctctgcgttcgctgctgttcctgagt tgcgccccctttctacgtagacgagcgaaaagacagagactcatgtaaggacacgagacgcaagcgacgacaaggactca80 80 sfanibfrbi nsiicac8i sfani bsemii bspcnibsmai tatimsli bbvibsihkaimwoi hpyf10vihpy188iiibsp1286ibsemii bspcni81 160 81 160ggggccaatgtggcggcattggatggacaggacagaccacttgcgttagtggtacagtatgcgcagctctcaatgactatccccggttacaccgccgtaacctacctgtcctgtctggtgaacgcaatcaccatgtcatacgcgtcgagagttactgatabsli nlaivbgli mwoi hpyf10vibstf5i fokifspibbvi161 240 161 240tattctcaatgtgtgcctggaacggccacaacaacggccgctcccacgactgctacatcaacaaccatttcttccacttcataagagttacacacggaccttgccggtgttgttgccggcgagggtgctgacgatgtagttgttggtaaagaaggtgaageaei bsaxieaei eagi bceai bsiei bsrbibceai bsaximboii241 320 241 320tcgcacaactgctacgtcgaccacagcttccgcaccatcttctactggctttgtaactacctctggcacagagttccgccagcgtgttgacgatgcagctggtgtcgaaggcgtggtagaagatgaccgaaacattgatggagaccgtgtctcaaggcggsali acci hincii hpy8imboiibsriecii mnli321 400 321 400tcaacggtgccaaatttactatcttcggcgccaactcatactgggtcgggttgatgggctatagcactacagatatgaatagttgccacggtttaaatgatagaagccgcggttgagtatgacccagcccaactacccgatatcgtgatgtctatactta baniapoibani kasi bsahibsri bmrisfcisfcinlaiv mnli mboiinari nlaiv sfoi bbei haeii401 480 401 480aaagccttcgcagacatcgcggctacaggtgccaccgtcgtccgcacatggggcttcaatgaggtaacgagtcctaacggtttcggaagcgtctgtagcgccgatgtccacggtggcagcaggcgtgtaccccgaagttactccattgctcaggattgcctspdti mwoisfcihpyf10vi mwoi bani nlaivbsli mwoimnliplei mlyihpyf10vihpyf10vi481 560 481 560gatttattaccagagttggtccggaagtacaccaactatcaacacaggttctacgggtcttcaaaactttgatgccgtcgctaaataatggtctcaaccaggccttcatgtggttgatagttgtgtccaagatgcccagaagttttgaaactacggcagcbsawi bspeihpy8imboii bbsibceai sfanibbvi bbvibbvi bbvihpy188iii tatibsgi561 640 561 640tcgctgctgctgctgcacatggcttgaggcttattgttgccataacgaacaactggtccgactatggtggaatggatgtaagcgacgacgacgacgtgtaccgaactccgaataacaacggtattgcttgttgaccaggctgataccaccttacctacatmwoimwoi mwoimnli smlialoi bpueibsrialoiaccihpyf10vihpyf10vi hpyf10vi 641 720 641 720tacgttaaccaaattgtcgggtctggctctgcgcacgatttattctataccgactgtgaggttatatctacttacatgaaatgcaattggtttaacagcccagaccgagacgcgtgctaaataagatatggctgacactccaatatagatgaatgtacttbstf5i bstz17i hpy8i mmei hincii hpai hpy8i fokifspihin4i mnli721 800 721 800ctacgtcaagaccttcgtctcgcgctatgtgaacgaacctactattttaggttgggagcttgcaaatgaacctagatgcagatgcagttctggaagcagagcgcgatacacttgcttggatgataaaatccaaccctcgaacgtttacttggatctacgthin4itspdti hpy188iii pshaibsmbi bsmaihpy8icac8i sfani801 880 801 880aggggagtaccgggacgacctctggatcatgcactgcaacgactatcacaaaatgggccgcggcaatttcagcgtacatctcccctcatggccctgctggagacctagtacgtgacgttgctgatagtgttttacccggcgccgttaaagtcgcatgtagtspdtihpy188iii bsmfi mnli btsi alwitspribsaji btgi mspa1i saciimwoi hpyf10vi881 960 881 960aagtcgatcgatcccaaccatcttgtcgggataggagatgaagggttctacaatgaacctagcgcaccaacatatccatattcagctagctagggttggtagaacagccctatcctctacttcccaagatgttacttggatcgcgtggttgtataggtatalwi bsiei pvui claihpy188iiitspdtitspdti 961 0tcaaggtagcgaaggtatcgattttgatgcaaatttggccattagtagcattgatttcggtacattccattcctatcctaagttccatcgcttccatagctaaaactacgtttaaaccggtaatcatcgtaactaaagccatgtaaggtaaggataggatbslibcgisfani claiapoi mwoibcgi bcgibcgihpyf10vi eaei msci41 1120tcagctggggtcaaaccactgatcctcagggatggggtacgcaatggatcgctgatcatgcaacgtcaatgacagctgcgagtcgaccccagtttggtgactaggagtccctaccccatgcgttacctagcgactagtacgttgcagttactgtcgacgcmspa1i pvuii bseyialwitspri bsu36imnli bstf5i bspcni hin4i hin4i bsemiifoki bsrdibcli mwoibbvihin4i hin4ialwi hpyf10vifaui mspa1i pvuii21 1200ggaaagcccgtaatcttagaggagtttggagtcaccactaatcaagcaactgtttatggcgcctggtatcaggaagttgtcctttcgggcattagaatctcctcaaacctcagtggtgattagttcgttgacaaataccgcggaccatagtccttcaacamnlihphibseri plei mlyibani kasi bsahi nari nlaiv sfoi bbei haeiihpy188iii mboii1201ctcttcgggtcttactggtgctcttatttggcaagctggttcttatttatcatccggagctactccggacgacggatatg 80 bsmai eari bsri bsihkai bsp1286i cac8i foki bstf5i bsawi bspei hpy188iii bcgi hpy188iii bsawi bspei bsli gagaagcccagaatgaccacgagaataaaccgttcgaccaagaataaatagtaggcctcgatgaggcctgctgcctatac81 1360caatttatcctgatgatcctgtatattccctggaaacctcctatgcggttacattgaaagcgcgggcgtaggatagggtagttaaataggactactaggacatataagggacctttggaggatacgccaatgtaactttcgcgcccgcatcctatcccattspgwi hpy188iii alwi bcgibsajimnlifauicac8i61 1440cagaataaattttgctccgatgtggtactgtagccgagcggcttgactatgtgaataaaaatagcactgttgtcacgatcgtcttatttaaaacgaggctacaccatgacatcggctcgccgaactgatacacttatttttatcgtgacaacagtgctagapoisfcibsrbitspri hpy188iii pvui claibsieigatcaacacctaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa ctagttgtggatttttttttttttttttttttttttttttttt 参考文献 [1] 李伟,茅矛.生物信息学新进展——第六届国际生物信息学和基 因组研究年会综述.国外医学遗传学分册,):104-107 [2] 郭志云, 张怀渝, 梁龙. 生物信息学技术进展. 生物技术通讯 )313-317 [3] 丁达夫,梁卫平,陈洁.生物信息学.(3):20 [4] 欧阳曙光,贺福初.生物信息学:生物实验数据和计算技术结合的 新领域.科学通报,) [5] 文建平,李雄彪.数字透出的信息——生命科学正在蓬勃发展.中 国生物工程杂志,) [6] 王 斌 会 . 生 命 科 学 中 的 信 息 学 — — 生 物 信 息 学 . 医 学 信 息,)519-520 [7] 陈铭.后基因组时代的生物信息学.生物信息学,)29-34 [8] 郑珩, 王非. 药物生物信息学. 北京:化学工业出版社:现代生 物技术与医药科技出版中心,2004 [9] t.k.attwood, d.j.pasrry-smith 著,罗静初等译.生物信息学 概论.北京:北京大学出版社,2002 [10] 郝柏林,张淑誉编著.生物信息学手册.上海:上海科学技术出 版社,2000 [11] andreas d.baxevanis. the molecular biology database collection: 2002 update. nucleic acids research,2002, 30(1) :1-12 [12]张成岗,贺福初编著。 生物信息学方法与实践。 科学出版社, 2002 [13] kyte j. jensen, m.skovgaard, and s.brunak. prediction of novel archaeal enzymes from sequence-derived features. protein science, 4-2898 [14] hofmann k.,bucher p.,falquet l.,bairoch a. the prosite database, its status in 1999.nucleic acids res,-219 [15] blom,n.,gammeltoft,s.,and structurebased prediction sites. brunak,s.sequenceof eukaryotic of andprotein molecularphosphorylationjournalbiology,): [16]王镜岩编著, 〈 〈生物化学〉 〉 (第三版) 北京大学出版社 124~127
15:24:30 14:34:43 14:35:40 19:52:38 10:18:01 23:06:40 16:46:44 16:34:47 16:34:47 16:17:32}

我要回帖

更多关于 如何查找cdna序列 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信