请教,David或KEGG 如何对一组基因组学与应用生物学做pathway分析

KEGG的独创使用经验分享(转) - 生物信息 - 生物秀
标题: KEGG的独创使用经验分享(转)
摘要: [KEGG的独创使用经验分享(转)]
KEGG,Kyoto encyclopedia of Genes and Genomes ,不多说。
KEGG的数据
KEGG中的pathway是根据相关知识手绘的,这里的手绘的意思可能是指人工以特定的语言格式来确定通路各组件的联系;基因组信息主要是从NCBI等数据库中得到的,除了有完整的基因序列外,还有没完成的草图;另外 KEGG中有一个“专有名词”KO(KEGG Orthology),它是蛋白质(酶)的一…… [关键词:基因 物种 序列 基因芯片 化合物 缩写 酵母]……
KEGG,Kyoto encyclopedia of Genes and Genomes ,不多说。
KEGG的数据
KEGG中的pathway是根据相关知识手绘的,这里的手绘的意思可能是指人工以特定的语言格式来确定通路各组件的联系;基因组信息主要是从NCBI等数据库中得到的,除了有完整的基因序列外,还有没完成的草图;另外 KEGG中有一个“专有名词”KO(KEGG Orthology),它是蛋白质(酶)的一个分类体系,序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上KO(或K)标签。下面就首先来讲一下KEGG orthology。
任找一个代谢通路图,在上方有pathway meue | payhway entry | Show(Hide) description | 这3个选项,点击pathway entry, 出现了一个页面,这个随时被连接出来的页面相信大家一定再熟悉不过了。在这个页面中的pathway map项中点击按钮状的链接Ortholog table 。就进入了Ortholog table如下的页面:
在这个表中,行与物种对应,3个字母都是相应物中的英文单词缩写,比如has表示Homo sapiens,mcc表示Macaca mulatta;列就表示相应的Ortholog分类,比如K00844就表示体内的己糖激酶hexokinase 这一类序列和功能相似的蛋白质类(酶类)。如上图has后有,3099这3个条目,它表示在人类细胞中中存在3中不同的己糖激酶,它们分别由以上这3组数字代表的基因所编码,这3组数字应该是这3个基因的登录号。空白则表示在该物种中不存在这种酶。
点击K00844则这一KO分类信息及成员列表都可显示出来;点击has则链接到物种(人类)基因组去了;点击P,则显示相应的代谢通路。下面我们点击3101,如下:
如上图,就是我们常见的一个页面,3101是KEGG中的基因ID(登录号), H.sapiens表示物种,然后是基因的名称,表达的酶,属于哪个KO分类以及参与哪些代谢途径;下面还有结构、序列信息等等。
所以从Ortholog table中可以很容易地知道一张代谢通路上有哪些KO分类(酶类),并且这些酶类的成员在各物种中分配存在的情况以及特定的名称。
怎么看KEGG中代谢通路图
比如以上这个图,方框一般就是酶,方框里面的5.4.2.2不是IP 而是EC编号;小圆圈代表代谢物,你把鼠标放上去,(别放我这上面,放KEGG中去)会出现C00668的东西,C代表compound,00668是这种化合物在KEGG中的编号,一般在KEGG中数据条目都是这样的,前面一个标志,后面一个五位数编号;大的圆方块,就表示是另一个代谢图了,所以就不展开了。
但是:为什么这个图上有的小框框是绿色呢?(这是绿色吧?我蓝绿不分的,下同)
因为这是一张特定物种(S. cere. 酿酒酵母)的代谢图,蓝色的框框表示专属于这个物种。在KEGG中有两种代谢图,一种是参考代谢通路图reference pathway,是根据已有的知识绘制的概括的、详尽的具有一般参考意义的代谢图,这种图上就不会有绿色的小框,而都是无色的,所有的框都可以点击查看更详细的信息;另一种就是像上面这样的属于特定物种的代谢图species-specific pathway,会用绿色来标出这个物种特有的基因或酶,只有这些绿色的框点击以后才会给出更详细的信息。这两种图很好区分,reference pathway 在KEGG中的名字是以map 开头的,比如map00010,就是糖酵解途径的参考图,而特定物种的代谢通路图开头三个字符不是map而是种属英文单词的缩写(应该就是一个属的首字母+2个种的首字母)比如酵母的糖酵解通路图,就是sce00010,大肠杆菌(Escherichia coli)的糖酵解通路图就应该是eco00010吧。
那么:怎么找这两种图呢?
(1)有下拉列表的时候,在列表选择reference 或者是特定物种即可。
(2)在pathway检索的页面http://www.genome.jp/kegg/pathway.html ,如下图:
默认的就是map,参考图,你想要什么物中的代谢图写上它的名称就好了(种属缩写),如果不知道是哪3个字母,点击organism 选择即可。(不过你点进去也是一片空白,你要提示两个字母才会给出下拉条目)
顺便问一下:怎么找基因呢?
还是上面这张图,看到了吗,除了PATHWAY之外是不是还有 BRITE、DISEASE..以及GENES等等,点击基因GENES,就可以查找基因了,如下图:
不过这里要按一定的格式(org:gene)输入要查找的目的基因,比如它给出的示例:syn表示物中,ssr3451表示基因ID,查找出来的基因名称是psbE。其实我试了一下,若直接检索基因名称(而不是KEGG中的基因ID)syn:psbE 也是一样的。因为我不知道KEGG中基因ID如何编制的,但是,我同时也不知道基因的名称是如何定义的。比如果糖1,6-二磷酸酶Fructose 1,6-biphosphatase 的基因就叫fbp,我放进去能检索,但是我把有名的gal填上去就不能检索,当然这可能与基因后面的乱七八糟的序号后缀有关,比如填上gal1就能检索了,所以我真不知道基因到底怎么命名的?当然我在syn中没找到gal1在sce中检索到了,这也说明了基因果然不是乱长的。
依旧是上面这个图,看到KEGG2了吗?点击。也会出现检索框,这是一个总体性地检索框,在这里面输入关键词,代谢通路也好,glycolysis也好, gal也好,化合物也好,没那么多限制,KEGG中的相关东西都会检索出来,在这里浏览一下,再进行后续检索,也是一个不错的方法。
当然,代谢通路图,还有其他的查看形式(比如以KO查看),以及图上可以点击,链接到这链接到那,点来点去总能点出奇怪的页面来,熟悉一下也就熟悉了,这些东西会很有用,所以我就不说了。下面讲一下KEGG的自动注释功能。
KEGG的自动注释
KEGG Automatic Annotation Server,KEGG的自动注释服务简称KAAS。在线网址为http://www.genome.jp/tools/kaas/ 。就是你提交一段蛋白质序列或者基因序列(必须是fasta格式),它自动在内部进行相似性比对,找到最相似的基因,并确定检索基因的KO分类,然后给出这些基因所在的代谢通路并以以不同的颜色标示这些基因。如下图:
我在help中随便复制了它的两条示例氨基酸序列,然后粘贴到检索框中,进行了检索。检索框默认的蛋白质序列,如果不是的话要改选。然后填上一个邮箱地址,点击又下角的compute即可。不出意外的话,你在接下来的页面中应该看不到任何结果,甚至连提示都没有,原来它把结果发到你邮箱去了。我也不明白就一个网页链接为什么还硬要发送到邮箱。 首先发你一封信说已经接受,并给你一个期待结果显示的网址,一段时间后,会发你另外一封邮件,说已经完成。打开它给的网址,就能看到结果了,如下:
看来从1:20开始计算到1:50 才结束,两条氨基酸链计算了30分钟(不过我感觉没这么长呀)。人家说了,计算时间是与要和检索序列对比的目标序列成正比,因此在检索的时候最好限制一下检索范围。
点击html 有两条代谢通量图的条目,点开他们就可以直观地看出我们检索的未知序列在代谢通路中的位置和作用了。Text给出的是两个KO分类。
好像北京大学的生命科学学院也搞了一个KOBA,也是基于KEGG 中的KO进行注释的一个服务,应该和这个差不多吧。
代谢通路的着色
怎么在KEGG检索出来的代谢通路中给特定的一些化合物或者基因(酶)着色以高亮显示呢?
进入网页 http://www.genome.jp/kegg/tool/color_pathway.html ,或者由pathway主页的Color objects in KEGG pathways进入,看图:
如上图,search against 下拉出你可供选择的代谢通量图,总所周知的一个很烦人的问题就是,在这些下拉列表中,条目排序竟然是乱七八糟的很难索引。还好我发现把焦点定在这个下拉列表的最顶端的文本框上(即文本框变成选中的蓝色),然后在键盘上拼写你要的那个物中的英文单词,只需要拼两三个字符相应的代谢通量图就出现在顶端了。比如我要找酵母的代谢通量图,只需要在文本框变蓝的时候拼写“sacc”这几个字符“Saccharomyces cerevisiae(budding yeast)”就自动被置于上面了。或者不把焦点集中在文本框中也行,但是你要很快地拼写sacc,否者的话焦点会在以这几个字符开头的条目之间切换。
如上图,右边有示例,这个貌似不要太简单。想给谁着色就把它写出来后面跟上颜色就好了,一个一行。比如写上C00118 blue 就表示在代谢通路图中把C00118这种代谢物(3-磷酸甘油醛,GAP)给着上蓝色。但是大家也看出来了,着色可以自定义背景色,也可以同时定义前景色。我曾一度琢磨前景色是干嘛的,琢磨半天发现没用。背景色就是把方框或者圆圈涂成选定的颜色,这自然是要的;而前景色是谁的颜色,就是方框里面的5.4.2.2 这几个数字的颜色,或者是小圆圈圆周的颜色,这有必要定义吗,所以后面直接跟一种颜色就行了。
然后就可以了。我随便弄个gal1想去着色,KEGG突然说在酵母中找不到gal1,怎么可能找不到呢?我前面还在GENES中搜过呢,分明是酵母,分明是gal1,分明搜的到,我当时还大为兴叹,唉,看来基因果然不能乱长啊,怎么可能一顿饭就说找不到了呢?我又回去搜里一下,确实搜的到,我再回来着色还说找不到。发现没有哪里不对呀,难道在这里KEGG着色只能输入基因ID而不能输入名称?不是,输入基因ID能给着色,基因名称也应该能给… 哈哈,我突然大笑起来,一定是KEGG区分大小写了!果然,我把搜到的GAL1输进去,好了!用gal1又不行了。我突然觉得好玩起来,就一次次地改大小写,一次次地看它给出的错误报告,一次次得意地嗤笑它的弱智。既然区分大小写,那red能着红色,Red、RED肯定就不认识了,果然改写一个大小写的red就没反应了,c00118也不认识了。前面那么多检索一直都不区分大小写的,在这里怎么区分大小写呢?KEGG显然把这点疏忽了。
着色结果如下:(红色的就是GAL1的酶,右上角的就是C00118)
代谢物还好,如果要着色酶,没必要去找基因,还免得像我那样麻烦,直接在输入框中输入相应的酶就好了,比如ec:2.7.1.6 red(ec 要小写) 跟 GAL1 red 是一样的。或者直接写 2.7.1.6 red 也是一样的。
这种着色功能还可用于对比(或寻找)两个不同物种的一些基因,或者根据芯片数据,直观地示意一些基因的表达调控。着色内容也可以预先按以上规定的格式写在文本文件中,然后直接浏览导入也行。
基因芯片数据的分析
我对基因芯片数据(表达谱)的分析也是蛮感兴趣的。利用基因芯片的表达数据,分析不同实验条件下的一些上调或下调基因,并与网络路结合起来,用不同的颜色来直观地反映代谢通路中各基因表达的变化情况,可以为更好地研究代谢网络提供了很大的帮助。以前出去听人家讲课,只知道GenMapp不错,可以把基因芯片数据和通路结合起来,没想到在KEGG中也可以实现这一功能。
进入网页http://www.genome.jp/kegg/expression/ 。网页左边是KEGG自身拥有的一些基因表达数据集 KEGG EXPRESSION Database。网页的右边KegArray就是要进行芯片分析的工具了。在KEGG EXPRESSION 下面,点击“list of experimental data available”,就打开了KEGG中的基因芯片数据,见下图:
这是芯片数据的一个目录层次,箭头向右和向下分别表示收起和展开数据。我们以上图中的第一条数据为例,即Suzuki et al. 做的关于Synechocystis PCC6803 冷激响应的一条数据ex0000012, 点击这个数据,在打开的页面下面有个option 列表,点击 Launch KegArray,加载这个应用程序来分析这条数据。出现如下对话框:
问你是打开还是保存,打开就相当于临时用一下,网页关掉就没了;保存就是把这个软件下载到自己的电脑上,以后还可以用。你先打开试试吧,这个不是关键,关键的是你可能打不开这个文件。大家都知道,信息(bioinformation)学的一些软件往往要求安装JAVA才能运行,我JAVA早就安装了,但是仍然告诉我打不开这个文件,我看了一下文件格式,是什么JNLP格式的没见过,看看属性,又从网上搜搜,说需要 java web start 才能打开和运行,我安装了JAVA,java web start 在哪里找到和启动,查了半天也没个头绪,忽然一想,java web start 肯定在JAVA安装文件夹里,取首字母缩写,很有可能是 javaws.exe,我一搜还真在安装文件夹里搜到这个执行程序了,用作JNLP的默认打开方式,立马就呼呼地启动了。出现了如下的界面:
图中的File Name、Organism还都对,下面的参数一般都是默认的,不需要改。右边还有一个统计图,用以显示上调、下调和不调的基因数目比例。绿色表示下调,红色上调,黄色无明显差异(之前有文献说红色是下调,搞的我迷糊了好大一阵子!)。
那怎么在生物学通路中看这些基因的调整情况呢?
看到最下面的 Mapping to 了吗,选择pathway(默认的也是pathway),GO一下,就OK了。然后它就会把这个芯片数据涉及到的基因所在的通路图列出来,并在通路中用不同的颜色标明基因表达差异。如下图(选取的是嘌呤代谢通路的一部分)
绿色表示基因下调,黄色表示没明显变化,灰色是什么,这个可能species-specific 基因,与芯片无关的吧。那怎么没红色?
(1)通路中本就没有基因上调
(2)虽然绿色表示下调,红色上调,但是在他们之间有过渡的颜色,比如某个基因只是稍微上调,因此不能大红大紫,只能呈现过渡的暗黄色。如果你一定有见红情结的话,那你可以在help 菜单中选择preferences,把颜色梯度改成1,即下调就是绿色,上调就是红色,没中间余地。此时一旦有所上调不论多少都是大红。(呵呵)
除此之外,看到了吗,KegArray还有一个做聚类Clustering的命令,你可以点击GenomeNet从KEGG中选择芯片数据进行聚类,不过貌似做得很简单,也没有红绿颜色。
当然,你可以选择KEGG其他芯片数据进行类似分析,可可以从本地导入其他的芯片数据。也可以把KegArray保存在本地运行,但是不管怎样,不管你选在KEGG中选了那条数据,需要指出的一点是,当你再运行KegArray时,加载的数据总是你第一次使用的数据。比如我即使在KEGG中选择ex000013 而不是ex000012,然后 launch KegArray, 启动后出现的数据依旧是我第一次分析的数据ex000012而不是ex000013, 只有打开以后,点击GenemoNet重新选择芯片数据。而KegArray本身又找不到可以设置这些东西的地方,真不知道KEGG想要干嘛!
KGML与通路编辑
这个我不打算多讲,因为我自己也在踌躇着要不要学习呢。
KGML,即KEGG Markup Language的简称,我自己的理解就是它包含代谢通路中各组件以及各组件之间的相互联系,因此是代谢通路构建的指令。在KEGG中可以以xml的格式进行下载:ftp://ftp.genome.jp/pub/kegg/xml/ 。
据说这种KGML文件,打开时,能以另一种方式查看代谢通路,即酶和化合物之间的各种交叉联系,我很想看,但郁闷的是,我xml也下了,一个叫什么KGML DTD的也下了(见http://www.genome.jp/kegg/xml/),但是打开后没反应啥图也没有。可能需要一些专门的软件才能打开吧,比如VisANT, GenMAPP, PathwayExpert等。
另一方面就是越来越多的软件开始支持并应用到KGML了,但是我感兴趣的是有些软件已经能够基于KGML进行KEGG代谢通路的编辑了。单是一个图的话,用PS修饰或许也能搞定,但是如果是大规模地建模或修改代谢通路,显然需要这些软件。
有个软件KGML-ED(http://kgml-ed.ipk-gatersleben.de/Introduction.html),安装竟然需要1.6的java版本,我用1.5的试了试,还真不行...
其他的软件有的能把KGML转换成SBML(如KGMLConverter),貌似SBML也是生物学软件中主流的东西,能建模能可视化。不知道有没有人知道呢?
最后做个总结吧,KEGG也是一个很全面的数据库,不仅是代谢通路,基因信息,化合物反应等数据也是很不错的,但是难免又有一些疏忽之处,比如,着色输入框区分大小写,KegArray启动时数据不对等,总的来讲还是很cool的数据库。有越来越多的科研者基于KEGG开发了一些实用的工具,比如基于KEGG KO的注释工具K(http://www.genome.jp/tools/kaas/), KOBAS (http://kobas.cbi./home.do)等,基于KEGG KGML的通路建模工具KGML-ED, KGMLconverter等,相信大家对KEGG的利用会越来越充分的。另外,KEGG也在不断的发展和更新中,本文中的一些页面都有可能改动和变化,希望后来交流者,有所知晓,也希望大家一起分享经验。
本文转自:http://neobe110./
第一种:就是用genes.pep ftp://ftp.genome.jp/pub/kegg/genes/fasta/然后和自己的数据BLAST,再通过KO文件,找同源高的序列KO注释,再通过PATHWAY和KO的关系,找PATHWAY注释
另外,第二种是 下载KEGG的网上已用KO注释过的物种,例如植物的,动物的,真核的,原核的,KEGG的网站上有,然后BLAST,这样就少了找KO注释的那一步了,直接可以找PATHWAY
KEGG对物种分类注释的:
http://www.genome.jp/kegg/catalog/org_list.html 分类的物种
ftp://ftp.genome.jp/pub/kegg/genes/organisms/
相关热词:
..........
生物秀是目前国内最具影响力的生物医药门户网站之一,致力于IT技术和BT的跨界融合以及生物医药领域前沿技术和成功商业模式的传播。为生物医药领域研究人员和企业提供最具价值的行业资讯、专业技术、学术交流平台、会议会展、电子商务和求职招聘等一站式服务。
官方微信号:shengwuxiu
电话:021-遇到问题怎么办?赶快来提问!研发平台专家为您解答!
问题解决中
问题提出时间: 15:30:04
如何对一组基因做信号通路分析(KEGG的基因批量分析查询方法)?
如何对一组基因做信号通路分析(KEGG的基因批量分析查询方法)?
我有一组基因,几十至百来条数量,有AccessionID和基因名称,还不是gene symbol,如何利用KEGG或其他信号通路数据库做分析,看看各属于哪些信号通路,并对各信号通路进行权重分析,并包含对KEGG数据库的信号通路地图链接?
行业分类:生物、医药
回答时间: 22:25:32
这个要去丁香园了。。。。。。。。。。。。。。。。。。。。。。。。
共1条评论&
这个问题已提出一个月以上,回答功能关闭,如需求助可重新
科技服务热线:800-820-5114
沪ICP备号-2您要找的是不是:
kegg pathway
利用DAVID网站整合数据库对2倍法筛选的差别基因进行基因本体学(GO)、KEGG信号通路(KEGG pathway)浅析,对差别基因的功能富集情况和信号通路富集情况进行描述。
基于6个网页-
Then the GO and KEGG Pathway enrichment analysis were carried as well as the functional analysis and real time RT-PCR validation of two important genes.
通过表达谱芯片检测药物作用后的基因表达差异,对差异表达基因进行生物信息学研究并结合实时荧光定量PCR分析。
The signal pathway of TGFβ from the network model was found and verified by the colon cancer pathway of KEGG. The model reveals many higher order logic relationships of cancer genes.
通过这个网络模型发现了与KEGG数据库中结肠癌通路一致的转化生长因子信号通路,并分析了各生物通路成员之间错综复杂的关系。
$firstVoiceSent
- 来自原声例句
请问您想要如何调整此模块?
感谢您的反馈,我们会尽快进行适当修改!
请问您想要如何调整此模块?
感谢您的反馈,我们会尽快进行适当修改!继续手把手教你分析那篇2.5分不做实验的文献
我的图书馆
继续手把手教你分析那篇2.5分不做实验的文献
我们今天还是继续手把手来教大家,这篇不做实验的两分半文献()是怎么弄的。昨天讲了如何用Morpheus来分析完差异基因(),之后,重要的事情就是分析一下这些差异基因的组成。那就需要用DAVID来进行差异基因的GO分析和Pathway分析。首先,从Morpheus上分析完数据后,点击下载,下载一个GCT文件,别管是什么,总是能用Excel打开的。打开DAVID的网址(https://david.ncifcrf.gov/),然后输入所有的基因,选择Official-Gene-Symbol,因为其中有一些基因的名字不规范,所以可能会弹出一个框,表示要转化成基因名,选择直接转化成Official-Gene-Symbol就可以了。显示GO分析结果的时候,会有很多选择,默认的选择是“GOTERM_BP_DIRECT”,但文献里用的分组是“GOTERM_BP_FAT”,你可以自己改选,然后点击表格。按照GO的三种分类,大概可以了解到这些差异基因的分布情况。在DAVID中也有Pathway分析结果,包含了KEGG和Wikipedia等的分析结果,我们就看一看KEGG的就可以了。这个就是打开后的KEGG列表。做完这些分析,我们要明确的是,这些只是差异基因,但还未必是核心基因(Hub Genes),那我们就需要通过PPI(蛋白互作)来看看,这些基因中是否有一些重要的核心基因的存在。打开STRING后把基因的列表输入进去,当然你可以选择只输入上调或者下调的基因。记得基因列表出来之后,要拉到底稍微等一会儿,就会形成蛋白互作的PPI网络图,但这只是第一步,把这个网络图Export出一个txt的表格文件,这个才是我们需要的。用Excel打开表格,按照文章里描述的,筛选“combined score>0.4”的样本,这些就可以作为显著的Hub genes了。导入到CytoScape,把调整好的这txt格式的文件导入,建立一个Node,当然可以选择有30个以上互作的基因。用CytoScape的app——MCODE,来进行互作模型的分析,于是就变成了这样。整篇文献,大概就是分析了这些东西吧,大家有兴趣的话,就自己去分析一个试试看,反正也未必能发文章出来,当练练手也好。…华丽丽的分割线…李莫愁博士:这些都是基础的GEO芯片的分析工具,大家可以自己动手试试看,其实也不难,主要的核心思想就是:看懂了么?好了,今天就策到这里吧。
TA的最新馆藏扫二维码下载作业帮
1.75亿学生的选择
下载作业帮安装包
扫二维码下载作业帮
1.75亿学生的选择
kegg pathway分析基因在哪个信号通路上
扫二维码下载作业帮
1.75亿学生的选择
进入这个数据库查就可以啦
为您推荐:
扫描下载二维码}

我要回帖

更多关于 基因组学 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信