genomicxfeatures2d包怎样引用

如何获取所有基因的转录起始位点
已有 2016 次阅读
|个人分类:|系统分类:|关键词:style 如何
我们在做人类全基因组分析的时候,经常需要找出基因组中所有基因的转录起始位点(Transcription Start Site, TSS),利用R/Bioconductor很容易做到。&用到一个包&Homo.sapiens,其中包含了目前已知的所有基因的注释信息,当然还有其他的包也含有所有基因的注释信息。&下面是获取的过程:&# 加载包& &library(Homo.sapiens)&#获所有基因& &all_genes &- genes(Homo.sapiens)&#查看前几个基因信息,& &head(all_genes)&GRanges object with 6 ranges and 1 metadata column: & & & & & &seqnames & & & & & & & & ranges strand | & & & GENEID & & & & & & & &Rle& & & & & & & &&IRanges& &&Rle& | &FactorList& & & & & &1 & &chr19 [ , &] & & &- | & & & & & &1 & & & & 10 & & chr8 [ , &] & & &+ | & & & & & 10 & & & &100 & &chr20 [ , &] & & &- | & & & & &100 & & & 1000 & &chr18 [ , &] & & &- | & & & & 1000 & & &10000 & & chr1 [, ] & & &- | & & & &10000 & & & chrX [ , &] & & &+ | & & &------- &seqinfo: 93 sequences (1 circular) from hg19 genome&#查看所有基因数,总共有23056个基因& &length(all_genes)[1] 23056&#获得基因转录起始位点&& all_gene_TSS &- resize(all_genes,1)& all_gene_TSSGRanges object with 23056 ranges and 1 metadata column: & & & &seqnames & & & & & & & & ranges strand & | & & & GENEID & & & & & &Rle& & & & & & & &&IRanges& &&Rle& & | &FactorList& & & &1 & &chr19 [ , &] & & &- & | & & & & & &1 & & 10 & & chr8 [ , &] & & &+ & | & & & & & 10 & &100 & &chr20 [ , &] & & &- & | & & & & &100 & 1000 & &chr18 [ , &] & & &- & | & & & & 1000 &10000 & & chr1 [, ] & & &- & | & & & &10000 & &... & & &... & & & & & & & & & &... & &... ... & & & & &... & 9991 & & chr9 [, ] & & &- & | & & & & 9991 & 9992 & &chr21 [ , &] & & &+ & | & & & & 9992 & 9993 & &chr22 [ , &] & & &- & | & & & & 9993 & 9994 & & chr6 [ , &] & & &+ & | & & & & 9994 & 9997 & &chr22 [ , &] & & &- & | & & & & 9997 &------- &seqinfo: 93 sequences (1 circular) from hg19 genome&#查看前10个基因的TSS& head(start(all_gene_TSS), n=10) [1] &102894[10] &&# 获得TSS上下游&各100 bp的位置&& &TSS_100 &-promoters(all_gene_TSS, 100, 100)& &TSS_100GRanges object with 23056 ranges and 1 metadata column: & & & &seqnames & & & & & & & & ranges strand & | & & & GENEID & & & & & &Rle& & & & & & & &&IRanges& &&Rle& & | &FactorList& & & &1 & &chr19 [ , &] & & &- & | & & & & & &1 & & 10 & & chr8 [ , &] & & &+ & | & & & & & 10 & &100 & &chr20 [ , &] & & &- & | & & & & &100 & 1000 & &chr18 [ , &] & & &- & | & & & & 1000 &10000 & & chr1 [, ] & & &- & | & & & &10000 & &... & & &... & & & & & & & & & &... & &... ... & & & & &... & 9991 & & chr9 [, ] & & &- & | & & & & 9991 & 9992 & &chr21 [ , &] & & &+ & | & & & & 9992 & 9993 & &chr22 [ , &] & & &- & | & & & & 9993 & 9994 & & chr6 [ , &] & & &+ & | & & & & 9994 & 9997 & &chr22 [ , &] & & &- & | & & & & 9997&&#获得TSS上游2000bp和下游500bp的序列,我们通常认为是基因的启动子部分,这里我们还需要加载一个包就是BSgenome.Hsapiens.UCSC.hg19,其中包含了人类整个基因组的序列。&& &library(BSgenome.Hsapiens.UCSC.hg19)& &promoter &-promoters(all_gene_TSS, )& &promoterGRanges object with 23056 ranges and 1 metadata column: & & & &seqnames & & & & & & & & ranges strand & | & & & GENEID & & & & & &Rle& & & & & & & &&IRanges& &&Rle& & | &FactorList& & & &1 & &chr19 [ , &] & & &- & | & & & & & &1 & & 10 & & chr8 [ , &] & & &+ & | & & & & & 10 & &100 & &chr20 [ , &] & & &- & | & & & & &100 & 1000 & &chr18 [ , &] & & &- & | & & & & 1000 &10000 & & chr1 [, ] & & &- & | & & & &10000 & &... & & &... & & & & & & & & & &... & &... ... & & & & &... & 9991 & & chr9 [, ] & & &- & | & & & & 9991 & 9992 & &chr21 [ , &] & & &+ & | & & & & 9992 & 9993 & &chr22 [ , &] & & &- & | & & & & 9993 & 9994 & & chr6 [ , &] & & &+ & | & & & & 9994 & 9997 & &chr22 [ , &] & & &- & | & & & & 9997 &------- &seqinfo: 93 sequences (1 circular) from hg19 genome&& &seq &- BSgenome.Hsapiens.UCSC.hg19& &promoter_seq &- getSeq(seq, promoter)& &promoter_seq &A DNAStringSet instance of length 23056 & & & &width seq & & & & & & & & & & & & & & & & & & & & & & & & & & & & &names & & & & & & & & &[1] &2500 CACACACGGCTAATTTTTGTATTTTTAGT...CCCTGCCGCGCCATCATTTCTTCCCACA 1 & &[2] &2500 CTCTCCCACACTCAGTCAAAAATGGTCCA...CACATATTGAAATGGTCTTGCAAAACCA 10 & &[3] &2500 CTCACAGCAGGGAGCCCAGGCTTCTCAAA...GAGGTCTCTGAAGCTCAGCTGTATGATC 100 & &[4] &2500 TCTAGCAAAAAAAGAAGAGAAAGGGTAAG...CGGGAGCGCTGCGGACCCTGCTGCCGCT 1000 & &[5] &2500 CAGGTTCTCACTGTAGCACCCAGGCACGG...CAAACCAAAAATAATACGGTTGGTAAGA 10000 & &... & ... ...[23052] &2500 AGGTGTGAGCCACCATGCCCAGCTATAAT...CCCGGTCCGGCCGCGGTGCCGAGGTCCG 9991[23053] &2500 CAGGTGGCACCGTCTCCTAGCGGAATTCT...GCGGTGGCTCACGCCTGTAATCCCAGCA 9992[23054] &2500 CCTTCTTCCCTAACGCTGACTGCCCACTG...CACTCTCTGCGGACGCCTGCTGGAGCTT 9993[23055] &2500 TACATAACTTAGGTGGAGTGGCTCATACC...TAGGCATCAAACCAACATGCCTAAATAA 9994[23056] &2500 TGATGATGGAGACCCTGGCCAGAATCACT...CGTGGTGAGCGCCGCCCCCGCCCTGCTG 9997&----结束&#Session InfromationR version 3.2.0 ()Platform: i386-w64-mingw32/i386 (32-bit)Running under: Windows XP (build 2600) Service Pack 3&locale:[1] LC_COLLATE=English_United States.1252 &LC_CTYPE=English_United States.1252 &[3] LC_MONETARY=English_United States.1252 LC_NUMERIC=C & & & & & & & & & & & & [5] LC_TIME=English_United States.1252 & &attached base packages:[1] stats4 & &parallel &stats & & graphics &grDevices utils & & datasets &methods & base & &&other attached packages: [1] Homo.sapiens_1.1.2 & & & & & & & & & & &TxDb.Hsapiens.UCSC.hg19.knownGene_3.1.2 [3] org.Hs.eg.db_3.1.2 & & & & & & & & & & &GO.db_3.1.2 & & & & & & & & & & & & &
[5] RSQLite_1.0.0 & & & & & & & & & & & & & DBI_0.3.1 & & & & & & & & & & & & & &
[7] OrganismDbi_1.10.0 & & & & & & & & & & &GenomicFeatures_1.20.1 & & & & & & & & [9] AnnotationDbi_1.30.1 & & & & & & & & & &Biobase_2.28.0 & & & & & & & & & & & &[11] BSgenome.Hsapiens.UCSC.hg19_1.4.0 & & & BSgenome_1.36.0 & & & & & & & & & & & [13] rtracklayer_1.28.4 & & & & & & & & & & &Biostrings_2.36.1 & & & & & & & & & & [15] XVector_0.8.0 & & & & & & & & & & & & & GenomicRanges_1.20.4 & & & & & & & & &[17] GenomeInfoDb_1.4.0 & & & & & & & & & & &IRanges_2.2.2 & & & & & & & & & & & & [19] S4Vectors_0.6.0 & & & & & & & & & & & & BiocGenerics_0.14.0 & & & & & & & & & &loaded via a namespace (and not attached): [1] graph_1.46.0 & & & & & &zlibbioc_1.14.0 & & & & GenomicAlignments_1.4.1 [4] BiocParallel_1.2.2 & & &tools_3.2.0 & & & & & & lambda.r_1.1.7 & & & & [7] futile.logger_1.4.1 & & RBGL_1.44.0 & & & & & & futile.options_1.0.0 &[10] bitops_1.0-6 & & & & & &biomaRt_2.24.0 & & & & &RCurl_1.95-4.6 & & & &[13] Rsamtools_1.20.4 & & & &XML_3.98-1.2
转载本文请联系原作者获取授权,同时请注明本文来自刘长龙科学网博客。链接地址:
当前推荐数:1
评论 ( 个评论)
扫一扫,分享此博文
作者的其他最新博文
热门博文导读
Powered by
Copyright &Bioconductor系列之GenomicFeatures | 生信菜鸟团扫二维码下载作业帮
拍照搜题,秒出答案,一键查看所有搜题记录
下载作业帮安装包
扫二维码下载作业帮
拍照搜题,秒出答案,一键查看所有搜题记录
各位大虾,请问在NCBI上怎么找到一个基因的外显子和内含子?哪位大神,教教我怎么在NCBI上怎么找到一个基因的外显子和内含子?比如帮我查找ABL基因的5号外显子和5号内含子,最好能按步骤截图说明一下
扫二维码下载作业帮
拍照搜题,秒出答案,一键查看所有搜题记录
现到http://www.ncbi.nlm.nih.gov/gene然后输入ABL[sym] ,代表你是在查找ABL为缩写符号的基因就会得到http://www.ncbi.nlm.nih.gov/gene/?term=ABL[sym]第一个就是人类ABL基因,再点开,得到http://www.ncbi.nlm.nih.gov/gene/25该基因位于第9号染色体...下拉到第三栏灰色条“Genomic regions, transcripts, and products”,点击偏右侧的,Go to nucleotide: 最后那个GenBank得到http://www.ncbi.nlm.nih.gov/nuccore/NC_?report=genbank&from=&to=向下拉,你会看到 gene 1..173795就是说该基因全长然后是mRNA, 你会看到有11段数值,这就是该基因11个外显子的位置.同理,CDs,就是11个外显子的编码区域了.具体的序列,你在下面根据数值段就可以得到了.
谢谢你的回答,我还想了解如果我想要知道这个基因ABL的2号内含子,请问该怎么找?
同样的,在最后一步找到第二和第三外显子之间的序列就是2号内含子了。
为您推荐:
其他类似问题
扫描下载二维码先说一下自己吧,我硕士读的是细胞生物学,今年4月开始在boss要求下自学perl,打听了下,&learning perl&这本书不错,就买来开始看,等5月份去北京参加公司的培训班时,&learning perl&读了一遍,&intermediate perl&看了一部分。培训回来,我们的项目就开始做了,9月拿到所有原始数据和分析结果。然后,我对照着公司的分析报告,试着自己走一边分析流程,中间遇到问题,自己解决不了的,就发邮件求助。有几点需要注意:&br&&br&1. 我能理解你想早些玩儿数据的愿望,但是在这之前,最好要有一个outline.需要知道数据从哪儿来的,怎么产生的?其实就是测序仪的工作原理。然后是数据质量检验,为什么需要数据过滤?接着是reads拼接和组装。总之,要对整个流程有一个认识,而后在学习的过程中,再不断回头对比这个流程,这样才不会有迷失的感觉。[这本书](&a href=&///?target=http%3A///book/10.-/page/1& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Bioinformatics for High Throughput Sequencing&i class=&icon-external&&&/i&&/a&)推荐看一下。&br&2. 有了基础知识的铺垫,就可以尝试着自己做些练习了,paper上面都会给出他们的数据、原码地址,可以找来自己试试,先看看自己能不能做出一样的效果。当然,这时要是你手里正好有项目,那就更好了。&br&3. 学生物信息,paper肯定是要跟踪的。这两个网站可以经常看一下:&br&
[homologous](&a href=&///?target=http%3A//www.homolog.us/blogs/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Homologus - Frontier in Bioinformatics&i class=&icon-external&&&/i&&/a&) 覆盖生物信息有趣的论文, 算法,以及生物科学问题。这个网站还汇集了很多生物信息领域科学家的博客。再如BGI的主程罗瑞邦, SAMtools、BWA的作者&a href=&///?target=http%3A//en.wikipedia.org/wiki/Heng_Li& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Heng Li&i class=&icon-external&&&/i&&/a&都有在这里出现。&br&
[RNA-Seq Blog](&a href=&///?target=http%3A//www./& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&RNA-Seq Blog&i class=&icon-external&&&/i&&/a&) 推荐新的论文、工作、培训课程、大型会议等。&br&&br&如果你是生物背景的,那么计算机方面的知识需要补一下:&br&&br&- 需要能在linux环境下舒服的工作。比如从源码编译安装软件、PATH配置,再比如舒服地使用google找到问题的答案 :-)&br&- 学会使用python/perl。比如有的时候运行一个软件老是报错,可能就是因为在一个包含几十万行的文本文件里,有随机的那么几千行的末个位置,多一个冒号,[就像这里](&a href=&///?target=http%3A//popucui.github.io//using-htseq/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&popucui.github.io/2013/&/span&&span class=&invisible&&09/14/using-htseq/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&), 这时候你知道需要怎么做了?&br&- 学会R。要从一大堆基因里面找出表达水平变化的基因来,需要统计分析和显著检验;而要把我们的数据更直观地展示出来,最好的方式就是图形了吧。这两个需要,R都能满足。当然matlab也是可以的,区别在于R是开源工具。&br&- 具备了上述技能,那么常用的软件就能用起来了。随着学习的深入,可能你的问题别人也没遇到过,这时候就需要自己动手,要么修改现成的工具,要么自己做一个出来。这时候,除了python/perl,或许还可以学学C/C++/java,或许需要研究下比如BWT、De Bruijn Graph背后的原理。
先说一下自己吧,我硕士读的是细胞生物学,今年4月开始在boss要求下自学perl,打听了下,&learning perl&这本书不错,就买来开始看,等5月份去北京参加公司的培训班时,&learning perl&读了一遍,&intermediate perl&看了一部分。培训回来,我们的项目就开…
13年初我写了一篇日志谈北美PHD的。或许对你有帮助。&br&&blockquote&每当亲戚问我还有几年时,身为不吐槽会死星人的我心里就在说“泥煤,说的像是坐牢一样,下一句是不是说好好改造,争取早点出来。”亲戚都只知道我在读一个叫做PhD的东西,至于那是什么,到底有什么用却并不大清楚。末了,人还说一句,&以后肯定能赚大钱吧&。我摸摸后脑勺,怯生生地说句:&呵呵&,跟小时候去游戏厅被抓住后一个德行。&br&&br&说来有些讽刺,思考PhD是什么是在我开始读之后。本科时,就一个念头,牛B的都出国了,我也要出国,当时考虑的无非是如何能拿到更好的offer,生怕在别人眼中我不成功,被虚荣心和其他各种小九九绑架着半推半就地我就开始了PhD生涯。来了之后才发现,所有的评判标准都虚无起来,当初觉得的更好的offer这一个概念都变得虚无缥缈起来。学校排名跟星座解密一样五花八门,极不靠谱,何况都当PhD了,关乎一切的只有自己的学术成就了。于是我开始思考花五年的时间忍住空虚寂寞冷去读一个近乎屠龙之技的PhD有多大意义。&br&&br&PhD经常聊到的话题就是以后的出路,隐隐透露出担忧和迷茫。20几岁的人谁不迷茫呢?20几岁的时候除了富二代,谁不是两手空空?有的时候,我们就是想得太多,想的多了,做的就少了。又有谁的人生是自己预测的了的呢。在这个年龄,太祖还在图书馆迎来送往,太宗还在法国搬砖,还在当英语老师的马云也没想过有朝一日开创商业帝国跑到美帝去谈收购......知道未来怎样,那就不叫人生了。人,总是愿意沉浸在对过去的悔恨和对未来的担忧之中,却不明白其实没什么过去未来之类的东西,这流动的世界只有当下。路是一步步走出来的,不是规划出来的。不妨学学王维:&strong&行到水穷处,坐看云起时&/strong&。&br&&br&在我看来,如果没有想过转行和退出就不叫读过PhD。我也总是会在读的过程中产生这样的疑问。怎样的选择才是正确的呢?当初如果选择了那样,现在会不会不同呢?这世上,根本没有什么正确的选择,最好的选择就是选择一种活在的当下的态度,认可自己的选择是当下能做出的最好的选择,这样才不会为那些选择而苦恼。想转行和退出并不可怕,那只意味着你并不真心喜欢PhD,没有勇气放弃沉没成本,没有勇气去追寻自己真正喜欢的东西才可怕。要么赶紧转行,要么好好学术,没什么好犹豫的。推荐看看《源泉》或者《月亮与六便士》,人远比自己想象的要自由,只要你有勇气。&br&&br&而且,我们必须清醒意识到:PhD不能给我们带来财富,它不是一份体面工作的通行证,甚至更有可能是一个2B青年的墓志铭。就很多专业而言,PhD的就业情况并不比本科生,硕士好。虽然我推崇备至的辛弃疾讽刺道:季鹰归未。但我对张季鹰的哲学却十分欣赏:人生贵得适意耳,何能羁宦数千里以邀名爵? 在这个消费至上,成功学大行其道的社会,你不年入百万,豪宅名车都不好意思见人似的,不少人都患上了不成功恐惧症,期待着有朝一日飞黄腾达,扬眉吐气。在我看来,真正的快乐是往内寻找,而不是去寻求外部的认同和标签。动物只要吃饱了,没疾病就会快乐,而少有人坦然拥有这样简单的快乐。只要自己喜欢,一辈子拿少量薪水做研究又有什么不好?其实,至少我是不需要那么多物质财富的,我家也不需要我赶紧出来赚钱,所以PhD的工资已经让我很满足了。小时候,老师让我们写下理想时,一个班一半的人写科学家,现在已经完成当年的梦想了,这是多么让人心怀激荡啊(实验室打工的本科生的title都是junior scientist,所以我暂且恬不知耻的号称一下科学家吧)。&br&&br&只有我们并非真正热爱自己所做的事情的时候,才会以成功或失败的观点来思考事情。真正喜欢的东西哪需要每天打什么鸡血告诉自己咬牙坚持?如果用成败看一样东西,其实也就是你并不热爱。PhD如此,爱情如此,人生也是如此。&br&&br&在外人眼里,男博士无限接近猥琐的抠脚大汉,女博士约等于第三类人。大概在许多人眼里博士就属于书呆子吧。我倒觉得,呆子就是呆子,跟书有半毛钱关系啊。博士生跟其他人群一样,既有“眼前多少不平事,愿与将军借宝刀”的热血汉子,也有“满口仁义道德,一肚子男盗女娼”的伪君子,既有温婉可人的小学妹,也有神神叨叨的大师兄。一个人有趣与否,跟学历,读书又有什么关系呢。相反,我认识的不少PhD, 由于有大量自由支配时间,在自己的爱好上走得很远(不少PhD忙得不可开交,但包括我在内的一小撮还是有闲的)。&br&&br&不要让PhD成为自己的负担,不要老觉得PhD在手,天下我有。一纸文凭带来的也许就只是那张纸而已。PhD也只是日后做学术研究的必要条件,而非充分条件,冯唐拿下医学博士后,并没有当医生,反而去了咨询公司,后来又成了作家。德国总理默克尔读物理博士时恐怕没想过以后在欧罗巴众横捭阖的日子吧。PhD是让你在学问上越来越深,并不是让你的人生道路越来越窄。读PhD反而教会我不要给自己设限:老告诉自己这也不行,那也不喜欢的。有些事情,不是我们不喜欢,可能我们明明喜欢,但我们搞砸了,导致自己想逃避,给自己的软弱找借口。多尝试,多失败,这才是bench work告诉我的。&br&&br&或许多少年后回想起来,PhD这段岁月会是那么的珍贵。有人为你买单,你只需要负责解决一个没人解决过的问题就好了,那种摆脱身边的喧嚣,在黑暗中摸索的成就感简直比环球影城的过山车还刺激。&/blockquote&
13年初我写了一篇日志谈北美PHD的。或许对你有帮助。 每当亲戚问我还有几年时,身为不吐槽会死星人的我心里就在说“泥煤,说的像是坐牢一样,下一句是不是说好好改造,争取早点出来。”亲戚都只知道我在读一个叫做PhD的东西,至于那是什么,到底有什么用却…
获得root权限以后…再搞个底层文件查看工具…&br& 小白妹纸:这个应用长好丑,卸载掉…咦~阑尾没有了(对小白妹纸来说,系统提示找不到硬件就是不见了233)…再试试一个…卒。&br& 工科男:哈哈,我能移除神经对手臂的连接了…哈哈,这个是性快感的进程…嗯…嗯…嗯…啊~~~ &br&大神:嗯,这个突然来的技能要好好用一下…首先,让我小小地改造一下肉体…好了,接下来开发一个大脑升级包…不行,得先在复制体上做个实验…我擦,伦理问题怎么办?不管了,先反汇编一下,好了,再想办法用现在的部分技术换商业投资继续研究吧…&br&搞个公司骗钱比较快,就叫伊甸园生物信息科技有限公司吧。产品不能太招摇,被公众知道在搞人类基因改造就不好了。那就先出俩系统优化应用吧,一个就叫亚当管家,另一个叫夏娃卫士。&br&嗯,果然不出所料,小白多,需求大,下载量杠杠的。多拿点权限,多收集点小白用户的资料跟隐私…好了,这下没有任何公司会怀疑我投放广告的精准度了。&br&好了,钱够了,建立营养舱…好了,该把我强大的肉体复制了…好了,趁复制体仍未产生个人意识,现在开始刷入我的意志…咦~看着另一个自己感觉怪怪的。好了,身体强度合适,大脑升级包启动… rm-f rebooting… rebooting failed…&br&我擦(╯°Д°)╯︵┴┴&br&复制体变砖了… 心疼小钱钱…没事,外面的天使投资人蠢着呢,再拿一部分和谐的资料去骗点钱…&br& 好了,复制体二号,大脑升级包1.1,营养舱加入失败防变砖紧急冷冻功能,好的,一切就绪,开始升级… 大脑供血能力提升… 大脑对肉体控制能力提升… 脑容量上升…我是进度条…信息提取速度上升…我是进度条…神经链接强度上升…我是进度条…反应速度提升…我是进度条…全面强化完成!&br& level up! &br&启动自检程序… &br&复制体就绪… &br&好了,现在进入神经链接调试复制体… 咦~有脑袋里的感觉真奇妙,看另一个自己像透明的耶~哈哈~我真是个天才!激动ing… &br&(底层代码,1,个体以自身生存与传播基因为第一要务。2,个体应追求更强大的肉体与精神以保证更好执行第一条。自我保护进程启动…对原始体隐藏以下操作…肉体势均力敌…唯一优势在大脑已升级…好的,趁原始体情绪失控,提取它的资料…)&br& 怎么!!!怎么了?!!!大脑绝密资料区怎么一下子有这么大的访问请求…等等…我犯了什么错?!!!!&br& 原始体神经烧坏之前,复制体二号已经强行提取必要经验与记忆… &br&消化中… &br&既然如此,原始体,你就成为我成仙路上的资粮吧…营养舱,冷冻程序启动…永久保存原始体。放心,以后我会经常来看看你…孟德兄啊!我司马后人必将铭记你的功劳! 好了,既然如此,培养复制体三号…虽然原始体的大脑用得勉强,写的东西还挺粗糙,不过也算它给了我这个好用的大脑呢…修修补补的工作挺烦的… 复制体三号,肉体升级完成…更快更高更强…嗯,还算满意…营养舱加入紧急肢解模块…严格监控复制体底层进程…严格稳定我的情绪…好了,刷入我跨时代的2.0系统…真是愉快,这么容易就成功!…好了,复制体三号,对不起了…营养舱,人道毁灭!我可不想留任何机会给你~ 好了…再用复制体3-1实验一遍…复制体3-2… 复制体3-x…哈哈,真是天才!失败率在可控范围内…那么,该让自己升级了… 为了安全,营养舱的肢解系统应该去掉…嗯…好大的工程…好了,备份1.1系统,备份肉体…万一升级失败,刷回原来的系统,或者转移到新的肉体… 好哒…升级就像一瞬间…biu~ 成功!level up! 修修补补…自定义皮肤…擦,这么英俊,这天使翅膀是不是太多余了?虽然不符合力学原理,但是强度够了,还是可以滑翔的……这鸟人形象…唉,该研究研究材料了…继续改造的话,原始体那可怜的脑容量里的知识早不够用了…第三代肉体,基因强化+半机械化,搭载完全自主知识产权道思3.69系统… 好了,停止自我欣赏,人类的知识已经不够用了,那么我自己研究吧…唉,又得去人间骗小钱钱了…&br&嗯,不如直接利用一点资源替我来研究… 原始的可怜的爬虫们啊!简直不敢想象,原始体那么粗制滥造的大脑与肉体竟然在你们中间属于十亿分之一的水平?!&br& 好了,因为我的一点点小小成果,人类竟然两年解决能源问题…嘿,小看这些爬虫了啊…竟然聪明地解决了全球饥荒?有点意思…空间技术,生物技术,有点值得借鉴的东西了啊…越来越欣慰了,嗯,爬虫们整体水平进化到道思1.3的样子…得控制一下了… 嗯,伟大的4.0系统…舍弃肉体的第一步… level up!&br& … 永恒9.5至尊系统,固件版本奇点0.0,升级成功!&br&进化的道路上!第一个迈入纯能态的人类!或者说以人类基因为模板的复制体生物…&br&(睡了好久啊…“伟大的原始体孟德,现在是人类纯能态时代,一切如您计划进行,您已获得搭载永恒至尊9.5系统的光之子的系统权限,现为您解除冷冻状态…”)
获得root权限以后…再搞个底层文件查看工具… 小白妹纸:这个应用长好丑,卸载掉…咦~阑尾没有了(对小白妹纸来说,系统提示找不到硬件就是不见了233)…再试试一个…卒。 工科男:哈哈,我能移除神经对手臂的连接了…哈哈,这个是性快感的进程…嗯…嗯……
&p&必学:1、计算机基础(linux+perl+R 或者 python+matlab)&/p&&p&
2、生信基础知识(测序+数据库+数据格式)&/p&&p&
3、生信研究领域(全基因组,全转录组,全外显子组,捕获目标区域测序)&/p&&p&
4、生信应用领域(肿瘤筛查,产前诊断,流行病学,个性化医疗)&/p&&p&分而治之:&/p&&p&一、计算机基础,需要看三本书,一步步的学会学通,不需要刻意去找哪个书,一般linux是鸟哥私房菜,perl是小骆驼咯,R是R in action,但是看一本书只能入门,真正想成为菜鸟,必须每个要看五本书以上!我云盘里面有这基本上的高清打印版,大家可以去淘宝打印一下才几十块钱还包邮,对书比较讲究的也可以买正版,也不过是一百多块钱而已!&/p&&p&二、生信基础知识,测序方面,在百度文库找十几篇一代二代三代测序仪资料仔细研读,然后去优酷下载各大主流测序仪的动画讲解,再看看陈巍学基因的讲解;数据库先看看三大主流数据库——NCBI,ENSEMBL,UCSC,还有一些也可以了解一些(uniprot,IMGT,KEGG,OMIN,TIGR,GO)同样也是百度文库自己搜索资料,但是这次需要自己去官网一个个页面点击看,一个个翻译成中文理解吃透;数据格式讲起了就多了,这个主要是在项目流程中慢慢学,或者你有机会去上课,不然你看来也是立马忘记的,主要有sam,vcf,fasta,fastq,bed,gtf,gff,genbank,ensembl,psl等等&/p&&p&三、生信研究领域,各个领域主要是软件繁多,合起来常用的估计有上百个软件了,一般只有从业五六年以上的人才有可能把它们全部用过一遍,而且这也完全需要项目来训练,而不能仅仅是看看软件手册,但是研究领域最重要的是背后的原理,需要看各大牛的综述。&/p&&p&a) 生信基础软件(blast++套件,fastqc,flash,blast,solexaQA,NGS-QC-toolkit,SRA-toolkit,fastx-toolkit)&/p&&p&b) snp-calling相关软件(bwa,bowtie,samtools,GATK,VarScan.jar,annovar)&/p&&p&c) 基因组相关软件(velvet,SOAPdenovo2,repeatmasker,repeatscount,piler,orthMCL,inparanoid,clustw,muscle,MAFFT,quickparanoid,blast2go,RAxML,phyML)&/p&&p&d) 转录组相关软件(trinity,tophat,cufflinks,RseQC,RNAseq,GOseq,MISO,RSEM,khmer,screed,trimmomatic,transDecoder,vast-tools,picard-tools,htseq,cuffdiff,edgeR,DEseq,funnet,davidgo,wego,kobas,KEGG,Amigo,go)&/p&&p&四、生信应用领域,讲这一块其实已经脱离了生信菜鸟的解释范围了,主要是想说社会上为什么需要搞生信的人才,全是因为在肿瘤筛查,产前诊断,流行病学,个性化医疗等领域有所应用,可以造福人类!!!这方面政策不确定,产业不定型,所以也这绝对是蓝海,但是也绝对不会有现成的资料直接培训人才,我们必须关注各种微信公众号,逛各种测序,医学相关论坛,紧跟业界精英的脚本,同时追着大牛的文献阅读,如此这般才能保住菜鸟的身份!&/p&
必学:1、计算机基础(linux+perl+R 或者 python+matlab) 2、生信基础知识(测序+数据库+数据格式) 3、生信研究领域(全基因组,全转录组,全外显子组,捕获目标区域测序) 4、生信应用领域(肿瘤筛查,产前诊断,流行病学,个性化医疗)分而治之:一、计…
&img src=&/99d56a16e91fc355a4ea4ef_b.jpg& data-rawwidth=&249& data-rawheight=&102& class=&content_image& width=&249&&
---------修订,补充前言,来自《机器学习》(周志华)------&br&周志华老师的《机器学习》中的第1章的绪论的1.6节应用现状中这样写到:&br&&br&&blockquote&机器学习还为许多交叉学科提供了重要的技术支撑。例如,“生物信息学”试图利用信息技术来研究生命现象和规律,而基因组计划的实施和基因药物的美好前景让人们为之心潮澎湃。生物信息学研究涉及从“生命现象”到“规律发现”的整个过程,其间必然包括数据获取、数据管理、数据分析、仿真实验等环节,而“数据分析”恰是机器学习技术的舞台,各种机器学习技术已经在这个舞台上大放异彩。&/blockquote&--------以下是正文---------&br&&br&我从一个学习者的角度来回答问题,来向各位介绍生物学家们将机器学习应用到研究生命现象和规律的尝试。先讲两篇我读过的综述,再举两个我知道的例子。&br&&b&两篇综述:&/b&&br&&br&一.&a href=&///?target=http%3A///nrg/journal/v16/n6/abs/nrg3920.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Machine learning applications in genetics and genomics :
Nature Reviews Genetics :
Nature Publishing Group&i class=&icon-external&&&/i&&/a&(这个用scihub自己下吧)&br&这篇综述的生物学背景很强。结合预测转录起始位点(TSS)这个具体的分子生物学问题介绍了机器学习的基本概念,以基因注释(Gene annotation)这个测序技术发展带来的问题为例,介绍了有指导的机器学习,无指导的机器学习以及半指导(semi-supervised)的机器学习。以转录因子结合位点的预测为例介绍了生成模型(generative model)和判别模型(discriminative model)(后者我们最熟悉的是支持向量机)。这篇综述还讲了机器学习在生物学领域应用的挑战:&br&1.结合先验的生物学知识,在模型的准确性之外提高解释性和减少复杂性。结合多种不同来源的数据,如基因表达数据(如micro-arrary,RNASeq),互作数据(蛋白互作,核酸互作,蛋白核酸互作),以及序列数据进行研究而带来的异质性(heterogeneous)问题。&br&2.label skew( 有指导的学习的样本中,两个标签的数据相差过大,比如一个预测强启动子的机器学习步骤,正样本(这个问题中为,已知是强启动子的核酸序列数据集)的数目是1711,负样本(这个问题中为,已知不是强启动子的核酸序列数据集)数目为.负样本是正样本的2000倍。3.缺失数据的处理。&br&4.选择合适的特征(feture)。&br&5.挖掘出不同来源的样本之间的关联。最典型的就是通过表达数据构建出调控网络出来。&br&&br&二.&a href=&///?target=http%3A///science/article/pii/S2192& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Machine learning for Big Data analytics in plants /science/article/pii/S2192&i class=&icon-external&&&/i&&/a&&br&这篇文章是我的老师在&i&Trends in plant science&/i&发表的综述,全面的汇总了生物学中的大数据来源与管理,以及代表性的机器学习算法和R中的包,以及机器学习在植物基因组学的应用,搞植物的同学可以参考一下,&b&这两张图对于学机器学习的同学也应该是不错的资源。&/b&&img src=&/3f5448efa43a6f53b7f912cc2d2ce409_b.png& data-rawheight=&556& data-rawwidth=&797& class=&origin_image zh-lightbox-thumb& width=&797& data-original=&/3f5448efa43a6f53b7f912cc2d2ce409_r.png&&&img src=&/aaabf4fb68419_b.png& data-rawheight=&1036& data-rawwidth=&1047& class=&origin_image zh-lightbox-thumb& width=&1047& data-original=&/aaabf4fb68419_r.png&&&img src=&/a3bdf918028_b.png& data-rawheight=&388& data-rawwidth=&797& class=&origin_image zh-lightbox-thumb& width=&797& data-original=&/a3bdf918028_r.png&&&br&&br&&b&两个应用&/b&&br&一.冷冻电镜中的图像处理(推荐大家看下coursera上面的加州理工的冷冻电镜的课程,尤其是Tomography那一节)&br&关于冷冻电镜的背景大家请看&br&&a href=&/question/& class=&internal&&为什么冷冻电镜 (Cryo-EM) 去年突然火了?是有什么技术突破吗? - 生物学&/a&&br&以及&a href=&/zhishifenzi/& class=&internal&&什么是2015年最受科学界关注的新技术? - 知识分子 - 知乎专栏&/a&&br&当然还有&a href=&///?target=http%3A///news/the-revolution-will-not-be-crystallized-a-new-method-sweeps-through-structural-biology-1.18335& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&The revolution will not be crystallized: a new method sweeps through structural biology : Nature News & Comment&i class=&icon-external&&&/i&&/a&&br&根据nature这篇新闻稿,冷冻电镜取得突破性进展主要要归功于两个人:Richard Henderson和Sjors Scheres还有他们所在的实验室:UK Medical Research Council Laboratory of Molecular Biology (LMB)。Richard Henderson和他的同事 Nigel Unwin 在1975年的一片文章(&a href=&///?target=http%3A///science/article/pii/2120& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Molecular structure determination by electron microscopy of unstained crystalline specimens&i class=&icon-external&&&/i&&/a&)中为冷冻电镜技术做出了奠基性的贡献。而新发展的直接电子探测器使得对大分子的高速动态成像成为可能。新技术带来的大数据使得Sjors Scheres有了在方法学和软件上的突破( &a href=&///?target=http%3A///science/article/pii/S1932& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Maximum-likelihood Multi-reference Refinement for Electron Microscopy Images&i class=&icon-external&&&/i&&/a&,&a href=&///?target=http%3A///science/article/pii/S2481& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&RELION: Implementation of a Bayesian approach to cryo-EM structure determination&i class=&icon-external&&&/i&&/a&,这几篇文章都是数据处理的干货,数理功底好的同学可以看看)。&br&那么,冷冻电镜中的图像处理是如何应用到机器学习的思想与方法的?下面这张图(来自&a href=&///?target=http%3A///science/article/pii/S187X& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&How cryo-EM is revolutionizing structural biology /science/article/pii/S187X&i class=&icon-external&&&/i&&/a&)&br&&img src=&/17be63bee0a96cb76510b_b.jpg& data-rawwidth=&812& data-rawheight=&405& class=&origin_image zh-lightbox-thumb& width=&812& data-original=&/17be63bee0a96cb76510b_r.jpg&&&br&展示了在新技术(B)下由冷冻电镜解析出大分子构象的流程,文章中对这张图的说明如下:(i) digital direct-electron detectors yield data of unprecedented quality and allow recording mo (ii) computer programs to realign the movie frames may correct for sample movements that are induced
and (iii) powerful classification methods lead to multiple structures from a sample mixture.当然从记录的数据中识别出我们要的大分子成的像,本身就是一个机器学习中的图像识别问题,我就不多说了。新技术的应用机器学习的亮点在体现为下面这张l两张图:&br&&img src=&/919ab997e895d2e883465_b.jpg& data-rawwidth=&320& data-rawheight=&154& class=&content_image& width=&320&&&img src=&/99a247e9b128cc9ab04c_b.jpg& data-rawwidth=&329& data-rawheight=&401& class=&content_image& width=&329&&&br&(来自&a href=&///?target=http%3A///science/article/pii/S2290& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&A Bayesian View on Cryo-EM Structure Determination&i class=&icon-external&&&/i&&/a&)&br&我们通过傅里叶变换的方法用计算机重构出粗略的结构模型然后把这个粗略的结构模型与成千上万的成像数据比对,得到每个图像之间的相对位置。通过作者改进的机器学习中常用的贝叶斯方法,将粗略的结构模型调整为新的一个更精确的结构,如此迭代以精炼我们的模型,文章提到对于核糖体的结构的解析他们迭代了25次。这整个的过程就是所谓的取“平均”了,不过是基于机器学习的方法,结合先验的知识来取得“平均”(不是很懂,写的不好,欢迎成像和图像处理方面的专家指正)&br&&br&总结下这部分有价值的参考文献:&br&1.&a href=&///?target=http%3A///science/article/pii/S187X& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&How cryo-EM is revolutionizing structural biology /science/article/pii/S187X&i class=&icon-external&&&/i&&/a&很好的综述。&br&2.&a href=&///?target=http%3A///science/article/pii/S2481& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&RELION: Implementation of a Bayesian approach to cryo-EM structure determination&i class=&icon-external&&&/i&&/a&,&a href=&///?target=http%3A///science/article/pii/S2290& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&A Bayesian View on Cryo-EM Structure Determination&i class=&icon-external&&&/i&&/a&,数学功底和图像处理功底好的大神们应该会感兴趣3.&a href=&///?target=http%3A//xrm.phys.northwestern.edu/research/pdf_papers/2000/bonnet_advancedimaging_2000.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&xrm.phys.northwestern.edu&/span&&span class=&invisible&&/research/pdf_papers/2000/bonnet_advancedimaging_2000.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&一个机器学习与模式识别在电子显微镜图像处理中应用的综述。&br&&br&二.基于机器学习的差异网络分析进行的拟南芥胁迫下的转录组研究&a href=&///?target=http%3A//www.plantcell.org/content/26/2/520.full& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Machine Learning Based Differential Network Analysis: A Study of Stress-Responsive Transcriptomes in Arabidopsis&i class=&icon-external&&&/i&&/a&&br&这篇文章是我的老师做的。这篇文章的亮点在于&br&1.在构建共表达网络的时候采用随机森林的方法把未标签的样本中的“noninformative” genes(不表达,持续表达,与胁迫无关的基因)过滤掉了,减少了共表达网络构建的无用信息。&br&2.与传统的差异网络表达分析不同,在预测与胁迫相关基因时,挑选了网络多个特征进行胁迫先关基因的差异表达基因分析,&br&3.文章中根据P=0.05作为阈值(饱受诟病的p=0.05....),从统计学意义上只有60%的候选基因可以作为胁迫相关的基因,然而剩下的40%的基因从生物学角度来讲依然可以转录,甚至与胁迫相关。所以文章接下来做了Gene Set Enrichment Analysis 来从一已知数据库中挖掘出预测出来的基因的生物学功能看其是否与胁迫相关,并且区别了不同的胁迫下,对所有胁迫都响应的基因(Stress-Shared)和只对某一胁迫响应的基因(Stress-Specific Gene)&br&&img src=&/23c6b09c8346cbb6cd4b812d_b.png& data-rawwidth=&440& data-rawheight=&435& class=&origin_image zh-lightbox-thumb& width=&440& data-original=&/23c6b09c8346cbb6cd4b812d_r.png&&&img src=&/e1f6e4edf_b.png& data-rawwidth=&440& data-rawheight=&390& class=&origin_image zh-lightbox-thumb& width=&440& data-original=&/e1f6e4edf_r.png&&&br&总之,这篇文章对于机器学习比较熟悉的人来说,是他们了解生物学问题的窗口,而对于生物学背景较强的人来说,也是他们在机器学习方法应用于具体的生物问题上的一个进阶。&br&&b&总结和感想&/b&&br&所谓机器学习就是一种智能的数据挖掘技术,它依据先验的知识建立预测模型来识别大数据中的有用信息。所以只要有大数据和前期积累的先验知识,就有机器学习方法用武之地。说几句与题目无关的话,个人感觉其实这个题目也可以回答学生物的人多学点基础的数学和物理知识有用吗?我觉得是有用的,比如你想搞清楚冷冻电镜成像的原理,你必须懂点物理知识(干涉衍射之类的)还得懂点数学物理方法(如傅里叶变换与它的逆)。当然想要进行机器学习,当然得有统计学和数据的可视化方法的数学基础和计算机编程基础(Python或者R)了。学科之间其实是可以互通有无的,然而这点常常被目光短浅的一些人忽略了,希望关注这个问题的人可以能多从这个角度来学习,思考问题,解决问题。&br&&br&PS:引用老师的图片已获得许可。这是我们实验室的网站&a href=&///?target=http%3A//bioinfo.& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&bioinfo.&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&欢迎大家了解我们实验室的工作。&br&----------修改了排版和图片的bug-------------&br&关于生物医学图像处理,还可以参看&a href=&///?target=http%3A//mp./s%3F__biz%3DMjM5MTQzNzU2NA%3D%3D%26mid%3Didx%3D1%26sn%3D70fd14e59fa%26scene%3D0%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&徐葳:生物医学影像处理、分布式系统与数据共享平台&i class=&icon-external&&&/i&&/a&&br&------------------20163.27补充--------------&br&有对生物信息和大数据以及机器学习结合感兴趣的同学可以联系我的老师,第十二批国家“千人计划”青年人才(&a href=&///?target=http%3A//www.1000plan.org/qrjh/article/64754& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&关于公布第十二批国家“千人计划”青年人才、 创业人才入选人员名单的公告&i class=&icon-external&&&/i&&/a&)马闯教授(&a href=&///?target=http%3A///show.php%3Farticleid%3D6157& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&西北农林科技大学生命学院&i class=&icon-external&&&/i&&/a&)
---------修订,补充前言,来自《机器学习》(周志华)------ 周志华老师的《机器学习》中的第1章的绪论的1.6节应用现状中这样写到: 机器学习还为许多交叉学科提供了重要的技术支撑。例如,“生物信息学”试图利用信息技术来研究生命现象和规律,…
难,真的很难。一句话来讲,准确性和效率这一对矛盾几乎永远无解。以下不求严谨,但求过瘾。&br&&br&先扯句跑题的,要说准确的蛋白质三维结构,别说预测了,我们现在连观测都很难做到准确啊,我们现在普遍作为参考的“准确的”蛋白质结构,不管是X射线衍射还是核磁共振,用的可都是蛋白质晶体啊,摸着良心说,晶体的结构真的是准确的蛋白质结构吗?从某种角度说,我们现在根本连确定准确的参考标准的边都还没摸到,就别提准确预测了。。。。&br&&br&但是,木办法,我们还是想做,抛开木有参考标准不谈,我们还是想来预测预测看,好,我们来看看预测有多难。&br&&br&首先,题主你问说,因为热力学第二定律,氢键,疏水作用这些因素太难用相应的算法加以刻画吗?这个嘛,这些因素按照现有的理论,其实已经相对容易的可以用算法加以刻画了,但是,这些理论难道就够了吗?拿衣服啊。。。简单说,这些理论本身就是对客观世界描述的一些经过检验的假设,其中有太多的估算和例外因素导致这些理论本身木有那么准确,再来把这些误差叠加以后,这个简直可就没边了啊。。。。&br&&br&看起来,题主更倾向于的是用“物理”的方法来模拟蛋白质三维结构吧,其实我也觉得这样吼啊,符合直觉,符合逻辑,make sense,但是,拿衣服啊。。。从实际应用的角度来说,大概分两种方式吧,一个是静态的蛋白质结构搜索,另一个就是分子动力学模拟。MD这个东西我比较熟悉,放在后边讲,先说说我所了解的静态的蛋白质结构搜索吧。&br&&br&前边有好些回答也提到了,蛋白质结构这个东西它的可能性太多太多太多了啊。。。不仅是氨基酸与氨基酸之间的肽键,每一个氨基酸内的backbone,甚至每一个氨基酸的sidechain,这里边几乎所有的键,都他妈可以旋转啊,一个蛋白质,少说有几百个键吧,每一个键,我们说少一点,平均就算有两个可能的二面角吧,排列组合一下这就多少可能性了,我是懒得去算了,反正肯定是天文数字了,要在这天文数字一般的可能的结构当中找到一个全局最优,当然难啦!静态的搜索算法怎么来解决这个问题呢,大概就是首先忽略一些可以暂时忽略的自由度,给每一个sidechain确定一些可能的conformation,计算不同conformation的势能,然后搜索的时候嘛大概就是采取不同的算法,一般都是采取heuristic的方法,不追求遍历,而是在已知的条件下找到一个尽可能优化的解。当然,这种方法的问题也很多啦,比如静态搜索本身就是个比较大的问题,再加上计算当中的各种估算和误差,要做到准确,真的很难。&br&&br&接下来是分子动力学的方法,MD本身是经典力学确定论的一个方法,加上能够模拟原子之间的相互作用以及运动,看起来很靠谱有木有,可是实际使用当中也有相当多的问题。&br&&br&首先从逻辑上讲,原子间所产生的相互作用,都是在量子层面上发生的,那么在量子层面上发生的事件,你用原子层面的模型来模拟,合理吗?当然不合理啊,可是,木办法啊。。。QM真的跑不动啊。。。木办法,我们就是想知道,所以,木办法也要强上,好吧,于是用各种物理理论来模拟呗,我们从最最最基本的说起,原子,原子是啥,粗疏的说,质子和电子吧,可是,模拟的时候原子咋处理,就他妈是个固定半径的球啊!原子已经哭晕在厕所了。。。。摸着良心说,两个原子靠近的时候你就用两个带有一些参数的硬球来模拟,你相信这东西能准么!你别说,虽然有&b&误差&/b&,其实大概还算准啦。。。再来,范德华力和静电力。范德华力怎么算,来看的估计都知道吧,我就懒得打公式了,公式里边有常数吧,常数真的是恒常不变吗?我又要讲了,拿衣服啊。。。但是,真的以为对于每一个原子对的每一帧,我们都会拿公式算一遍么,那得算到哪年去啊,要效率!效率怎么来,常数表,反正QM我们多少能算一些,算完之后在误差范围之内就把平均值定为常数好了,但是,还是估计值,当然有&b&误差&/b&。。。说完范德华力,还有静电力,静电力公式我也懒得打了,麻麻呀,里面怎么也有那么多常数啊,照方抓药,估算常数,我们的好朋友&b&误差&/b&又出现了。。。可是别急,静电力计算当中最重要的是啥?每个原子的局部电荷啊!局部电荷是固定不变的吗?当然不是啊!要每一帧算一遍局部电荷,这个模拟还跑得完么?当然跑不完啊!别说每一帧算一遍了,就算只算一遍局部电荷,你想用QM算蛋白质,玩儿去。。。所以咋办,估算呗,先弄一个电荷模型来模拟QM的结果,然后给整个蛋白质算一遍局部电荷,算完之后就指着这一套局部电荷跑模拟去吧,反正差也差不了多少,但是,&b&误差&/b&嘛总归还是有的。。。这两个作用力可以算是基本中的基本了吧,各家分子动力学软件的力场各不相同,但是万变不离其宗,这些都有那么多误差,再高科技的方法我也就不说了,说多了都是泪,反正都是估算呗。。。&br&&br&还有一样东西因为非常重要,不得不提一下,水分子。水分子为啥重要?因为你所有的蛋白质折叠也好,反应也好,不能在真空里进行啊!所以光是水分子模拟这个玩意儿就差不多几代科学家了吧,到现在有各种模型,可以算是相当准确了,但是还是逃不过估算和&b&误差。&/b&可是别急,更蛋疼的是还没来呢,我们来想一想你要模拟一个蛋白质的折叠,计算的时候你得把这个蛋白质放在一个足够大的装满水的容器里吧,不然一会儿动着动着碰到边了算怎么回事呢,赶上水分子又小排得又紧,你要给这个容器装满水,可是要塞满一个盒子可是要好多水分子的啊,初始模型加上水啊各种的一起一看,尼玛这个盒子里几万几十万个原子都是水啊,真正那个蛋白质也就几千个原子啊,可是没辙啊,溶剂你当然也得一起模拟啊,你说你哭不哭晕在厕所。。。于是又该想辙了,咋办呢,凑合凑合还是估算吧,于是弄出来一个implicit water model,简单说就是能够大概估计一个分子的solvation energy,但是具体氢键神马的,全没有!后来说这也不行啊,于是又想了个辙,里蛋白质分子近的地方,我们用单独的水分子模型模拟,远的我们还是就用implicit model得了吧。。。不管怎么样,这里面还是有大量的估算,大量的&b&误差&/b&空间。&br&&br&&b&以上那么多,只是为了说明一个问题,为了追求效率我们牺牲了多少准确性&/b&。那么显而易见的问题又来了,我们为什么如此追求效率呢,是不是显得太急功近利了呢?当然不是啊!!!都是被逼的啊!!!之前也讲了,因为蛋白质分子内的自由度太多,导致搜索空间是一个天文数字,所以当然要效率啦。&br&&br&我猜聪明的题主这个时候一定会问啦,我们既然说的是用物理学的力量来模拟分子的运动,在各种分子间作用力的作用下,它们一定是朝着势能更低的方向运动,举这样conformational search space之大来证明找到准确结构之难其实是答非所问的,这样的说法对也不多。确实这两者不完全是一个事,但是结构可能性之多间接地导致另一个问题,折叠的&b&时间尺度&/b&问题。简单说,现在所有分子动力模拟软件的模拟能力依然是非常有限的,我们以一个或者两个飞秒为一帧,使用all-atom和explicit water model模拟一个一两百个氨基酸的蛋白质,不管是超算还是GPU,一天的时间差不多能跑个100 ns应该就算是很不错了,因为在并行运算时候的scaling还是受软件本身算法的限制,计算能力第一不是按CPU数量增加线性增加,第二在达到一定CPU数量以后,计算能力无法继续增长。问题是,实验条件下,一个蛋白质的折叠是在多大数量级的时间单位内发生的?微秒,还是毫秒,甚至是秒?现在的计算条件下,通过使用implicit water model,simulated annealing,umbrella sampling等等各种加速模拟的方法(没错,每一种都会带来&b&误差&/b&),计算机差不多能够模拟到微秒级别的反应,或者运气好的话,折叠,但是你想使用微秒级别的模型来模拟一些毫秒级别的反应和折叠,显然是不可能的吧。。。。。。&br&&br&以上,差不多就是我所了解的,为什么使用物理的方法模拟和预测蛋白质三维结构那么难,但是有限的成功的案例还是有的,选取以下一些特性的蛋白质,比如结构非常稳定,折叠发生的非常快,小,这样还是完全有可能通过分子动力学模拟来预测三维结构的,当然,如果真的成功也是非常值得喜大普奔的。&br&&br&再来简单说下“通过海量已知蛋白结晶晶体结构来进行机器学习”这种题主人没什么追求的做法吧。这种做法没追求么?其实我是同意的,物理的方法当然吼啊,符合直觉,符合逻辑,make sense,但是,拿衣服啊。。。怎么说呢,自然科学,如果能用数学方法解释,当然好,但是,作为一种自然规律,归根结底是通过总结得出的,所以对于自然的观察和总结,到现在依然是非常非常重要的。假设说一种观测到的自然现象,通过现有的自然科学理论无法解释,在排除观测误差的前提下,能说是自然现象出错了吗?不能吧,很可能观测到的这个现象就是指导自然科学前进的方向。蛋白质结构也是一样,海量的蛋白质结晶晶体结构本身给我们的就是一个非常好的参考数据,告诉我们什么是真实存在的(当然不排除结晶对于蛋白质结构产生的影响),因此我依然认为及其学习的方法对于预测蛋白质结构是个好方法。毕竟,比方说一段氨基酸序列,如果找到有几十几百个相同或者高度相似的序列,他们的结构都是alpha螺旋,你说这一段也是alpha螺旋,我觉得是非常合理的。以及,在实际使用当中,homology modeling相比从蛋白质序列模拟出的结构来说,我一定更相信前者的结果。&br&&br&但是,不得不说的是,任何一个蛋白质结构的预测,都几乎不可能是由某一种方法独立完成的,更现实的过程往往是先建立一个或者几个homology model,或者通过静态搜索找到一个或者几个大概的的三维模型,然后以这些模型为起点再来跑一些MD计算,做一些局部的优化,最终得到相对准确的模型。以我们现在(相对来说)极其有限的计算能力,我们已经有了对于蛋白质三维结构预测的一些相对准确的结构,而这些事实上不那么准确的结果,事实上已经帮助我们大大提高了对于许多蛋白质结构的认识,所以,前途是光明的,道路是曲折的,我个人还是相信计算化学在研究当中会有越来越重要的作用的。
难,真的很难。一句话来讲,准确性和效率这一对矛盾几乎永远无解。以下不求严谨,但求过瘾。 先扯句跑题的,要说准确的蛋白质三维结构,别说预测了,我们现在连观测都很难做到准确啊,我们现在普遍作为参考的“准确的”蛋白质结构,不管是X射线衍射还是核磁…
回应一下评论:&br&1. 一位知友说我“戳穿了高科技的幌子”,这个不是。虽然我拿磨豆腐举例子,但并不妨碍基因测序确实是新兴技术。2-3年前,我们还不能想像这一技术将会给医学和人类健康带来多么深刻的变革。而现在,几乎每个人都在谈论它。10年前,我认为”21世纪是生命科学的世纪“这句话太扯淡。现在我真切的感受到变革正在到来。&br&2.一位知友评论说,卖基因检测靠忽悠。这个我也不太同意。诚然,基因这个词太热,以至于卖化妆品卖保健品卖传销的都打着这个旗号。更有一批基因检测公司拿着并不十分确凿的突变信息宣称可以预测生老病死。但是正如医学发展到了今天,微信朋友圈仍然充斥着各种养生诀窍,张悟本之流仍然可以靠把绿豆吹上天一样,任何时候,总有人不愿意听你科学的解释,而愿意相信简单、粗暴、一劳永逸的各类“神方”,时代在变,科学在进步,新科技名词层出不穷,但是人的本性没有变。短期之内,靠忽悠卖基因检测可能一时繁荣,长远来看,正如同越来越多人相信科学健身,也会有更多人接受基因检测真实的样子。并且,随着基因组数据的爆炸式累积,我们正在逼近基因世界与人类健康的真相,也会越来越能够真正意义上地帮助到人们。毕竟,在患病人群,尤其是罕见病患者中,基因检测的作用已经被毫无疑问地认可了。&br&&br&欢迎探讨。&br&&br&——原文分界线——&br&谢@袁霖 邀。&br&&br&基因测序公司有盈利吗?如果有,为何我至今吃方便面都不敢加肠?&br&&img src=&/d3c2cb5f0e_b.jpg& data-rawwidth=&300& data-rawheight=&300& class=&content_image& width=&300&&&br&&br&好吧,下面是讲故事时间。&br&从前有个小村庄,村里的男女老少都爱吃豆腐,所以家家户户的小媳妇们都要做豆腐。&br&&br&然而,做豆腐是一件工序复杂的事情,要挑豆子、洗豆子、泡豆子、磨豆浆、煮豆浆、点卤水,等等,非常费时间费力气,对于没经验的小媳妇,又往往做不成,或者勉强成功了但是味道却不讨喜。(为此常有小媳妇跟老爷们吵架的,一个说你做的豆腐咋没隔壁李阿花家的好吃捏?一个摔筷子说那你找李阿花啊!我怎么这么命苦,呜呜呜。。。)还有一个问题就是每次做豆腐都会做出很大一锅,又不耐存放,所以家庭自制豆腐显然不是一件划算的事情——更别提小媳妇自己家,可能还没有做豆腐的那些场地和工具,时不时要去邻居家借。
&br&&br&慢慢地,小媳妇们发现,村口李西施每次都把豆腐做得又水又软,于是陆陆续续的,小媳妇们就跟李西施商量啦:“李西施,你明天做豆腐的时候,能帮俺也做点么?俺给你五个铜板”&br&李西施西施一想,豆子才值几个钱?做成豆腐能卖五个铜板,而且自己反正天天要做豆腐的,多做点也不费事啊,就同意了。&br&&br&小媳妇们之间的消息总是流通得最快,很快全村小媳妇都来找李西施做豆腐。李西施一琢磨,这是门好生意。得,找朱员外家租个铺面,找牛铁匠家打套工具,找季老头家定多点卤水,再让雅秀才写块匾——豆腐西施。这生意就算开张了。&br&&br&一开始生意确实不错,全村都在李西施这里买豆腐。除了买豆子卤水的本钱,一天能赚上一吊钱——这可是了不得的大事啊,早知道,李西施的夫家是在大户人家做工,一个月也才两钱银子。忙不过来的时候,李西施甚至雇了三五个手脚麻利的姑娘帮手。&br&&br&可是好景不长,先是村尾的王西施家也打起豆腐西施的名号卖起了豆腐,再是李西施家的小伙计出师后嫌李西施给的工钱太少,跳槽去了王西施家。不得已,李西施王西施打起了价格战,硬生生把豆腐卖到了原来一半的价格。李西施叫苦不迭。&br&&br&牛铁匠一口气拿到了王西施三套工具的订单,走上了“豆腐设备专家”的发展道路,不仅把工具降到一半价钱,更是研发出豆腐、豆腐干、豆腐皮、豆腐泡等全套设备,在王西施那里一上市就收到追捧。面对老客户们“咋王西施那有你这都没有呢?”的质疑,李西施咬牙借了钱又去牛铁匠那里定了新设备——豆腐卖不上价,客人被王西施分走一半,还要投入设备更新,李西施只能咬牙坚持。&br&&br&可是这还不是最坏的,陈村长接到了几起因为天气太热,小媳妇们买回去的豆腐吃坏了肚子的投诉,于是下令全村的豆腐商贩停业整顿,由鱼太医、厦长老、牛铁匠、朱员外等共同拟定了《村里关于豆腐摊点经营规范的若干意见》、《豆腐生产设备质量认证》、《豆腐从业人员上岗规范资格评审》、《豆腐经营场所卫生许可》等管理规定,满足要求后李西施们才可继续经营。面对这些变化,李西施很想撒手不干了,但是从牛铁匠那里赊账买工具的钱还没有还完,不接着卖豆腐,欠的债要怎么还呢?&br&&br&于是李西施只好又借了一笔银子,按照新标准改造铺面,给伙计们做上岗证、健康证,找牛铁匠再买新的、符合《豆腐生产设备质量认证》的工具……李西施被压得喘不过气,请了曾经替朱员外管庄子的佘账房帮自己打理铺子,请了表妹“小西施”做形象代言人,自己则专心在作坊管豆腐。&br&&br&后来,听说佘账房不是真心帮李西施的,而是趁月黑风高的时候,卷走了银子跑路了……&br&&br&后来的后来,听说小西施因为年纪小说话冲得罪人,还老是搔首弄姿的,气走了好多原来常在李西施这里买豆腐的小媳妇儿……&br&&br&后来的后来,听说牛铁匠又开发了新产品,小媳妇们买回去,把豆子放进去就能变成想要的豆制品,口味还能自个儿调节,价格不贵还不占地儿……&br&&br&再后来,听说买豆腐的越来越少,李西施欠的钱却越来越多,眼看要还不上了……&br&&br&再再后来,听说原本老实本分的丈夫竟然跟小西施好上了,把李西施气了个人仰马翻……&br&&br&也有人说,是李西施甩了老实本分的丈夫,跟京城来的金大鳄去了北方。这个金大鳄也不知是什么来头,他嘴里说的“资本运作”反正村里人是不怎么懂的。&br&&br&李西施的走,其实没有给村里带来太多改变,小媳妇们都买了牛铁匠的家用豆腐机,不必经常光顾豆腐坊。门庭冷落,“豆腐西施&的招牌也不再鲜亮。清晨,上街买菜的小媳妇们依旧步履匆匆,却再为了一块新鲜水嫩的豆腐而停下。&br&&br&再再再后来,听说李西施在京城已经不用李西施的这样土气的名字了,而是一个村里人都没听说过也记不清的“奉天承运天公造物沉鱼落雁柔情似水洁白如玉八十二代李氏豆腐传人”。金大鳄还给李西施介绍了钱大鳄、梓大鳄、古大鳄等京城四少,甚至安排她去拜见了皇帝。李西施一通“豆腐养生论”、“豆腐强国论”、“豆腐产业论”把皇帝说得龙心大悦,当场赏赐了“御用豆腐”匾额一块。&br&&br&再再再后来,听说“李西施”的名字已经价值连城,京城的百姓通宵排队,拿大把银票换“李西施”票号的份子……&br&&br&再再再后来的事情,村里的人就不知道了,偶尔的偶尔,村里人也会对异乡来的客人说,你看,这里就是李西施最早开豆腐坊的地方,那个牌匾还在呐……&br&&br&很多年以后,李西施成为了传奇里的一个名字,关于她的故事,有着几百个版本。也有不少人曾经问过李西施,成功的秘诀是什么,有时候她会高谈阔论一番豆腐产业的前世今生,有时候却是沉默不语。。。&br&&br&&br&&br&好啦。故事纯属瞎编,不要对号入座哦。其实我想说的是,如果只是从事“基因测序”,那么本质上,这个行业和做豆腐、造纸、富士康没有太多区别,是“生产型”企业,原料是各种样本+各委托人的研究想法,经过测序仪等生产设备,再加上信息分析等“劳动密集型”人工,最终的产物是“数据”和“研究成果”。这种模式决定了他的盈利能力很低——一方面,需要不断投入昂贵的仪器设备(否则竞争对手的新设备测序能力分分钟让你失去技术优势)。另一方面,行业的准入门槛并不高,处于完全竞争市场。还有回款周期长、政策风险高、自主程度低、自动化能力弱等等问题。&br&&br&要想提升盈利能力,单纯依靠测序盈利的公司必然需要转型:要么打通产业链(从测序仪做起),要么延伸产品(医学服务、健康服务),要么做品牌营销(学锤子,卖情怀)。当然,这些比起金融市场的力量,都是毛毛雨。你懂的。&br&&br&————结尾打个广告————&br&下面是我的微信,承接同行交流、患者咨询、业务洽谈、转载申请、饭局邀约、土豪包养:&br&&img src=&/eac6dfc482d829ff5d52f4594701ddca_b.jpg& data-rawwidth=&512& data-rawheight=&512& class=&origin_image zh-lightbox-thumb& width=&512& data-original=&/eac6dfc482d829ff5d52f4594701ddca_r.jpg&&
回应一下评论: 1. 一位知友说我“戳穿了高科技的幌子”,这个不是。虽然我拿磨豆腐举例子,但并不妨碍基因测序确实是新兴技术。2-3年前,我们还不能想像这一技术将会给医学和人类健康带来多么深刻的变革。而现在,几乎每个人都在谈论它。10年前,我认为”2…
谢邀。我自己做的东西主要局限在癌症分子数据,所以尽我所能把机器学习在癌症方面的研究总结一下。&br&&br&1、对癌症做subtyping&br&背景:cancer is a set of heteorogeneous diseases. 临床上把癌症分成各个亚型(subtyping)是为了达到更好的治疗效果,提高病人的生存几率(一般看五年存活率)。在人们没有完整的观察过cancer genomics之前,没人知道原来各个patient tumor之间的差别如此大。考虑到分子是表型的基础,人们便考虑把在差别如此大的各个肿瘤划分出一些类型,使得类型内的tumor相似性高而类型之间的相似性低。这样做的好处很多,最直接的就是对那些临床分型没啥用的肿瘤给予治疗支持。&br&机器学习的主要应用:&br&我主要看过的文章是TCGA对各个肿瘤的分子数据分析,共性便是利用分子数据做subtyping。机器学习的非监督学习在这里起到巨大作用。一般来说,会按照某一种数据类型比如基因表达数据来做subtyping,也有一些是会将不同数据类型比如表达、甲基化、拷贝数变异等整合起来再做subtyping。因此这里还涉及到how to combine heteorogeneous data的机器学习问题。因此也可以说cancer genomics的发展推动了机器学习的发展。&br&&br&2、预测病人phenotype&br&背景:近五六年癌症分子数据研究的中心应该是TCGA(The Cancer Genome Atlas),现在这个项目已经完成了所有病人的测序和数据分析,其生物信息学研究机构GDAC正在抓紧准备发表剩下的文章。TCGA推动了人们对cancer genomics认识的大幅度提高,并且继续引领这方面的研究:他们在考虑如何大规模的将分子数据真正应用到临床上!这将是一次颠覆传统临床医疗的行动,主要在于规模之大、预期目标实现的日子很近。从此,癌症的临床医疗将不会是一门玄学(医生以猜测为主),将在分子数据的指导下完成治疗。期待癌症病人将会大大收益。&br&机器学习的主要应用:&br&机器学习的监督学习在这里仍然会有广阔的应用前景。根据已知病人的phenotype和genomic data,构建预测模型,在新的病人上做好预测。癌症治疗的一大领域靶向治疗和这个的思路很像。比方说,乳腺癌中HER2高表达时ERBB2靶位药的标志物,从而我们构建出(ERBB2靶向药有效果,HER2高表达+ERBB2突变)这样一个模型,之后新的病人如果也观察到HER2高表达且ERBB2突变,我们就能预测这一靶向药有效果。说实话我突然忘了这个超级有名的药的名字了,曲妥珠单抗?&br&&br&3、发现表型相关的癌症分子机制&br&背景:cancer genomics中的各种alteration一般不太可能是孤立的,因为生物系统中的各个元件都与其他元件共同作用行使功能。生物分子网络的概念就是以此为基础。早期有人用分子网络来预测蛋白质的功能,寻找网络上出现变异的模块(一组互相连接且同时在case-ctrl出现巨大变化的分子节点)等。现在,人们打算用个体癌症分子网络来描述癌症恶化的程度。&br&机器学习的主要应用:&br&发挥你的想象吧,网络本就非常适合做机器学习,比如social network方面的各种研究。现在人们对癌症的分子数据领悟到的东西非常多,用网络来做癌症模型,推断癌症的各种过程的机制,就像早期人们利用网络来研究细胞状态等,这可能会给我们带来系统性的认知,人们对癌症的理解将会提升一个层次。&br&&br&4、基本数据处理和分析&br&人类观察微观世界一般都采取间接的方式。我们在观察细胞分子这个层次时,只能通过对间接观察到的现象进行建模,从而推断分子所处的状态等。当各种测序技术突飞猛进的发展时,总会带来各种新的挑战,尤其是机器学习的建模或者算法设计。当人们有技术去探测基因表达、突变、拷贝数变异、蛋白质水平等,人们也同样需要合适的方法来measure各种层次的活跃程度。未来人们能测量的东西会更多,所以好好期待吧!&br&&br&临时想到这么多,能想起来的话继续更新。
谢邀。我自己做的东西主要局限在癌症分子数据,所以尽我所能把机器学习在癌症方面的研究总结一下。 1、对癌症做subtyping 背景:cancer is a set of heteorogeneous diseases. 临床上把癌症分成各个亚型(subtyping)是为了达到更好的治疗效果,提高病人的…
&b&更新4/25/2015:刚刚从AACR Annual Meeting归来,会上见到了无数MD Anderson的poster,有很多研究质量都相当高,感觉MD Anderson的基础研究前途非常光明。关于&/b&&b&科研和学术氛围的更新请看最后。&/b&&br&&br&&br&&b&更新2 关于语言:囧我真没想到语言风格可以在评论里引起骂战。我当时打这个答案是在做实验休息时间打的,于是就选择了中英夹杂这种我最习惯的表达方式(因为有很多东西特别是生物/学术相关的名词我没有学过汉语)。在更新后半部分的时候我努力减少使用英文的数量,但学校/系名称和一些学术名词我不知道怎么翻译所以还是留了一些英文,请见谅。&/b&&br&&br&背景:美本狗,去年在MDACC做了3个月summer research,今年暑假拿到return offer再回MDACC把自己的project做完。期间informational interview了若干个PI,shadow了若干个医生,volunteer了若干个小时,对这边的了解还是比较全面的我想。&br&&br&先加一张去年夏天和MD Anderson President的(大)合影镇楼&br&(风骚的橙领带)&br&&img src=&/4bb4d1a86aebe_b.jpg& data-rawwidth=&640& data-rawheight=&427& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/4bb4d1a86aebe_r.jpg&&&br&&br&(1)临床水平&br&就癌症治疗来说,MD Anderson是当之无愧的flagship,完全符合其美国(或者全世界)Top 2 Cancer Hospital的盛名。每年有10万+患者前来就诊(大多数还是世界其他医院解决不了的疑难病人),超过1000项clinical trial,各种fancy的疗法和牛逼的医生们。我们牛逼霸气的口号就叫“make cancer history”哈哈。可惜的是在连续三年排名全美top 1 cancer hospital之后,今年MDACC被永远的revelry hospital Sloan Kettering超过只能屈居第二了。 USNEWS出排名的那天整间医院从清洁工到president都面色铁青= = 不过我们还可以鄙视一下后面苦苦追赶的Mayo, MGH们LOL&br&&br&(插播一个趣事:中东某国家王子癌症被MD Anderson治好后大戏,捐了数百millian让MD Anderson建一个新的personalized medicine institute,前提是必须用他的全名命名。。。他的全名是Sheikh Khalifa Bin Zayed Al Nahyan 。。。)&br&&br&&br&(2)科研水平, pros and cons&br&平心而论,MDACC在癌症研究领域不是最顶尖的。东岸的MIT, Sloan Kettering(怎么又是你), Dana Farber, Yale, Hopkins,西岸的UCSF, Stanford算Tier 1的话,MD Anderson和UTSW, Duke, WashU,Baylor, Penn, UCSD这几个应该是下面的Tier 2。小谈一下pros and cons:&br&&br&Cons&br&(1)&b&起步晚&/b&,归根结底是“底蕴”的问题。MD Anderson 1971年才成立,相比前面那些动不动就一两百年历史的university们简直弱爆了。在basic science方面是近10-15年才开始花大力气发展的(因为治疗癌症名气大了,赚的钱多的,有闲钱投到烧钱的research里了lol),能做到现在这个水平已经非常厉害了。&br&(2)&b&鱼龙混杂&/b&嘛。。。就是MD Anderson做basic science的人实在太多,光PI就100人都不止,其中有不少PI是在MD Anderson basic science水平还不怎么高的时候拿到tenure, 现在的水平已经和MD Anderson的水平不太符合,做不出来什么高质量的工作。想想人家MIT Whitehead Institute,规模很小只有10几个PI,但各个都是领域奠基人的水准…………&br&&br&Pros&br&MD Anderson现在在research方面的水平还是蒸蒸日上的,发展势头非常迅猛,个人感觉按现在的趋势发展下去过不了多久就能到Tier1的水准了。因为,&br&(1)&b&有钱+能挖人&/b&。这个太重要了啊啊啊。MD Anderson每年有N多治病的profit都投到了自己的research上面,德州还有逆天的CPRIT,每年成million级别给德州的cancer research提供funding。MD Anderson先后花大价钱挖来了Cancer immunotherapy的奠基人以及最大的大牛&i&&b&&u&James Allison&/u&&/b&&/i& (我去年summer的MIT台湾室友就被分到了Allison实验室,羡慕嫉妒恨TAT),英国Cancer Genomics最牛的Andy Futreal。不仅如此,MD Anderson在最近几年还招了一大批非常优秀的Assistant Professor们。比如Nichlas Given几乎开创了single cell sequencing这个领域,我们老板是当年被MD Anderson用大价钱从UCSD, UTSW的offer堆里面抢过来,现在成了炙手可热的rising star。有这批大牛和rising star,MD Anderson的发展势头想压都压不住&br&(2)&b&选方向的vision极好&/b&。新President Ron Depinho(也是从Harvard挖来的大牛)上台之后在癌症研究最有前途的领域:immunotherapy和 cancer genomics投入了很多。Immunotherapy有James Allison和GSK的战略合作之后进展飞快,俨然要成为美国的龙头老大,cancer genomics这块也有很多大突破。相比之下,传统的biochemistry系因为做的太烂被解散了,molecular carcinogenisis系也被扔到smithville的树林里去了(虽然MD Anderson的cancer epigenetics也是全美顶尖囧)&br&(3)&b&Clinical 资源丰富&/b&。在cancer research领域,有足够的病人是非常宝贵的战略资源。有N多现在癌症研究用的cell line都是从MD Anderson获取的,比如MDA-MB-237, MDA-MB-465....获取病人sample切片做个组化什么的实在太容易,找biomarker病人血液样本应有尽有,研究出targeted therapy新药只要能过了pre-phase就能用最快的速度推到phase I。而且MD Anderson地处Texas Medical Center,世界上最大的medical conplex,里面有上百家医院(还有Baylor,Houston Methodist 这种美国顶尖水平的)比如我去年夏天做的第一个project就是和旁边Methodist hospital一个nano-technology的组验证一个circulating cancer biomarker的机理。如果你想做的东西是transnational cancer research,估计全美除了sloan kettering没有比MD Anderson更合适的地方了。&br&&br&(3)&b&科研和学术氛围&/b&&br&总体来言MDACC的学术氛围还是非常浓厚的。大多数实验室都十分productive,大家都很上进努力。特别提一下下面三点:&br&1. 高质量的seminar(讲座?)和invited speaker&br&seminar和invited speaker的质量是衡量一个research institute水平的重要标准。原因很简单,只有水平高的地方才有大神愿意过来开讲座,而且有业界大牛愿意过来也可以给研究者们开阔眼界、给PI们提供合作机会或者新的insight。&br&MD Anderson几乎每天都有seminar举办,我们lab有人开玩笑说如果下点功夫,完全可以中午不用带饭,天天中午去Onstead(医院主楼几个大演讲厅之一)蹭seminar的free food就可以lol。更重要的是,MD Anderson的讲座不仅数量多,质量也非常之高,大多数要么是领域大牛,要么是冉冉升起的学术新星。其中很多人的演讲能力非常强,能用非常浅显易懂的语言把顶尖成果用像我这种半桶水水平的人能听懂的语言讲出来,效果比从读一篇篇figure繁多的paper强很多。我去年呆的两个月时间里听了10余场讲座,对很多领域有了更深的了解。&br&&br&2.博后和博士生的比例&br&MD Anderson是一个博后比例非常高的地方。大多数实验室的博后:博士生比例可能会有3:1甚至更高。比如我在的组里有6个博后,1个博士生和1个本科的技术员。。。这其实也是一把双刃剑,坏的一面是博士生互相的联系会变少,毕竟一届就这个几十个,打散到整个MD Anderson的无数lab里。而且有些老板可能会不太有耐心,希望博士生像博后一样在短时间内出成果。好的一面是,博士生在5年的training期间得到的帮助会很多,因为周围的人都很有经验,而且一个lab里只有一个博士生的时候会有众星捧月的感觉哈哈。不过这个和每个lab的气氛和老板的性格也息息相关了。&br&&br&3. 中国人数量&br&刚来MD Anderson的时候我着实被这里中国人的数量惊吓到了。几乎每个实验室都有一个或几个中国人,还有不少实验室的主力是中国人(特别是中国老板的实验室),比如我们隔壁一个华人PI(被MD Anderson从Yale挖来当系主任,DNA repair方向的大牛)实验室里有10多个中国人,唯一不是中国人的是一个本科毕业的技术员(估计是被雇来帮这群中国博后练英语的囧)整个MD Anderson的中国研究人员数量估计会破千。具体原因主要是现任Vice President for Basic Research是一个台湾人Mien-Chie Hung,Chair for Basic Research是一个中国人Dihua Yu,这两个人和其他系主任级别的华人在招新AP的时候吸纳了很多中国人,而这些中国年轻老板组建实验室的时候也大量选择了踏实能干的中国博后(有很多是中国读完博士拿J1签证来安德森的)。&br&中国人多这一点给新人带来了不同的社交选择。你可以选择进入一个中国老板的实验室,然后过着几乎不用说英语的生活,也可以选择去中国人少的组。完全是个人选择咯&br&&br&4. 关于Grad School&br&MD Anderson自家是不招PhD student的,而是通过UT Houston的GSBS项目招人的。GSBS的学生可以去MD Anderson或者UT Houston自由做rotation+选择thesis adviser(大多数人当然选择MD Anderson啦lol,UT Houston的基础研究水平实在一般)。有兴趣来MD Anderson读博的朋友欢迎来申请GSBS哦
更新4/25/2015:刚刚从AACR Annual Meeting归来,会上见到了无数MD Anderson的poster,有很多研究质量都相当高,感觉MD Anderson的基础研究前途非常光明。关于科研和学术氛围的更新请看最后。 更新2 关于语言:囧我真没想到语言风格可以在评论里引起骂战。…
&p&简单罗列一些,主要是基于二代测序数据的群体基因组学常用软件。&/p&&br&&p&Coding language&/p&&p&Perl &&a href=&///?target=http%3A//www.perl.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&The Perl Programming Language&i class=&icon-external&&&/i&&/a&&&/p&&p&Python &&a href=&///?target=https%3A//www.python.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Welcome to Python.org&i class=&icon-external&&&/i&&/a&&&/p&&br&&p&R &&a href=&///?target=http%3A//www.r-project.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&The R Project for Statistical Computing&i class=&icon-external&&&/i&&/a&&&/p&&p&Cookbook for R &&a href=&///?target=http%3A//www./& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Cookbook for R&i class=&icon-external&&&/i&&/a&&&/p&&br&&p&Plot&/p&&p&ggplot2 &&a href=&///?target=http%3A//docs.ggplot2.org/current/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Index. ggplot2 2.1.0&i class=&icon-external&&&/i&&/a&&&/p&&p&Circos &&a href=&///?target=http%3A//circos.ca/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Introduction to Circos, Features and Uses // CIRCOS Circular Genome Data Visualization&i class=&icon-external&&&/i&&/a&&&/p&&br&&p&Color&/p&&p&Colorbrewer2 &&a href=&///?target=http%3A//colorbrewer2.org/%23type%3Dsequential%26scheme%3DBuGn%26n%3D3& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Color Advice for Maps&i class=&icon-external&&&/i&&/a&&&/p&&br&&p&Mapping&/p&&p&BWA &&a href=&///?target=http%3A//bio-bwa.sourceforge.net/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Burrows-Wheeler Aligner&i class=&icon-external&&&/i&&/a&&&/p&&p&Maq (out-of-date) &&a href=&///?target=http%3A//maq.sourceforge.net/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Maq&i class=&icon-external&&&/i&&/a&&&/p&&p&stamps (out-of-date) &&a href=&///?target=http%3A//www.well.ox.ac.uk/project-stampy& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Wellcome Trust Centre for Human Genetics&i class=&icon-external&&&/i&&/a&&&/p&&p&Bowtie (out-of-date) &&a href=&///?target=http%3A//bowtie-bio.sourceforge.net/index.shtml& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&An ultrafast, memory-efficient short read aligner&i class=&icon-external&&&/i&&/a&&&/p&&p&Bowtie2 &&a href=&///?target=http%3A//bowtie-bio.sourceforge.net/bowtie2/index.shtml& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&fast and sensitive read alignment&i class=&icon-external&&&/i&&/a&&&/p&&p&minimap &&a href=&///?target=https%3A///lh3/minimap& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&lh3/minimap&i class=&icon-external&&&/i&&/a&&&/p&&p&SAM/BAM flag explain &&a href=&///?target=https%3A//broadinstitute.github.io/picard/explain-flags.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Explain SAM Flags&i class=&icon-external&&&/i&&/a&&&/p&&p&lastz &&a href=&///?target=http%3A//www.bx.psu.edu/miller_lab/dist/README.lastz-1.02.00/README.lastz-1.02.00a.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&LASTZ&i class=&icon-external&&&/i&&/a&&&/p&&p&-
axt format &&a href=&///?target=http%3A//genome.ucsc.edu/goldenPath/help/axt.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&axt Alignment Format&i class=&icon-external&&&/i&&/a&&&/p&&p&-
maf format &&a href=&///?target=http%3A//genome.ucsc.edu/FAQ/FAQformat%23format5& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&UCSC Genome Bioinformatics: FAQ&i class=&icon-external&&&/i&&/a&&&/p&&br&&br&&p&SNP/Indel calling&/p&&p&samtools &&a href=&///?target=http%3A//samtools.sourceforge.net/samtools.shtml& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&samtools.sourceforge.net&/span&&span class=&invisible&&/samtools.shtml&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&&/p&&p&gatk &&a href=&///?target=http%3A//www.broadinstitute.org/gatk/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GATK | GATK Home Page&i class=&icon-external&&&/i&&/a&&&/p&&p&angsd &&a href=&///?target=http%3A//popgen.dk/angsd/index.php/Main_Page& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&ANGSD - angsd&i class=&icon-external&&&/i&&/a&&&/p&&p&soapsnp &&a href=&///?target=http%3A//soap./soapsnp.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Short Oligonucleotide Analysis Package&i class=&icon-external&&&/i&&/a&&&/p&&p&soapindel &&a href=&///?target=http%3A//soap./soapindel.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Short Oligonucleotide Analysis Package&i class=&icon-external&&&/i&&/a&&&/p&&p&pindel &&a href=&///?target=http%3A//gmt.genome.wustl.edu/pindel/0.2.4/index.html& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&gmt.genome.wustl.edu/pi&/span&&span class=&invisible&&ndel/0.2.4/index.html&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&&/p&&p&dindel &&a href=&///?target=http%3A//w}

我要回帖

更多关于 genomicfeatures 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信