可不可以用hg19的参考基因注释,用hg38的注释文件

hg19,GRCH37,ensembl75各种基因组版本对应关系是什么?_?
看到各种表示方式很多次了,有时候感觉他们很乱!各种版本的基因组,各种版本的注释信息,各种下载地址,有一个综合性的说明吗?
这是三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC,ENSEMBL,各自发布的基因组信息!hg系列,hg18/19/38,是UCSC的,也是使用频率最高的!从我出道就只看过hg19了,但是建议大家都转为hg38,是目前最新版!我的博客提过这些基因组不同版本对应关系以及下载地址:综合起来看,就是~ GRCh36 (hg18): ENSEMBL release_52.GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.GRCh38 (hg38): ENSEMBL
release_76/77/78/80/81/82.hg18以前更早的版本我就不提了,没意思了,那是我估计还没玩过电脑!更别说什么基因组了!ENSEMBL的版本特别复杂!!!很容易搞混!
但是UCSC的版本就简单了,就hg18,19,38, 常用的是hg19,但是我推荐大家都转为hg38看起来NCBI也是很简单,就GRCh36,37,38,但是里面水也很深!Feb 13
Directory April_14_2003
Directory BUILD.33
Directory BUILD.34.1
Directory BUILD.34.2
Directory BUILD.34.3
Directory BUILD.35.1
Directory BUILD.36.1
Directory BUILD.36.2
Directory BUILD.36.3
Directory BUILD.37.1
Directory BUILD.37.2
Directory BUILD.37.3
可以看到,有37.1,
37.3 等等,不过这种版本一般指的是注释在更新,基因组序列一般不会更新!!!反正你记住hg19基因组大小是3G,压缩后八九百兆即可!!!如果要下载GTF注释文件,基因组版本尤为重要!!!对NCBI:对于ensembl:变幻中间的release就可以拿到所有版本信息:对于UCSC,那就有点麻烦了:如果是基因组,直接去即可!!!{i}.fa.你仔细看域名, 就明白了,很简单的!for i in $(seq 1 22) X Y M;do echo $i;wget {i}.fa.donegunzip *.gzfor i in $(seq 1 22) X Y M;do cat chr${i}.fa && hg19.donerm -fr chr*.fasta需要选择一系列参数:1. Navigate to 2. Select the following options:
clade: Mammal
genome: Human
assembly: Feb. 2009 (GRCh37/hg19)
group: Genes and Gene Predictions
track: UCSC Genes
table: knownGene
region: Select “genome” for the entire genome.
output format: GTF – gene transfer format
output file: enter a file name to save your results to a file, or leave blank to display results in the browser3. Click ‘get output’.本文固定链接:
已有帐号?
无法登录?
社交帐号登录二次元同好交流新大陆
扫码下载App
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!&&|&&
LOFTER精选
网易考拉推荐
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
阅读(777)|
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
历史上的今天
在LOFTER的更多文章
loftPermalink:'',
id:'fks_',
blogTitle:'如何生成参考基因组的.dict文件',
blogAbstract:'& & &使用picard工具包的CreateSequenceDictionary.jar生成。以hg19.fa为例,生成的命令为:&&&&java -Xmx2g -jar /path_to_picard/CreateSequenceDictionary.jar R=hg19.fa O=hg19.dict',
blogTag:'',
blogUrl:'blog/static/',
isPublished:1,
istop:false,
modifyTime:0,
publishTime:7,
permalink:'blog/static/',
commentCount:0,
mainCommentCount:0,
recommendCount:0,
bsrk:-100,
publisherId:0,
recomBlogHome:false,
currentRecomBlog:false,
attachmentsFileIds:[],
groupInfo:{},
friendstatus:'none',
followstatus:'unFollow',
pubSucc:'',
visitorProvince:'',
visitorCity:'',
visitorNewUser:false,
postAddInfo:{},
mset:'000',
remindgoodnightblog:false,
isBlackVisitor:false,
isShowYodaoAd:false,
hostIntro:'',
hmcon:'1',
selfRecomBlogCount:'0',
lofter_single:''
{list a as x}
{if x.moveFrom=='wap'}
{elseif x.moveFrom=='iphone'}
{elseif x.moveFrom=='android'}
{elseif x.moveFrom=='mobile'}
${a.selfIntro|escape}{if great260}${suplement}{/if}
{list a as x}
推荐过这篇日志的人:
{list a as x}
{if !!b&&b.length>0}
他们还推荐了:
{list b as y}
转载记录:
{list d as x}
{list a as x}
{list a as x}
{list a as x}
{list a as x}
{if x_index>4}{break}{/if}
${fn2(x.publishTime,'yyyy-MM-dd HH:mm:ss')}
{list a as x}
{if !!(blogDetail.preBlogPermalink)}
{if !!(blogDetail.nextBlogPermalink)}
{list a as x}
{if defined('newslist')&&newslist.length>0}
{list newslist as x}
{if x_index>7}{break}{/if}
{list a as x}
{var first_option =}
{list x.voteDetailList as voteToOption}
{if voteToOption==1}
{if first_option==false},{/if}&&“${b[voteToOption_index]}”&&
{if (x.role!="-1") },“我是${c[x.role]}”&&{/if}
&&&&&&&&${fn1(x.voteTime)}
{if x.userName==''}{/if}
网易公司版权所有&&
{list x.l as y}
{if defined('wl')}
{list wl as x}{/list}GATK---RNA-Seq:
对参考基因组的要求:
这里GATK只支持两种类型的参考基因组:b3x和hg1x。两者的不同,从上面的英文中可以看出来。由于我初次使用的是自己从UCSC上下载的hg19的数据,而且只包含M,1-22,X,Y,在运行到IndelRealigne这一步时出错,说我known
file与reference不相符(明明按照上述hg19的顺序来的),最终还是没有解决这个问题,正好发现GATK提供参考基因组下载,于是直接用它提供的hg19(UCSC-style)的参考基因组运行。
下载地址:ftp://ftp.broadinstitute.org/bundle/2.8/hg19/
下载的文件:
1、输入文件:Tophat2等软件产生的比对结果文件(BAM格式),和参考基因组序列文件genome.fa
2、首先要对genome.fa文件建立索引,如:samtools faidx genome.fasta
生成的索引文件以.fai后缀结尾。
3、对BAM文件进行排序,如:samtools sort abc.bam abc.sort
;具体见3_BAMsort.sh
4、使用samtools
的mpileup模块生成一个bcf文件,然后再使用bcftools命令对bcf文件进行处理,此处主要
&& 使用view命令来进行SNP和Indel calling,具体见4_call_snp.sh
进行两个软件比较的初衷是:
用htseq软件进行定量以及差异表达分析,能够检测到差异表达基因。但是通过stringtie则,检测不到,因此想通过比较两者的定量情况,来分析原因。
htseq-count计算得到的矩阵文件(包含每个基因比对上的reads数)
根据下面公式,计算得到FPKM:
这一批数据一共有3个条件(cen,edg,adj),每个条件有三个重复,共9个样本。
处理过程如下:
1、质量控制:
& & &1.1、第一次运行FastQC
& & & & & & &fastqc -t 9 -o
../FastQCResult --noextract $file
& & &1.2、去除前面的10个bp的碱基:
& & & & & & & java -jar
/home/cuckoo/software/Trimmomatic-0.32/trimmomatic-0.32.jar&&
PE -phred33 ${read1} ${read2} \
& & & & & & &${paired1}
${unpaired1} ${paired2} ${unpaired2} HEADCROP:10
& &1.3、再一次运行fastQC。
2、首先进行样本比对(即mapping)。
& & &2.1 从注释文件中提取出已知的拼接位点信息:
&hisat-0.1.6-beta/extract_splice_sites.py
Homo_sapiens.GRCh38.79.gtf & human_splicesites.txt
针对的是人的双端RNA-seq数据,用的参考基因组和注释文件都是最新版本的hg38和GRCh38。
1、在运行hisat之前,要用软件自带的Python脚本对注释文件进行处理(主要是提取剪接位点),命令如下:
extract_splice_sites.py Homo_sapiens.GRCh38.79.gtf &
human_splicesites.txt
2、构建索引,hisat之所以能够比TopHat快,就是因为它改进了索引方式,命令如下:
hisat-build -f Homo_sapiens.GRCh38.dna.toplevel.fa hg38
生成的文件如下:hg38.1.bt2l、
3、运行hisat软件,参数设置如下(运行速度相对于Tophat要快很多):
hisat -x ${referencePath}/hg38 --known-splicesite-infile
${referencePath}/human_splicesites.txt -1 ${file1} -2 ${file2}
-S ${hisatPath}/${prefix%_paired}.sam -p 25
生成sam文件。
4、在运行stringtie之前,要对sam文件进行处理,主要分成两步,a.排序和转换成bam文件;b.修改HI标签。具体命令如下:
&&&&& a.&&
亲爱的朋友:
&&&&欢迎您在新浪博客安家,您的博客地址是:
&&&&您可以用文字、图片、视频记录和展示最真实的自我,与网友交流,与线上好友聊天,还能通过手机发表博文和上传图片,随时随地记录心情和身边趣闻。
&&&&我们为您提供了丰富的炫酷模板来装点您在网上的家园,强大的音乐播放功能更能陪伴您的网络生活。准备好了吗?现在就开始精彩的博客之旅![转载]snpEff的使用方法
来自生物信息团队.
&&1)如果已经有库文件,直接可以在线下载相关的库文件。
&&$ java -jar
snpEff.jar download Galgal4.72
&&关于你需要的库文件是否有,可以查阅snpEff.config文件。
&&2)如果没有库文件,那么就需要自己根据参考基因组序列文件(fasta格式)和注释文件(gff文件)自行建库。流程如下:
首先,配置snpEff.config,以galGal4为例。红色为添加部分。
data_dir后面的路径可以自己设定。
==========================snpEff.config=========================
# Databases are stored here
# E.g.: Information for 'hg19' is stored in data_dir/hg19/
# Note: Since version 2.1 you can use tilde ('~') as first
character to refer to your home directory
# gallus genome, version galGal4
galGal4:galGal4
data_dir = ~/data/snpEff_data/&
===================================================
然后,假设为data_dir的路径为~/data/snpEff_data/
,你想要建立的库名字为galGal4的话。建立文件夹~/data/snpEff_data/galGal4。接着在这个文件家里面放上注释文件(gff文件)和基因组序列文件(fasta文件)。注意gff文件和基因组序列文件的名称分别命名为为“genes.gff”和“sequences.fa”。
最后在snpEff_3_1(即为软件和配置文件所在目录)运行如下命令。
注意: gff文件和fasta文件的染色体号要对上
$ java -Xmx15G& -jar snpEff.jar build -gff3
-v galGal4
输出信息如下:
===============================================================================================
00:00:00.000&&&
Building database for 'galGal4'
Reading GFF3 data file& :
'~/data/snpEff_data/galGal4/genes.gff'
genes&&&&&&
....................................................................................................
&&&&&&&&&&&&&&&
....................................................................................................
&&&&&&&&&&&&&&&
....................................................................................................
&&&&&&&&&&&&&&&
..............................................................................................
Total: 39423 Genes added.
Reading transcripts :
....................................................................................................
&&&&&&&&&&&&&&&
....................................................................................................
&&&&&&&&&&&&&&&
###这里会输出很多信息
00:04:16.959&&&
00:04:16.962&&&
==========================================================================
2.对snp进行注释。java
-Xmx15G& -jar
../snpEff_3_1/snpEff.jar& eff -v
galGal4 -c ../snpEff_3_1/snpEff.config
-i vcf stop_gained.vcf & stop_gained.anno
& 生成结果:
snpEff_summary.html:用浏览器打开,会有很多统计信息。
& stop_gained.anno: 具体信息看说明了!
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。}

我要回帖

更多关于 人类基因组hg19 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信