可不可以用hg19的参考基因注释，用hg38的注释文件

点击联系发帖人 时间：2016-08-14 18:07

人类基因组hg19

hg19，GRCH37,ensembl75各种基因组版本对应关系是什么?_?
看到各种表示方式很多次了，有时候感觉他们很乱！各种版本的基因组，各种版本的注释信息，各种下载地址，有一个综合性的说明吗？
这是三种国际生物信息学数据库资源收集存储单位，即NCBI，UCSC,ENSEMBL，各自发布的基因组信息！hg系列，hg18/19/38，是UCSC的，也是使用频率最高的！从我出道就只看过hg19了，但是建议大家都转为hg38，是目前最新版！我的博客提过这些基因组不同版本对应关系以及下载地址：综合起来看，就是~ GRCh36 (hg18): ENSEMBL release_52.GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.GRCh38 (hg38): ENSEMBL
release_76/77/78/80/81/82.hg18以前更早的版本我就不提了，没意思了，那是我估计还没玩过电脑！更别说什么基因组了!ENSEMBL的版本特别复杂！！！很容易搞混！
但是UCSC的版本就简单了，就hg18,19,38, 常用的是hg19，但是我推荐大家都转为hg38看起来NCBI也是很简单，就GRCh36,37,38，但是里面水也很深！Feb 13
Directory April_14_2003
Directory BUILD.33
Directory BUILD.34.1
Directory BUILD.34.2
Directory BUILD.34.3
Directory BUILD.35.1
Directory BUILD.36.1
Directory BUILD.36.2
Directory BUILD.36.3
Directory BUILD.37.1
Directory BUILD.37.2
Directory BUILD.37.3
可以看到，有37.1,
37.3 等等，不过这种版本一般指的是注释在更新，基因组序列一般不会更新！！！反正你记住hg19基因组大小是3G，压缩后八九百兆即可！！！如果要下载GTF注释文件，基因组版本尤为重要！！！对NCBI：对于ensembl：变幻中间的release就可以拿到所有版本信息：对于UCSC，那就有点麻烦了：如果是基因组，直接去即可！！！{i}.fa.你仔细看域名，就明白了，很简单的！for i in $(seq 1 22) X Y M;do echo $i;wget {i}.fa.donegunzip *.gzfor i in $(seq 1 22) X Y M;do cat chr${i}.fa && hg19.donerm -fr chr*.fasta需要选择一系列参数：1. Navigate to 2. Select the following options:
clade: Mammal
genome: Human
assembly: Feb. 2009 (GRCh37/hg19)
group: Genes and Gene Predictions
track: UCSC Genes
table: knownGene
region: Select “genome” for the entire genome.
output format: GTF – gene transfer format
output file: enter a file name to save your results to a file, or leave blank to display results in the browser3. Click ‘get output’.本文固定链接:
已有帐号？
无法登录？
社交帐号登录二次元同好交流新大陆
扫码下载App
温馨提示！由于新浪微博认证机制调整，您的新浪微博帐号绑定已过期，请重新绑定！&&|&&
LOFTER精选
网易考拉推荐
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
阅读(777)|
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
历史上的今天
在LOFTER的更多文章
loftPermalink:'',
id:'fks_',
blogTitle:'如何生成参考基因组的.dict文件',
blogAbstract:'& & &使用picard工具包的CreateSequenceDictionary.jar生成。以hg19.fa为例，生成的命令为：&&&&java -Xmx2g -jar /path_to_picard/CreateSequenceDictionary.jar R=hg19.fa O=hg19.dict',
blogTag:'',
blogUrl:'blog/static/',
isPublished:1,
istop:false,
modifyTime:0,
publishTime:7,
permalink:'blog/static/',
commentCount:0,
mainCommentCount:0,
recommendCount:0,
bsrk:-100,
publisherId:0,
recomBlogHome:false,
currentRecomBlog:false,
attachmentsFileIds:[],
groupInfo:{},
friendstatus:'none',
followstatus:'unFollow',
pubSucc:'',
visitorProvince:'',
visitorCity:'',
visitorNewUser:false,
postAddInfo:{},
mset:'000',
remindgoodnightblog:false,
isBlackVisitor:false,
isShowYodaoAd:false,
hostIntro:'',
hmcon:'1',
selfRecomBlogCount:'0',
lofter_single:''
{list a as x}
{if x.moveFrom=='wap'}
{elseif x.moveFrom=='iphone'}
{elseif x.moveFrom=='android'}
{elseif x.moveFrom=='mobile'}
${a.selfIntro|escape}{if great260}${suplement}{/if}
{list a as x}
推荐过这篇日志的人：
{list a as x}
{if !!b&&b.length>0}
他们还推荐了：
{list b as y}
转载记录：
{list d as x}
{list a as x}
{list a as x}
{list a as x}
{list a as x}
{if x_index>4}{break}{/if}
${fn2(x.publishTime,'yyyy-MM-dd HH:mm:ss')}
{list a as x}
{if !!(blogDetail.preBlogPermalink)}
{if !!(blogDetail.nextBlogPermalink)}
{list a as x}
{if defined('newslist')&&newslist.length>0}
{list newslist as x}
{if x_index>7}{break}{/if}
{list a as x}
{var first_option =}
{list x.voteDetailList as voteToOption}
{if voteToOption==1}
{if first_option==false},{/if}&&“${b[voteToOption_index]}”&&
{if (x.role!="-1") },“我是${c[x.role]}”&&{/if}
&&&&&&&&${fn1(x.voteTime)}
{if x.userName==''}{/if}
网易公司版权所有&&
{list x.l as y}
{if defined('wl')}
{list wl as x}{/list}GATK---RNA-Seq:
对参考基因组的要求：
这里GATK只支持两种类型的参考基因组：b3x和hg1x。两者的不同，从上面的英文中可以看出来。由于我初次使用的是自己从UCSC上下载的hg19的数据，而且只包含M，1-22，X,Y，在运行到IndelRealigne这一步时出错，说我known
file与reference不相符(明明按照上述hg19的顺序来的），最终还是没有解决这个问题，正好发现GATK提供参考基因组下载，于是直接用它提供的hg19(UCSC-style)的参考基因组运行。
下载地址：ftp://ftp.broadinstitute.org/bundle/2.8/hg19/
下载的文件：
1、输入文件：Tophat2等软件产生的比对结果文件（BAM格式），和参考基因组序列文件genome.fa
2、首先要对genome.fa文件建立索引，如：samtools faidx genome.fasta
生成的索引文件以.fai后缀结尾。
3、对BAM文件进行排序，如：samtools sort abc.bam abc.sort
；具体见3_BAMsort.sh
4、使用samtools
的mpileup模块生成一个bcf文件，然后再使用bcftools命令对bcf文件进行处理，此处主要
&& 使用view命令来进行SNP和Indel calling，具体见4_call_snp.sh
进行两个软件比较的初衷是：
用htseq软件进行定量以及差异表达分析，能够检测到差异表达基因。但是通过stringtie则，检测不到，因此想通过比较两者的定量情况，来分析原因。
htseq-count计算得到的矩阵文件（包含每个基因比对上的reads数）
根据下面公式，计算得到FPKM:
这一批数据一共有3个条件（cen,edg,adj)，每个条件有三个重复，共9个样本。
处理过程如下：
1、质量控制：
& & &1.1、第一次运行FastQC
& & & & & & &fastqc -t 9 -o
../FastQCResult --noextract $file
& & &1.2、去除前面的10个bp的碱基：
& & & & & & & java -jar
/home/cuckoo/software/Trimmomatic-0.32/trimmomatic-0.32.jar&&
PE -phred33 ${read1} ${read2} \
& & & & & & &${paired1}
${unpaired1} ${paired2} ${unpaired2} HEADCROP:10
& &1.3、再一次运行fastQC。
2、首先进行样本比对（即mapping)。
& & &2.1 从注释文件中提取出已知的拼接位点信息：
&hisat-0.1.6-beta/extract_splice_sites.py
Homo_sapiens.GRCh38.79.gtf & human_splicesites.txt
针对的是人的双端RNA-seq数据，用的参考基因组和注释文件都是最新版本的hg38和GRCh38。
1、在运行hisat之前，要用软件自带的Python脚本对注释文件进行处理（主要是提取剪接位点），命令如下：
extract_splice_sites.py Homo_sapiens.GRCh38.79.gtf &
human_splicesites.txt
2、构建索引，hisat之所以能够比TopHat快，就是因为它改进了索引方式，命令如下：
hisat-build -f Homo_sapiens.GRCh38.dna.toplevel.fa hg38
生成的文件如下：hg38.1.bt2l、
3、运行hisat软件，参数设置如下（运行速度相对于Tophat要快很多）：
hisat -x ${referencePath}/hg38 --known-splicesite-infile
${referencePath}/human_splicesites.txt -1 ${file1} -2 ${file2}
-S ${hisatPath}/${prefix%_paired}.sam -p 25
生成sam文件。
4、在运行stringtie之前，要对sam文件进行处理，主要分成两步，a.排序和转换成bam文件；b.修改HI标签。具体命令如下：
&&&&& a.&&
亲爱的朋友：
&&&&欢迎您在新浪博客安家，您的博客地址是：
&&&&您可以用文字、图片、视频记录和展示最真实的自我，与网友交流，与线上好友聊天，还能通过手机发表博文和上传图片，随时随地记录心情和身边趣闻。
&&&&我们为您提供了丰富的炫酷模板来装点您在网上的家园，强大的音乐播放功能更能陪伴您的网络生活。准备好了吗？现在就开始精彩的博客之旅！[转载]snpEff的使用方法
来自生物信息团队.
&&1）如果已经有库文件，直接可以在线下载相关的库文件。
&&$ java -jar
snpEff.jar download Galgal4.72
&&关于你需要的库文件是否有，可以查阅snpEff.config文件。
&&2）如果没有库文件，那么就需要自己根据参考基因组序列文件（fasta格式）和注释文件（gff文件）自行建库。流程如下：
首先，配置snpEff.config，以galGal4为例。红色为添加部分。
data_dir后面的路径可以自己设定。
==========================snpEff.config=========================
# Databases are stored here
# E.g.: Information for 'hg19' is stored in data_dir/hg19/
# Note: Since version 2.1 you can use tilde ('~') as first
character to refer to your home directory
# gallus genome, version galGal4
galGal4：galGal4
data_dir = ~/data/snpEff_data/&
===================================================
然后，假设为data_dir的路径为~/data/snpEff_data/
，你想要建立的库名字为galGal4的话。建立文件夹~/data/snpEff_data/galGal4。接着在这个文件家里面放上注释文件（gff文件）和基因组序列文件（fasta文件）。注意gff文件和基因组序列文件的名称分别命名为为“genes.gff”和“sequences.fa”。
最后在snpEff_3_1（即为软件和配置文件所在目录）运行如下命令。
注意: gff文件和fasta文件的染色体号要对上
$ java -Xmx15G& -jar snpEff.jar build -gff3
-v galGal4
输出信息如下：
===============================================================================================
00:00:00.000&&&
Building database for 'galGal4'
Reading GFF3 data file& :
'~/data/snpEff_data/galGal4/genes.gff'
genes&&&&&&
....................................................................................................
&&&&&&&&&&&&&&&
....................................................................................................
&&&&&&&&&&&&&&&
....................................................................................................
&&&&&&&&&&&&&&&
..............................................................................................
Total: 39423 Genes added.
Reading transcripts :
....................................................................................................
&&&&&&&&&&&&&&&
....................................................................................................
&&&&&&&&&&&&&&&
###这里会输出很多信息
00:04:16.959&&&
00:04:16.962&&&
==========================================================================
2.对snp进行注释。java
-Xmx15G& -jar
../snpEff_3_1/snpEff.jar& eff -v
galGal4 -c ../snpEff_3_1/snpEff.config
-i vcf stop_gained.vcf & stop_gained.anno
& 生成结果：
snpEff_summary.html：用浏览器打开，会有很多统计信息。
& stop_gained.anno：具体信息看说明了！
以上网友发言只代表其个人观点，不代表新浪网的观点或立场。}

我爱游戏网