我的RNA-Seqbp数据库,101bp大小。测序公司给我1.5Gbp数据库,大约有多少reads?

测序数据clean学习资料_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
测序数据clean学习资料
阅读已结束,下载文档到电脑
想免费下载更多文档?
定制HR最喜欢的简历
下载文档到电脑,方便使用
还剩22页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢RNA-seq测序数据(reads)提交NCBI - 生物信息 - 生物秀
标题: RNA-seq测序数据(reads)提交NCBI
摘要: [RNA-seq测序数据(reads)提交NCBI]RNA-seq的测序数据要向NCBI提交,这里简单总结一下。原始的测序数据 (reads) 数据要提交到SRA
RNA-seq的拼接结果应该提交到TSA库,TSA全称Transcriptome Shotgun Assembly Sequence Database,TSAis an archive of computationally assembled sequences from primary da…… [关键词:序列 测序数据 测序 核酸 数据库 测序结果 测序引物]……
的测序数据要向NCBI提交,这里简单总结一下。原始的测序数据 (reads) 数据要提交到SRA. 的拼接结果应该提交到TSA库,TSA全称Transcriptome Shotgun Assembly Sequence Database,TSA
is an archive of computationally assembled sequences from primary data
such as ESTs, traces and Next Generation Sequencing Technologies.
对于注释信息的要求
TSA数据提交前,首先需要将原始的序列(reads)提交到SRA数据库,与提交普通核酸、EST类似,TSA还需要提供DBlink关于BioProject、SRA接收号、BioSample;提供拼接信息以及对于拼接过程的描述。
对于序列的要求
必须是原始的测序结果的拼接数据需要去除载体或者测序引物序列长度不能少于200bp序列不能包括太多的N,少于10%或者小于14个N
NCBI注册,获取注册账号,登录注册BioProject,获得一个编号 ( 这个编号,当产生一个new submission网页时,网页上有一个链接,即要求先产生一个 BioProject的编号,点那个链接后,按要求填写即可 )将Raw
reads提交到SRA,在SRA提交页面创建一个SRA提交,创建Sample,创建Experiment、在Experiment中创建RUN,需要
提供测序平台、文件名、文件格式(Illumina_native、bam、fastq、srf)以及MD5验证码(用LINUX下面的命令:md5sum Munro1_1.fq 就会生成 a13bfb4cab5ea40fd969c82a85564a4e ( float:"
>checksums) Munro1_1.fq)创建好后,在你创建的页面下方会有相应的FTP和密码产生,这时,你可以用一些FTP工具(FileZilla_3.5.3_win32-setup.exe,这个是开源的,GOOGLE一下,自己去下载)向NCBI上传数据了。当然你也可以给NCBI发邮件告知一下,也可以不发。需要注意的是,在全部操作完成后,会有一个accession number的登录号(SRR....,或者SRA...., )这个登录号一定要记住,这是要写在文章中的使用Sequin或者tbl2asn准备提交的文件,需要用到的测序组装后的数据(fasta格式)、BioProject编号、SRR接收号、单位信息、样本信息等将注释好的文件压缩通过GenomesMacroSend提交,提交后会获得一个GDSub编号,将这些信息以及数据发布日期email给ncbiOK,等待回复,有问题解决问题,没有问题收纳接收号。
window下TSA的注释
开始在window下(win 7
64bit)使用sequin,总是序列加载后,开始填写注释信息时就没有响应,估计是卡在内存上,因为其需要将所有数据都加载到内存中,结果内存只增加
到100多M就不动了,试了几次,每次都挺花时间的,最后还是失败了,sequin的主页上说适合于1万条以内的序列注释,NRS拼接的结果基本都是10
万的级别。最后还不得不改用
tbl2asn,虽然是命令行的,NCBI都提供了在线的模板、拼接信息生成CGI,但是序列多在dos下还是很慢,最后改在64位linux,几乎就是
瞬间的事情。tbl2asn的使用注意-y与-Y参数的差别,-y后面可以直接跟注释信息,-Y是指存放注释信息的文件,另外就是在fasta文件中,在序列
的defline 部分可以使用[key=value][key=value]的形式给序列添加注释信息,比如[tech=TSA]
[SRA=SRRXXXXXX1,SRRXXXXXX2][bioproject=PRJNAXXXX1][moltype=mRNA]下面是命令示例:
tbl2asn -t template.sbt -p. -a s -w assembly.cmt -Y comment -M t
关于序列中的N,序列中的N必须少于14个,或许是NCBI处于质控的角度考虑制定的规则,但是如果使用两端测序,难免序列中有很多N来填补缺位,N的价值是及其有意义的,如果要提交必须将这些序列去掉或者拆开,从文章的角度却又是不妥的,挺为难的。
没了,算是初次提交者的一个快速指南吧。更具体的请阅读NCBI官方说明。对于叶绿体的数据提交用下面的链接:
SequinMacroSendhttp://www.ncbi.nlm.nih.gov/LargeDirSubs/dir_submit.cgi最下方填完信息直接上传数据就行一般2到5天拿到接收号再上传到genebank
http://www.ncbi.nlm.nih.gov/books/NBK47532/#SRA_Submission_Guid.5_Submitting_Datahttp://www.ncbi.nlm.nih.gov/books/NBK47532/
相关热词:
..........
生物秀是目前国内最具影响力的生物医药门户网站之一,致力于IT技术和BT的跨界融合以及生物医药领域前沿技术和成功商业模式的传播。为生物医药领域研究人员和企业提供最具价值的行业资讯、专业技术、学术交流平台、会议会展、电子商务和求职招聘等一站式服务。
官方微信号:shengwuxiu
电话:021-如何完成一次环状RNA鉴定?
1、研究背景、生物学问题
circRNA作为一种非编码RNA,在动物特别是人中的研究比较多,但在植物中的研究非常有限。植物中的circRNA是否和动物具有相同的特质、发挥相似的调控作用?文章以水稻Oryza sativa和拟南芥Arabidopsis thaliana为研究目标,进行了全基因组范围circRNA的鉴别,并对其特性进行了分析。
2、研究流程图
采集水稻的根、拟南芥的叶片,分别去除rRNA之后进行RNA测序。
4、研究技术
RNAseq数据分析、PCR验证
5、研究过程
circRNA的鉴别
从NCBI下载水稻和拟南芥RNAseq数据(reads长度分别为101bp、100bp),利用Bowtie2比对到参考基因组,舍弃所有mapped的序列;对所有unmapped的reads,两端分别提取20nt后再次进行基因组比对(称之为anchorreads),确定anchorreads在基因组的位置,以此判断原始reads是否存在circRNAsplicing。
图1.circRNA鉴别流程图
(circRNA末端的anchorreads需满足比对到基因相反方向)
据此,在水稻中共鉴别到12,037个circRNA,拟南芥中鉴别到6,012个。其中比例最高的为exoniccircRNA,即来源于外显子的circRNA。另外有较大比例的circRNA来源于多个基因间的反式反向剪切(trans-backsplicing)。
表1. 水稻和拟南芥circRNA类型和数量统计
circRNA的验证
针对水稻中表达丰度最高的18个exoniccircRNA,分别设计一对convergent引物、一对divergent引物,分别利用反转录之后的cDNA和基因组DNA进行PCR扩增,然后利用电泳进行扩增条带的检测。18个circRNA中的10个得到验证。
需要注意的是,10个其他类型(intronic、intergenic等)的circRNA无一得到验证。
图2.circRNA验证示意图
(理论上对于circRNA而言,divergent引物可以利用cDNA扩增出条带,而利用gDNA扩增不出条带;对作为control的线性RNA而言,cDNA和gDNA都可以扩增出条带)
植物中circRNA具有保守性
有700个生成circRNA的parent基因在水稻和拟南芥中为直系同源基因,分别占各自parent基因的比例为12.2%、14.5%;考虑到两物种所用的组织部位不同、处理不同,这一比例相当高。并且有300对直系同源基因在相似位置生成了circRNA。这一结果表明,植物中的circRNA具有较强的保守性。
图3.水稻(上)、拟南芥(下)生成circRNA的示意图
circRNA相邻intron区域特征
exonic circRNA相邻的intron区域大小明显大于线性RNA的intron区域大小,这一结论与动物中研究结果一致。水稻、拟南芥circRNA相邻intron序列无保守性。但与动物circRNA相邻的Intron区域多为重复序列或反向互补序列不同,植物circRNA相邻intron区域中两类序列有限。这一结果暗示动植物中circRNA的生成可能采用不同机制。
CircRNA与其parent基因表达量正相关
有研究表明circRNA会利用顺式机制调控其对应parent基因的表达量。利用Pearson系数计算发现,在水稻的18个样品中,349对circRNA-parent基因表达量之间存在正相关,无一例负相关。而在动物研究中,二者之间表达量并无明显相关性。
文章首次系统地进行了模式植物(水稻、拟南芥)全基因组范围circRNA的鉴别与验证,并就circRNA的一系列序列特征(parent基因序列、相邻intron序列)进行了探讨,发现植物中的circRNA存在一些显著不同于动物中circRNA的特征。
7、参考文献
Ye C Y, Chen L,Liu C, et al. Widespread noncodingcircular RNAs in plants. New Phytologist, 2015.
责任编辑:
声明:本文由入驻搜狐号的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
公司立足于高通量测序、基因芯片和文库构建三大技术体系,拥有12年建库经验,协助
公司立足于高通量测序、基因芯片和文库构建三大技术体系,拥有Affymetrix、Agilen
今日搜狐热点热门搜索关键词:
欧易服务中心
服务热线:021-
公司地址:上海市闵行区浦江镇新骏环路138号5幢3层
当前位置: &
环状RNA(circRNA)测序介绍
环状RNA(circRNA)是一类特殊的非编码RNA分子,也是RNA领域最新的研究热点。与传统的线性RNA(linear RNA,含5&和3&末端)不同,circRNA分子呈封闭环状结构,不受RNA外切酶影响,表达更稳定,不易降解。近几年的研究表明,circRNA在生物的生长发育、对外界环境的抵御等方面具有重要的调控作用。由于circRNA的闭合环状特性,通过去除total RNA中的rRNA和线性RNA分子,可以特异地富集circRNA分子后测序,更有针对性地分析受检样本中特定的circRNA谱、circRNA剪接模式、组间差异和功能等。
● 应用范围广:可以检测几乎任何动植物的环状RNA
● 环状RNA全覆盖:高深度覆盖,可以检测到低丰度的稀有circRNA
● 专业化的学分析:强大的学团队,提供新环状RNA鉴定、环状RNA功能预测、环状RNA分子标志物筛选等深入分析易读性强的数据报告
(circRNA)项目流程
推荐测序模式
● Hiseq4000,PE150&
● 推荐10 Gb/样本
环状RNA(circRNA)测序样品要求
● &20 μg (qubit) , 浓度&250 ng/μl&
● OD260/280为1.8-2.2
● 适用范围:有参考的真核生物
数据分析内容
标准数据分析
● 原始测序数据质控 & ● 测序数据质量评估 & ● Reads污染检测 & ● circRNA鉴定
● circRNA来源基因注释 & ● circRNA基因结构分析 & ● circRNA的表达丰度 & ● circRNA差异表达分析
高级数据分析
● circRNA-互作分析、互作网络图绘制
● ceRNA分析 & ● WGCNA分析
● 1. cricRNA测序和普通的RNA-seq,在抽提total RNA时有区别吗?
circRNA测序对total RNA的要求与普通的RNA-seq相同,所以抽提方法也相同。但是由于circRNA建库需要去除rRNA和线性RNA,所以需求大量的total RNA,需提供大于等于22 μg的total RNA,其中20 μg用于circRNA建库。
● 2. 全测序和circRNA测序区别在哪里?如何选择?
两种测序方式的相同之处为都可以获得circRNA序列信息。不同之处在于,全除了circRNA序列信息外,还可以获得mRNA和lncRNA的序列信息,可以进行circRNA-mRNA、lncRNA-mRNA关联分析和网络构建,lncRNA的调控机制(cis和trans)等分析;但由于建库方式的差异和测序数据量的限制,全测序所获得的circRNA类型通常比circRNA测序要少。而circRNA测序,只能获得circRNA序列信息,但测序可以获得比全转录组更多的circRNA类型,可以对circRNA的剪接模式和circRNA类型进行更细致、深入的分析,便于发现新的circRNA。
● 3. 由于获得的都是reads,如何鉴定分析获得的circRNA是circRNA,而不是mRNA或lncRNA呢?
首先,从建库上,cir cRNA测序采取去线性RNA的建库方式,这种建库方式会去掉绝大部分线性的RNA序列。其次,分析上,会根据cir cRNA的特殊剪切方式,进行circRNA的鉴定。大多数内含子剪切位点具有GT-AG模式,即经典剪切位点,而circRNA的剪切方式为反向剪切成环方式(如下图),mapsplice、findcirc、CICR软件会根据序列和的比对情况,鉴定出反向剪切位点信息,以及鉴定出可能的circRNA序列。
circRNA的剪切方式
案例一 :水稻和拟南芥的circRNA鉴定
研究背景:
circRNA作为近几年新发现的非编码RNA,在动物中,特别是人的相关研究较多,但在植物中的研究非常有限。植物中的circRNA是否与动物中的circRNA具有相同的特质、发挥相似的调控作用?
研究内容:
本文以水稻和拟南芥为研究对象,对从NCBI上下载获得的水稻和拟南芥RNA-seq数据进行分析,分别获得12307个和6012个circRNAs,其中占比最高的circRNAs类型为exonic circRNAs,并从中挑选部分circRNAs进行验证。对植物circRNA序列特征分析,发现植物的circRNA与动物的circRNA存在着一些明显序列特征性差异。
cricRNA鉴定流程图
水稻和拟南芥circRNA类型和数量统计
研究结果:
● 1. 从NCBI数据库中下载水稻(水稻根)和拟南芥(拟南芥叶片)的RNA-seq数据(reads长度分别为101bp、100bp),利用Bowtie2比对到参考,舍弃所有mapped的序列;对所有unmapped的reads,两端分别提取20nt后再次进行基因组比对(称之为anchor reads),确定anchor reads在基因组的位置,以此判断原始reads是否存在circRNA splicing。通过这种分析方法,分别从水稻和拟南芥中获得12307个和6012个circRNAs,其中exonic circRNAs占比最高,即来源于外显子的circRNAs。另外有较大比例的s来源于基因间的反式反向剪切(trans-backsplicing)。
● 2. 针对水稻中表达丰度最高的18个exonic circRNAs,分别设计一对convergent引物、一对divergent引物,分别利用反转录之后的cDNA和DNA进行PCR扩增,然后利用电泳对扩增条带检测,结果为10个s得到验证。
● 3. 为了了解植物中circRNA与动物中的区别,对植物circRNA序列特性进行分析,发现有700个生成circRNAs的parent基因
在水稻和拟南芥中为直系同源基因,分别占各自parent基因比例为12.2%、14.5%;由于两物种用于检测s组织部位和处理条件不同,这一占比例已经相当高,并且有300对直系同源基因在相似位置生成了circRNAs。这一结果表明,植物中的circRNA具有较强的保守性。
● 4. 植物中exonic circRNA相邻的intron区域大小明显大于线性RNA的intron区域大小,这一结论与动物中研究结果一致。
但与动物circRNA相邻的intron区域多为重复序列或反向互补序列不同,植物circRNA相邻intron区域中两类序列有限。这一结果暗示动植物中circRNA的生成可能采用不同机制。
案例二:环状RNA表达谱检测及功能研究
动物体内的环状RNA(circRNA)是谜一样具有未知功能的RNA。为系统研究环状RNA,本研究对人、小鼠以及线虫的RNA进行了和分析,检测到了上千种表达很好的稳定的环状RNA,它们通常具有组织或发育阶段的特异性表达。从上述结果中发现了一种人类的,与小脑变性相关蛋白-1的转录物( CDR1as) 呈反义,可与效应因子复合物结合,它含有67个miR-7结合位点。进一步的分析指出,CDR1as在神经组织中与miR-7结合。在斑马鱼中表达人的CDR1as会破坏中脑的发育,与miR-7的缺失相似,说明CDR1as是一种的拮抗剂,其结合miRNA的能力比其他已知的转录物高10倍。
图1. 差异统计
案例三:上皮细胞间质化(EMT)过程中QKI蛋白对形成的调控作用
(circRNA)是动物细胞中广泛存在的一种非编码RNA,因其表达具有细胞特异性,所以预示着环状RNA在形成过程中受到特定的调控。本研究通过对HMLE和mesHMLE两种细胞进行,明确了circRNA的数目与表达水平在两种细胞中的显著差异。结合双色荧光筛选系统circScreen与后续实验发现,RNA结合蛋白QKI在EMT过程中显著升高; QKI通过结合pre-mRNA上的特定结合位点,促进的形成;随着QKI表达量升高,环状RNA的数目和表达量也随之增加。
图2. EMT过程中,QKI对环状RNA形成的调控作用
1.Ye CY, Chen L, Liu C, et al. Widespread noncoding circular RNAs in plants. New Phytol. 208, 88-95 (2015). (IF: 7.21)
2.Memczak S, Jens M, Elefsinioti A, et al. Circular RNAs are a large class of animal RNAs with regulatory potency.
Nature,-338.
3. Simon J. Conn, Katherine A. Pillman, Gregory J. Goodall, et al. The RNA binding protein Quaking regulates formation of circRNAs. Cell. ): 1125&34.
/ Hot Projects
/ Recommended News
上海张江生物医学服务联盟
上海张江生物医学服务联盟(SH ZJ Biomedical Service Alliance,简称BSA),由上海张江地区的多家从事生命科学及生物医药科研服务企业发起成立的企业协作联盟。
欧易生物微信公众号}

我要回帖

更多关于 bp神经网络训练数据 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信