如何查看基因基因组数据分析手册结果

扫二维码下载作业帮
拍照搜题,秒出答案,一键查看所有搜题记录
下载作业帮安装包
扫二维码下载作业帮
拍照搜题,秒出答案,一键查看所有搜题记录
Illumina_HiSeq_2000高通量测序结果分析你好,最近在看TCGA数据库,其中raw_count,scaled_estimate,normalized_count,没能看明白什么意思,分别代表什么,我想做转录水平基因表达差异分析,需要用到哪些数据.
扫二维码下载作业帮
拍照搜题,秒出答案,一键查看所有搜题记录
raw_count应该是某个转录本/基因的测到的原始reads条数,normalized_count是经过标准化的数据量;差异分析需要统计 raw_count,FPKM值,pvalue
我是用normalized_count的值做差异分析的,不知道可不可以,而且差异很显著,但我不知道他们经过rsem处理后的数据,拿来用会不会有问题
做差异分析就是用normalized_count的值来做的。先根据count,利用rsem软件来计算表达量,然后根据表达量进行表达差异分析。使用RSEM计算表达量是因为:由于质量剪切后会有以下现象发生,如果一个pair-end的片段map到序列上确实只记一个count,另外还有两种情况是read只有一部分map到了参考序列上,或者read map到了参考序列的多个位置上。因此RSEM会用最大似然法(Expectation-Maximization) 来估计一个count值。
为您推荐:
其他类似问题
虽然我回答不了你的问题,但是我们公司肯定有人懂~
扫描下载二维码基因检测结果解读——从一个家庭的困惑说起
16271VMRI12
未发现受检者PLP1基因突变,该基因G,p.Lys545Arg,未见报道,父母未检出该突变。
G,p.Lys545Arg,未见报道;同义突变c.1077C
Neurodegeneration
with brain iron accumulation, NBIA) 10NBIAPANK2,
PLA 2G6, C19orf12, FA2H, ATP13A2, WDR45, COASY, FTL, CP,
3Pantothenate
PLA2G6phospholipase
A2, group VI,
PKANPANK2Hallervorden-Spatz
syndromePLANPLA2G6MPANC19orf12PLAN
病例特征:常染色体隐性遗传,以姿势异常为主要表现,头颅MRI显示小脑萎缩和苍白球对称高信号,提示PLA2G6可能性大。
p.Lys545Arg,未见报道;同义突变c.1077C
家系均为常染色体隐性遗传模式,单纯一个错义突变c.1634A
检出PLA2G6错义突变c.1634AG,p.Lys545Arg,父母验证未检出这一突变,图表清晰,一目了然。存在的问题:未报告同义突变,第3个公司出具检测报告后,患者父母追问当时就诊的医生,经过咨询,公司答复:检出同义突变,认为与发病无关,所以未报告。
G,p.Lys545Arg,同义突变c.1077C
基于患者的临床表型和综合3个基因检测公司的结果,患儿为PLA
2G6突变引起神经退行性病伴脑铁沉积症。针对痉挛症状,可以试用小剂量巴氯芬。PLA2G6基因编码iPLA2beta酶,催化磷脂水解为二十二碳六烯酸(Docosahexaenoic acid,DHA)。Pla2g6突变小鼠模型表现为DHA代谢下降,最新研究显示补充DHA可以改善iPLA2beta酶抑制引起的皮质纹状体功能障碍,由于DHA无毒,推荐PLA2G6突变患者服用。(Mazzocchi-Jones D. Impaired corticostriatal LTP
and depotentiation following iPLA2 inhibition is restored following
acute application of DHA. Brain Res Bull.
目前已经检出PLA2G6基因2个突变,错义突变c.1634A>G, p.Lys545Arg,同义突变c.1077C>T, p.359S>S。其中错义突变很可能源于患者父亲的生殖细胞嵌合体,患者母亲携带的同义突变致病性无法确认。产前检测如果胎儿携带2种突变,发病风险极高;如果携带错义突变,具有一定的发病风险;如果携带同义突变,应为携带者;如果不携带2种突变,发病的风险很小。
设计:中尽可能涵盖表型相关的已知致病基因。
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。试剂和服务
生物信息学
ILLUMINA公司
Explore Illumina Mobile Tools
寻找您感兴趣的区域
根据您的应用需求,找到合适的测序系统。
通过类型浏览:
使用我们的交互选择工具:
通过仪器浏览
选择系统...
HiSeq 2500系统
HiSeq 3000/HiSeq 4000系统
HiSeq X Five & Ten系统
MiniSeq系统
MiSeqDx系统
MiSeq FGx系统
NeoPrep系统
NextSeq 500系统
NextSeq 550 系统
NovaSeq系列
按产品类型浏览:
按感兴趣的领域浏览:
按系统浏览:
其他产品选择 & 实验计划工具:
Support for popular systems
All Systems:
AutoLoader 2.xBeadArray ReaderBeadXpress ReadercBotcBot 2Cluster StationGenome Analyzer IIxHiScanHiSeq 1000HiSeq 1500HiSeq 2000HiSeq 2500HiSeq 3000HiSeq 4000HiScanSQHiSeq XiScanMiniSeqMiSeqMiSeqDxMiSeq FGxNextSeq 500NextSeq 550NeoPrep Library Prep System
Support for Your System
AutoLoader 2.x&Support Links
Support for Your System
BeadArray Reader&Support Links
Support for Your System
BeadXpress Reader&Support Links
Support for Your System
cBot&Support Links
Support for Your System
cBot 2&Support Links
Support for Your System
Cluster Station&Support Links
Popular Kits for&Cluster Station
Support for Your System
Genome Analyzer IIx&Support Links
Popular Kits for&Genome Analyzer IIx
Support for Your System
HiScan&Support Links
Popular Kits for&HiScan
Support for Your System
HiSeq 1000&Support Links
Popular Kits for&HiSeq 1000
Support for Your System
HiSeq 1500&Support Links
Popular Kits for&HiSeq 1500
Support for Your System
HiSeq 2000&Support Links
Popular Kits for&HiSeq 2000
Support for Your System
HiSeq 2500&Support Links
Popular Kits for&HiSeq 2500
Support for Your System
HiSeq 3000&Support Links
Popular Kits for&HiSeq 3000
Support for Your System
HiSeq 4000&Support Links
Popular Kits for&HiSeq 4000
Support for Your System
HiScanSQ&Support Links
Popular Kits for&HiScanSQ
Support for Your System
HiSeq X&Support Links
Popular Kits for&HiSeq X
Support for Your System
iScan&Support Links
Popular Kits for&iScan
Support for Your System
MiniSeq&Support Links
Support for Your System
MiSeq&Support Links
Popular Kits for&MiSeq
Support for Your System
MiSeqDx&Support Links
Popular Kits for&MiSeqDx
Support for Your System
MiSeq FGx&Support Links
Popular Kits for&MiSeq FGx
Support for Your System
NextSeq 500&Support Links
Popular Kits for&NextSeq 500
Support for Your System
NextSeq 550&Support Links
Popular Kits for&NextSeq 550
Support for Your System
NeoPrep Library Prep System&Support Links
Popular Kits for&NeoPrep Library Prep System
Support for Popular Kits
Additional resources
Support for your organization
This is the international website for Illumina. If you are looking for information specific to your region, please select your location and we will redirect you.
Locations...
United States
Afghanistan
American Samoa
Antigua and Barbuda
Azerbaijan
Bangladesh
Bosnia and Herzegovina
British Virgin Islands
Burkina Faso
Cape Verde Islands
Cayman Islands
Central African Republic
Cook Islands
Costa Rica
Czech Republic
Democratic Republic of Congo
Dominican Republic
El Salvador
Equatorial Guinea
Faeroe Islands
French Guiana
French Polynesia
Georgia, Republic of
Guadeloupe
Guinea Bissau
Ivory Coast
Kazakhstan
Kyrgyzstan
Liechtenstein
Luxembourg
Madagascar
Marshall Islands
Martinique
Mauritania
Micronesia
Montenegro
Montserrat
Mozambique
Netherlands
New Caledonia
New Zealand
Papua New Guinea
Philippines
Puerto Rico
Saint Martin
San Marino
Saudi Arabia
Seychelles
Sierra Leone
Sint Eustatius
Sint Maarten
Slovak Republic
South Africa
South Korea
St. Barthelemy
St. Kitts and Nevis
St. Thomas
St. Vincent
Switzerland
Trinidad and Tobago
Turkmenistan
Turks and Caicos Islands
United Arab Emirates
United Kingdom
US Virgin Islands
Uzbekistan
Vatican City State
Virgin Gorda
Wallis and Futuna
Remember this choice.
Select this Location
/DNA测序数据分析
Illumina的测序系统每天可产生Gb级的测序数据。我们直观的生物信息学解决方案正帮助研究人员理解所有的碱基检出。Illumina提供了一整套新一代测序(NGS)数据分析软件工具,包括为DNA序列比对、变异检出和数据可视化而设计的按键式工具。
Illumina测序仪器上生成的数据可自动转移并安全存储在BaseSpace Sequence Hub中。BaseSpace Hub特有一套专家首选的数据分析应用程序,可支持广泛的基因组研究。利用这些用户友好的应用程序,可分析大型或小型全基因组、外显子组、靶向基因区域及其他的DNA测序数据。
Illumina已经开发出BaseSpace应用程序,以简化NGS数据的处理和解释。这些应用程序是为那些需要简单、经济且全面分析的研究人员而设计的,为DNA测序数据及Illumina其他NGS数据的分析提供了可扩展的生物信息学方案。
适用于DNA序列分析的BaseSpace应用程序:
对所有研究人员开放,无论其生物信息学经验如何均可使用
支持广泛的应用,包括全基因组、靶向和外显子组测序的数据分析,以及 de novo测序、甲基化测序、宏基因组学研究及其他
与Illumina测序系统无缝整合
以容易解读的报告形式呈现结果
允许与世界各地的合作者即时共享数据
可从BaseSpace Sequence Hub的云端(基于web)和本地(完全本地化)版本中获得
BaseSpace Genomics Computing
轻松安全地在云端或本地分析、存档和共享NGS数据。
全基因组测序的应用程序
: 利用Isaac比对和变异检出,从全基因组DNA测序数据中快速提取出生物学信息。
: 利用业界标准的Burrows-Wheeler Aligner和Genome Analysis Toolkit (BWA/GATK) 进行全基因组的序列比对和变异检出。
: 实现复杂基因组的de novo序列组装(如含有高度重复区域的植物基因组)。
: 利用全基因组DNA序列比对和变异检出算法,检测肿瘤及配对的正常样品中的体细胞变异。
靶向测序的应用程序
: 利用快速准确的Isaac比对和变异检出算法,分析外显子组或靶向DNA测序数据。
: 利用BWA比对工具和GATK变异检出工具来开展靶向重测序或外显子组测序的数据分析。
: 利用TruSeq Amplicon的序列,简化富含特定靶序列的NGS数据的分析。
表观遗传测序的应用程序
: 实现DNA甲基化分析。比对亚硫酸氢盐测序的序列,并检出甲基化。
: 从染色质免疫沉淀测序(ChIP-Seq)的数据中确定转录因子的结合位点,并发现motif。
宏基因组学测序的应用程序
: 实现微生物的鉴定。为短的DNA序列分配分类标签,灵敏度高,速度快。
访问强大的一站式信息学工具,这些工具让研究人员将DNA测序数据及其他基因组信息转化成生物学见解。
: 访问经过校对的表型和分子数据库,以比较和关联您的测序数据。
: 快速确定和分类与疾病相关的DNA序列变异,然后在结构化的报告中传达结果。
立即注册,了解Illumina信息学的更新
希望收到有关信息学的快讯、案例研究和信息?请输入您的邮件地址。
BaseSpace应用程序,适用于基因组规模的分析
深入了解适合常规生物学应用的应用程序,包括DNA测序数据的分析。
DNA测序的解决方案
发现全基因组的解决方案,或通过全外显子组和靶向测序方案关注感兴趣的特定区域。
BaseSpace Hub的支持
访问用户指南、应用程序发布说明,以及其他的技术信息。
改善您的测序结果
NextSeq 500 v2 Kit带来了更好的数据质量、更佳的信噪比以及更简单的流程。
分享BaseSpace Hub的数据
BaseSpace Hub有两种很好的方式向合作者或客户提供测序结果:转移所有权和共享。
BaseSpace Hub的数据安全性
在Illumina云端的分析和存储平台,数据是安全的。
BaseSpace Hub博客
了解BaseSpace Hub中的最新工具和功能,特别是实用的研究方法和数据示例。&公共基因表达数据分析系统genevestigator,再也不愁表达数据的查询和比较了 - CSDN博客
公共基因表达数据分析系统genevestigator,再也不愁表达数据的查询和比较了
还在为不会分析大数据发愁吗?
还在为无法查询和比较发表文章中感兴趣基因表达值抱怨吗?
使用genevestigator,高效利用已经有研究结果,轻松与同行研究结果比较!!!
GENEVESTIGATOR
“基因研究员”,帮助研究者对已经发表的公共数据进行查询、比较和可视化呈现。
先在线注册一个帐号,注册时会选择Data Preference: 分 biomedical 生物医学偏动物和医学或plant biology植物,我主做植物选择了plant biology,一定要使用学校和科研单位学术邮箱可以免费使用基础版,每次查询4个基因;否则需 要付费才可以使用。注册完成需要进邮箱点激活链接才能使用。
先下载软件,安装,运行,需要使用刚才申请的帐号和密码才能进入软件主界面。
最简单的例子-查找拟南芥基因At3g29430在发表研究中的表达
在左侧上部Quick Search栏输入’At3g29430’,点击Search按扭,瞬间返回了10615个查询结果,单击可散点图呈现。软件界面、操作顺序和结果展示如下图:
从选择的实验或样品中查看指定基因表达
本示例以查询拟南芥中At3g29430 At3g32040基因是否在低氮、低磷胁迫条件下上调表达,来提高设计表型筛选条件的成功可能性。
点击左上 “Get start” 使用向导按扭,弹出窗口左侧单击 “View expression across samples from a choose study”
- 出发点:对某一研究感觉兴趣;
- 目标:查看样品中的基因表达;
操作方法:
选择1个或多个感兴趣的实验:点击右侧 “Experiments”蓝色链接,新窗口中有所有收集实验的列表,可在上方Filter后面文本框查找关键字过滤,如搜索”nitrogen”,会自动过滤相关研究;此时我们再单击下方的“Filter by platform”可以按物种和测序平台两次筛选,这里我们选择Arabidopsis(可以进一步展开拟南芥来选择其中不同的数据类型,如affymetrix, mRNA-seq),结果只有5个实验符合条件,点击样品上方的复选框全选所有实验,或单独选择感觉兴趣的实验,点击下方”OK”即开始向服务器查询相关84个样品的表达数据;点Close关闭之前的使用向导窗口;
输入基因ID查询:在左下方 “Gene Selection” 区域选择”new”,添加需要查询的基因,每个ID一行,本示例以查询拟南芥中At3g29430 换行 At3g3204,点OK,弹出查找基因列表再点OK,即返回查询结果;
查看表达值:主界面右侧上部”Samples”工具,我们看到了两个目标基因在84个样品中的表达值。如下图所示:
结果说明:结果默认按散点图展示表达,不同基因用不同颜色显示;
图左侧为样品名称,一般包括简单实验条件描述;
图上部为表达量刻度,将表达分为LOW MEDIUM(IQR)和HIGH三类,MEDIUM(IQR)中是指处于整体中间50%基因的表达范围,高和低分别两端各25%基因表达范围;
窗口上部为工具栏,可调显示样式,如Display可选散点图Scatterplot或热图heatmap呈现基因表达值;基因表达值默认为标准化的RPM进行log2对数变换,也可选择不做变换的原始值linear;想关注实验中高或低表达的状态,可以选择sort signal values对样品组中表达值进行排序,多基因时,可以点选基因的图例来选择按哪个基因排序;Copy按钮可以在点选单个样品时,复制基因的表达值,粘贴结果为AT3G2795 AT3G359;点new会对当前查询结果在程序中复制一次?(可能为进一步筛选或添加基因做备份);右端的文本框中可以输入关键字进一步筛选样品,匹配部分会高亮显示,可用左右箭头来控制浏览上一个或下一个匹配结果。想读原版帮助的小伙伴点击最右侧的Help吧。
样品信息:鼠标悬停在样本上,会弹出样本相关信息描述,按F2可将弹窗固定观看,想进一步了解样品信息或文章原文,也可点击GEO和PMID链接。如下图:
结果解读:我计划找nitrogen处理下是否存在差异表达,结果显示没有差异;我接下来又尝试了drought, salt, phosphate等多种实验条件,终于找到了符合预期的结果,筛选到的条件作为实验条件,相比盲目设计多组实验极大的减少了工作量,实验的小伙伴们敢快用起来吧。
添加更多相关基因展示:在左下角基因选择栏目,点击Add,可以添加更多的基因ID,如我继续添加了At3g29410 At3g29400 At3g32030,可以呈现最多10个基因表达同时显示;散点图会有重叠,个人建议超过三个以上基因用势力呈现更容易解读,如下图。
跨物种研究:在左下角基因选择窗口Gene Selection,对正在分析的项目点右键,选择Create Orthologs,可以寻找多种植物中的同源基因,这里我们选择Oryza Sative水稻,点确定找到9个同源基因;再点左上方数据选择窗口Data Selection中New,默认即可以搜索水稻数据库,可进一步手动选择实验或直接OK(默认选择所有样本)即可,返回水稻中相关研究中这些基因的表达;如下图所示展示原始表达值的热图(linear heatmap):
这个软件功能非常强大,还可进行以下方面的分析,操作简单,按照引导或帮助很容易上手,我就不再一一描述了。
其它主要功能
在指定的两种条件下查询差异表达基因 Find genes differentially expressed between two chosen conditions
出发点:发现了某个发表的实验很有趣,想找其中差异表达基因;
目标:鉴定差异表达基因,典型的比较为处理:末处理;突变体:野生型;
查找某基因在哪种组织中特异表达 Find in which tissues a gene is expressed
查找调节某基因表达的条件 Find conditions regulating a gene of interest
查找组织特异表达的基因 Find genes specifically expressed in chosen tissues
自己数据与公共数据进行比较 Compare your results with curated public studies
跨物种研究同源基因表达模式 Find orthologs having the most likely conserved function
为RT-PCR实验找参考基因 Find suitable reference genes for RT-qPCR
找某种特定处理条件下的生物标记物 Find biomarker for a specific treatment
本文已收录于以下专栏:
相关文章推荐
博客园MVC推荐教程
自定义Annotation
早就知道jdk5加了新特性Annotation,有一部分是介绍jdk5新特性的,一个是注解一个泛型
今儿复习一下注解
//用@Deprecated声明该方法不...
概述本文将简单介绍运维数据分析系统 Elastic Stack(ELK 5),并描述其基础部署过程,涉及 Elastic 相关产品:Elasticsearch、Kibana、Filebeat、Logs...
http://www.csdn.net/article//2822381Druid是一个为大型冷数据集上实时探索查询而设计的开源数据分析和存储系统,提供极具成本效益并且永远在线的实...
第一:Hive简介
Hive是构建在Hadoop之上的数据仓库
传统数据仓库的任务(ETL,报表,Ad-hoc数据分析)
大规模数据分析
Hive不是一个OLTP系统(...
摘要:Druid是一个为大型冷数据集上实时探索查询而设计的开源数据分析和存储系统,提供极具成本效益并且永远在线的实时数据摄取和任意数据处理。Druid创始人Eric Tschetter在eBay上海大...
【案例实战】餐饮企业分店财务数据分析系统解决方案:业务需求一、建设目的某餐饮集团需要将每个分店的财务状况进行分析,目前使用的是excel来存储查看各区域的收入情况,每个区域各年月的收入情况汇总数据都是...
打算通过实践,系统学习一下数据分析。
初步计划要完成的三个任务。
一、用VMware装64位CentOS,数据库服务端用CentOS自带的就好。
二、数据采集与预处理用Dev-C++编程解决。
一个数据分析系统的技术架构设计浅析
作者:成晓旭
版权保留,严禁转载
本文是曾经参与的一个大型项目的解决方案的技术架构设计的简要总结与阐释,仅仅分析该系统的众多的内部构件之...
他的最新文章
讲师:何宇健
讲师:董岩
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)生物基因大数据激增,分析健康数据或揭示疾病如何发生|生物|数据|基因_新浪科技_新浪网
生物基因大数据激增,分析健康数据或揭示疾病如何发生
  文章来源:知识分子微信公众号
  自2012年美国总统奥巴马提出“大数据”(Big Data)以来,生物大数据如火如荼地发展。通过高通量测序,我们已经积累了庞大的基因数据,通过移动互联网,我们也获得了海量的健康信息。这些数据的应用,将为疾病的诊断、分型、医药开发提供新方向以及新工具。然而如何分析基因以及健康数据,是横亘在大数据本身与解决健康问题之间难以逾越的鸿沟。不过有一点我们可以确信:当大数据分析的精度越来越高时,我们对疾病发生的过程就会有更深入的了解。
  21世纪初,人类基因组计划(HGP)发布了第一张人类基因草图,人的基因组约有30亿个碱基对,意味着每一个人的基因组有3Gb以上的数据。该计划曾与上世纪的曼哈顿计划(原子弹制造)、阿波罗登月计划并称为三大科学计划,为本世纪的一个里程碑式的科学工程。
  15年过去了,基因组测序技术发展之快已经超乎人们的想象。十年前,这项技术还只是实验室中一个“迷人”但又昂贵的研究工具。现在,它却已经渐渐步入医疗界,成为一种略显“尖端”的诊断技术。该技术也引领生物医学领域进入大数据时代。
  早前,曾有人预言,当个人基因组测序费用下降到1000美元时,就标志着我们的医学将进入个体化医疗(Personalized Medicine)的时代。现在,这个目标已基本达到,随着这项技术的迅猛发展和成本的扁平化,它已经开始给我们带来了庞大的数据,包括基因组、蛋白组等各类组学(omics)的出现,也带来了不少数据。
  1. 海量数据的产生
  刚过去的七八年间,我们储存的个人基因组数据量已达到106规模,这个数量如此惊人,且这只是刚刚开始。每年Illumina公司的HiSeq X 10测序仪已经可以完成超过18000人的基因组测序工作,该测序系统已分布在全球顶尖测序中心,每天产生大量的数据。英国2014年也启动了“十万人基因组计划”,美国和中国则宣布要完成多达一百万人的基因组数据收集工作。
  基因测序数据正在以更快的速度翻倍。2015年以后,以历史累积的测序数据来看,每7个月就能翻一番, Illumina仪器测序所得的数据,每12个月就能翻一番;如果仅以摩尔定律来看,每18个月数据量就能翻一番。这种情况将带来一个巨大的“数据黑洞”。图片来自
  以上所提及的,只是大数据时代下的一个缩影,现在面临的还有其他数据。比如,伴随基因组计划的发展,人类蛋白组计划和基因测序结果在医疗界的应用等也被逐步提出,它们也正在给大数据“添砖加瓦”。所谓人类蛋白组计划,主要目的在于研究所有人类基因编码产生的蛋白质。关于这个,我们来看一个研究者的故事。
美国斯坦福大学迈克尔?斯奈德(Michael Snyder)。来源:斯坦福大学网站
  迈克尔·斯奈德(Michael Snyder)是美国斯坦福大学的一名分子遗传学家。当他抱着好奇的心态测了自己的基因组后,得到了一些“惊喜”。他发现,自己是一名II型糖尿病易感基因的携带者,尽管在这之前,他并没在自己身上发现任何此类疾病的风险因素,包括肥胖、家族病史等等。在接下来的14个月,斯奈德持续监控了自己体内相应RNA的活性和蛋白表达情况。在一次感染呼吸道病毒后,他发现自己体内的蛋白表达发生了变化,并且有相应的生物学通路被激活。接着,他被诊断出了糖尿病。看起来,这场病就是由这次病毒感染所触发的。此后,他还在患上莱姆关节炎时,也监控了自己体内的蛋白表达变化。这时,他的研究已经产生了多达50Gb的数据,这还仅仅只是关于他个人的研究数据。当他将这项研究扩展至100个人时,并将研究目标扩展至13类“组学”(包括蛋白组、肠道菌群的转录组等等),而实际上,按照他的计划,要想真正做到预测疾病,还需要将研究对象增加至上百万个病人。如此这样,它将会带来多大的数据量?
  各种电子设备的普及以及健康数据记录App的出现,给这个时代带来了海量的数据,也给医学界带来了可观的研究对象。过去的几十年间,医生如果要观察病人的心血管健康情况,往往会给他们做这么一个小测试:让他们在一段平缓、稳固的路上行走6分钟,并记录他们的行走距离。这个测试不仅可用于预测肺移植者的存活率,还可用于检测肌肉萎缩的病程发展,甚至可以评估心血管患者的健康状况。这种小测试已被运用于多项医疗研究中,但在过去,最大规模的医疗研究项目中,这种参与者也很少能达到一千人。
智能手机中健康类App的出现,从而能让研究者获取大量人群的数据。图片来自
  不过,这个情况近年来发生了很大的变化。在2015年3月进行的一项心血管研究中,研究者尤安·阿什利(Euan Ashley)在两周时间内就拿到了6000个人的测试结果,这就得益于现在有数百万计的人拥有智能手机和健身追踪器。到了6月份,参与到这项研究中的人数达到了40000人,这仅仅依靠的是一款叫做“我的心脏计数”(My Health Counts,见上图)的苹果应用。有了这个应用软件,阿什利甚至可以招募来自全球的参与者,获取他们的测试结果。那样的话,他得到的数据又将是多少?面对这个现状,不少研究者表示,这些海量数据可能会淹没现有的分析渠道,并对数据存储提出前所未有的“高”要求。
  2. “大数据”时代下的挑战
  在群体基因组研究的浪潮下,虽然更多的人关注的仅仅只是整个基因组中的外显子部分,即基因组中可编码产生蛋白的部分,它占到了整个基因组的1-5%,这能够将需要分析的数据量减少到原来的1%。但即使在这种情况下,每年产出的数据量仍可达4000万Gb。这就带来了第一个难题,如何存储这么大的数据量?
  尽管这还只是这个领域最基本的问题,仍需要巨大的资源来解决。这就是近年来网络上最常出现的一个词——云(Cloud)出现的契机所在。这么大的数据量,必然无法仅仅保存在固定的设备上,需要借助互联网来实现,也即是所谓的“云存储”。此外,这些数据带来的处理危机也是巨大的,电脑处理能力也将局限着它们的应用。这个问题的初步解决依然要依靠“云”,也就是现在所谓的“云计算”。
  即使处理好了海量数据的存储问题,我们还将迎来另一个更让人头痛的问题——这些数据说明了什么?现在关于基因组学的临床研究,往往聚焦于识别个人基因组中可扰乱基因功能的“小错误”,即所谓单核苷酸突变(single-nucleotide variants, SNPs),即使这些突变往往存在于仅占基因组1%的外显子区域,平均下来,依然有近13000个之多,而其中的2%已被预知可影响相应蛋白的变化,但要从中找出某类疾病的具体致病基因,仍是一个巨大的挑战。
  自奥巴马提出了“精准医学”的概念,这个方向就一路红火。即使现在已经有了测序技术和分析工具这些手段,有了电子健康记录这位“好帮手”,这种医疗方法的理想和现实之间仍然有着巨大的鸿沟。在这个领域,仍然存在多种障碍。比如,即使在电子健康记录普及和新疗法研发成功的前提下,想要依靠临床医生来实现这些疗法,往往还需要对他们进行不间断的培训,以帮助他们在做医学决定前了解足够多的细节信息。
  此外,电子健康记录的不可共享性(即涉及到病人隐私的问题),为精准医疗的实现设置了不小的障碍。很多时候,治疗患者个体病例的特异性信息往往被患者个人和治疗机构所把持,到不了研究者手里,那么就无法据此信息来改进一些治疗方法,因此也就没办法实现对个人的“个体化医疗”。这些问题往往反映生物医学领域需要信息处理专家的介入和帮助。遗憾的是,生物信息学家在学术领域也仅仅只占很少的席位,更别提在医学领域,还需要给他们提供更多的职位和机会。
  3. “大数据”带来的机遇
  有挑战也必然会带来机遇,这个机遇可以体现在生物医学领域的多个方面,比如医疗界的诊断方法更新、疾病分型更新、医药界药物开发新方向、医学界疾病治疗新方法,甚至生物学科基础研究领域的新工具等等。
  2013年,安吉丽娜·朱莉的故事轰动全球,为减少患上乳腺癌的风险,她进行了预防性的双乳腺切除术,而这个决定是在她检测到自身携带一种风险基因——BRCA基因后才做出的。这类基因能带来显著的致病风险,约有55-65%的乳腺癌患者携带有害的BRCA1基因突变,45%的携带BRCA2突变。对朱莉来说,虽然她携带的仅仅是前一个基因,已足以让她做出预防性手术的决定。这个故事给出了一个鲜活的例子,就是如何把个体测序得到的数据与临床诊断联系在一起,这就好像人类正在从自己的基因组中找到这些失落的宝藏,从而帮助自己预防一些恶性疾病,但这只是这个时代所带来的一个福利而已,并且只占到很少的一部分。
  以糖尿病为例,不精确的疾病分型,对于前期的预防和后期的治疗都十分不利。之前,医学界已经知道,有多达百余种途径可能导致糖尿病的发生,涉及到胰腺、肝脏、肌肉、大脑甚至脂肪的不同变化。现代通过基因的研究发现,对不同类型糖尿病而言,其致病基因十分多样。这时,如果将这些不同亚型的糖尿病混为一谈,就会让人很难弄明白,为什么携带同样的基因突变,病人在面对同一治疗方案时,会出现完全不同的治疗效果。
  正如生物化学家阿兰·阿蒂(Alan Attie)所说的那样,“从致病基因到体重、血糖水平等表型的出现这一过程,往往有许多步,其中每一步都可能发生基因突变,这最终会削弱基因和表型之间的联系”。因此,只看表型(即临床症状)和只看突变基因,得到的都只会是片面的结果。只有将两者有机结合起来,才能更加深我们对疾病的了解,做到更精确地进行疾病分型,以便更容易“对症下药”。
  美国国立卫生研究院(NIH)曾发起一项大型项目,构建了癌症基因组数据库(the Cancer Genome Altas,简称TCGA),将所有癌症相关基因突变分类保存,共保存有250万Gb的数据,这大大改进了研究者对各种类型癌症的认识。但仅仅这样,对于提供了组织样本的患者来说,并没给他们的临床经历带来太多改变。
  与癌症治疗相关的另一方面,是个人电子健康记录及其病例的特异性信息。对很多研究者来说,如果能从医院或个人手中得到这部分信息,就能够卓有成效地进行癌症治疗方案的改进。总体而言,只有在拿到测序大数据的基础上,同时掌握病人的干预记录(来自个人的电子健康记录)和临床特征(来自医疗机构的临床病理记录),才能最终做到“升级”肿瘤的临床治疗方案。
  医药研发也能从大数据获益良多,这无可厚非。在医药研发的世界里,基因技术公司更倾向于进行长期的生物学研究,并将其联系到临床数据上,以使得药物能够“对症下药”到每个人身上,甚至会帮助制药公司做出更“大胆”的研发决定,进行个性化定制免疫疗法的研究。
  以微生物菌群研究为例。现在就有人提出这样的想法:什么时候我们会想要研发出能改变体内微生物菌群的药物呢?这些存在于我们肠道、皮肤表面和环境中的数以十亿计的微生物,不仅影响我们是否患病,还会影响到药物对疾病所产生的药效。现在大部分对于微生物菌群研究得到的数据还只是针对小部分人群,但这是否也意味着一个不错的研究方向?毕竟我们现在还缺乏一些稳定的测试手段,能让我们以一种持续性的方法来改变微生物菌群,并对疾病发展产生有意义的影响。
  对免疫学研究来说,大数据会带来什么?首先,有以下“组学”都可以对免疫学研究产生有利影响,包括:基因组、微生物组、表观基因组、转录组、代谢组、通路组、细胞组和蛋白组。具体来说,比如对特定B细胞或T细胞所有抗体抗原分子的分析,这些分析结果(尤其是与能识别对应抗体的抗原决定簇的技术相结合),可将临床诊断、抗体药物研发、疫苗研发上升到一个新高度,并能为自身抗原肽结合抗体提供新见解。
  伴随着荆棘的引路,往往也会引来好歌喉的夜莺。大数据给我们带来挑战的同时,也带来了机遇,尤其是对于一些恶性疾病(比如癌症)的治疗。一种单一类型的肿瘤,往往就会伴随着多样化的基因突变,但随着投入更多的时间和金钱,会得到更多的治疗靶点。当大数据分析的精度越来越高时,对于整个疾病发生过程的了解也会越来越深入,有了“大数据分析”这项利器,更多的精准治疗方案将会产生,帮助人们做出更好的选择。(编译 | 翟文珠& 责编 | 叶水送)
  参考文献
  1.Eric Bender. (2015). “Big data in biomedicine。” Nature 527 : S1
  2.Michael Eisenstein. (2015). “Big data: The power of petabytes。” Nature 527 : S2-S4
  3.Neil Savage. (2015). “Proteomics: High-protein research。” Nature 527 : S6-S7
  4.Katherine Bourzac. (2015). “Collaborations: Mining the motherlodes。” Nature 527 : S8-S9
  5.Charlie Schmidt. (2015). “Cancer: Reshaping the cancer clinic。” Nature 527 : S10–S11
  6.Neil Savage. (2015). “Mobile data: Made to measure。” Nature 527 : S12-S13
  7.Cathryn M. Delude. (2015). “Deep phenotyping: The details of disease。” Nature 527 : S14–S15
  8.Eric Bender. (2015). “Better insights, better drugs。” Nature 527 : S18
  9.Eric Bender. (2015). “Big data in biomedicine: 4 big questions。” Nature 527 : S19
  10.Joachim L Schultze. (2015). “Teaching 'big data' analysis to young immunologists。” Nature Immunology 16 : 902-905
  11.Eric J. Topol. (2015). “The big medical data miss: challenges in establishing an open medical resource。” Nature Reviews Genetics 16 : 253–254
  12.Jill U. Adams. (2015). “Big hopes for big data。” Nature 527 :S108-S109.
区块链本质上是通过数学密码学解决了人与人之间价值交互的信任及...
这些频频出问题的戒网学校背后,“网瘾”究竟是不是伪命题,网瘾...
今年小米所做出的几点改变,可以明显看出雷军的反思和改进。而这...
将分别向硅谷激光雷达技术厂商Velodyne LiDAR投资7500万美元。
库克谈到了对iOS 10强烈信心,以及苹果软硬件生态长远布局的思考。}

我要回帖

更多关于 基因组数据分析 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信