基因表达谱分析数据分析 为会么在log 空间中进行

如何做基因表达趋势分析
已有 893 次阅读
|系统分类:
在实验的设计中,我们经常需要了解基因随时间,温度,药物浓度等变化的表达趋势。当生物体按照一定顺序发生变化或者受到外界环境刺激(如受到不同浓度的化学药物诱导)时,基因表达变化也会呈现趋势特征。趋势分析趋势分析(STC, Series Test of Cluster)就是发现基因表达的趋势特征,将相同变化特征的基因集中在一种变化趋势中,从而找到实验变化过程中最具有代表性的基因群,揭示生物样本在变化过程中所特有的规律。应用场景举例观察基因随时间的变化是趋势性分析应用较多的场景,下面我们就以此来看看趋势性分析的具体应用。相关基因:、
& & 相关疾病:
样本编号:
& & & & & & &IF:3.867这篇文章主要研究爆发性肝炎在早期阶段的病理机制,研究目的在于寻找病变过程中起主导作用的基因群及关键基因。作者采用ConA 诱导的小鼠肝炎模型,选取了0h,1h,3h,6h四个时间点做表达谱分析,用ANOVA筛选得到了1473个差异表达基因(p&0.05,FDR&0.05)。为进一步筛选出显著变化的基因群,作者用趋势分析将差异基因的表达趋势进行了分门别类,从中得到了10个显著变化的趋势模型(p&0.05)。图1 小鼠肝炎随时间变化的26个趋势模型,有颜色的代表显著的趋势模型(p&0.05),无颜色的代表不显著,相同颜色代表相似性的表达趋势并在最显著变化的NO.9和NO.16趋势模型中,用基因共表达网络分析得到了26个核心基因,这些核心基因主要作用于蛋白转运、转录调节、细胞代谢方面。筛选出的核心基因为爆发性肝癌的早期诊断提供了分子依据。 & & & & & & & & & & & 图2 NO.9和NO.16趋势模型中基因的表达情况趋势分析结果解析上文作者在做爆发性肝癌的病理机制的研究中,通过趋势性分析来寻找病变过程中起主导作用的基因群。那上述的趋势模型图具体怎么看呢?完整的趋势分析结果是怎么的呢?小编用上述文献中的样本在进行趋势分析,具体方案如下,0,1,3,6为时间分组,先对数据进行差异分析(P值&0.01 Q值&0.05),得到了9409个差异基因,再对差异基因进行趋势性分析(详细操作见趋势分析方法)。 & & & & & & & & & & & &图3 趋势分析方案图(数据GSE17184)趋势模型总图趋势分析得到的26个趋势模型(亦称为profile)中,筛选得到12个显著性profile(红色部分),最显著的两个分别为profile10和profile17,profile10和17都在1时无明显变化,随后开始下调/上调。 & & & & & & & & & & & & & 图4 GSE17184趋势模型总图四个时间点为何是26种趋势模型?如何将表达基因匹配到趋势模型中?又如何判断趋势模型的显著性?答案请戳GCBI官网如何看表达趋势模型呢?选取profile10作为示例。 & & & & & & & & & & & & & &图5 趋势总图中profile 10图的正上方,显示趋势模型编号及P值。横坐标表示样本顺序,0、1、2、3分别对应时间点0h,1h,3h,6h。纵坐标表示基因表达变化幅度,正负号表示上下调。Profile 10的趋势模型可归纳为(0,0,-1,-2)。(为什么趋势线都是都从0点开始呢?见下文)。单个趋势图趋势总图中的每个profile都对应有各自基因的趋势图。profile10的基因趋势图如下图所示。 & & & & & & & & & & & & & & & & & 图6 单个趋势模型图的上方(0,0,-1,-2)对应趋势总图中的趋势模型。横坐标表示时间相,纵坐标表示表达变化幅度 log2(V(i)/V(0)),V(i)表示某相的表达值,V(0)表示0点的表达值。这就是为什么趋势线都是从零开始的。每条折线代表样本中的一个基因。 STC分析结果的详细信息可参见表格。趋势模型总表趋势总表中罗列了所有显著性趋势模型,红框中的参数表示基因在每个点变化幅度,绿框中为统计检验参数。genes assigned表示在每个趋势模型中的基因个数,gene expected表示置换基因样本顺序分配在这个趋势模型中的基因个数,由此来检验某个趋势模型是否具有统计显著性意义。黄框里是每个趋势模型的基因列表。单个趋势模型列表单个趋势模型列表罗列了每个profile中基因在每个时刻点的具体数值。STC-GO在趋势分析中,可通过STC-GO进一步对显著趋势模型中的基因做GO功能分析,看基因群主要集中在哪些功能通路。上图profile10中的基因GO功能分析如下图所示,富集度最高的两个GO功能通路分别是细胞内铜离子转运和钙依赖的细胞基质黏附。 & & & & & & & & & & & & & & & & 图7 profile 10 GO富集图 趋势分析方法是否可以自行做趋势分析呢?俗话说自己动手丰衣足食嘛。在,零基础照样做分析,只需拖动趋势分析模板即可。还是以上文中的数据作为示范案例。步骤1、 进入GCBI网站的在线实验室 2、 建立趋势分析方案小编建立了如下趋势分析方案。3、 选择样本数据。在中直接搜索或也可获得数据链接,将数据发送至实验室以供后续分析。根据样本信息在每个时间点选择对应的实验样本。4、 设置各模块参数差异分析 P值&0.05
& & Q值&0.05(因多分组,不考虑fold change)趋势分析 &p值&0.05显著性趋势功能分析(STC-GO) &分析类型:生物过程 &p值&0.01,FDR&0.015、运行方案运行几分钟即可得到结果。就是这么简单明了,趋势分析,拿下了么? 拓展文献中可替代检测工具推荐 拓展知识:
转载本文请联系原作者获取授权,同时请注明本文来自陈莉娜科学网博客。链接地址:
上一篇:下一篇:
当前推荐数:1
评论 ( 个评论)
扫一扫,分享此博文
作者的其他最新博文
热门博文导读
Powered by
Copyright &当前位置:&>&
表达谱数据的 GO分析和聚类分析
王琼萍 上海交通大学& & GO(gene ontology)是基因本体联合会(Gene Ontology Consortium)所建立的数据库。GO 是多种生物本体语言中的一种,旨在建立一个能阐释各种物种的基因以及基因产物。这个数据库最开始起源于三个模式生物的数据库:果蝇基因组数据库(Drosophila)、酵母基因组数据库(Saccharomyces Genome Database,SGD)、小鼠基因组数据库(Mouse GenomeDatabase,MGD)。在这之后,在基因本体联合会成员的努力下,将 GO 数据库扩展到了植物、动物、微生物等世界范围内各个主要的数据库。GO 数据库建立了具有三层结构的定义方式来描述基因及其产物的生物学过程、细胞组分及分子功能,对不同信息源的信息进行整合,以 DAG(有向无环图)结构组织起来作为多个分支,节点的高低也代表了每个节点的意义的广泛程度。每个父项 (parent terms)下包含若干子项(children terms),分支越远,匹配的 GO 条目就越具体。在这个层级结构中,一个生物学注释可以由一个基因集表示。这个数据库的建立为基因功能数据挖掘提供了新的思路。一套基因本体,其实也就是一套基因的树状结构。GO 数据库及其序列分析程序的问世,使得差异基因的功能分析变得更加高效 、 准 确 。 目前,已经有很多可以供研究者免费使用的GO资源 , 如 AmiGo,它可以分析一个基因的 GO 术语,也可以分析多个基因。& & 另外,还有 Onto express、DAVID、Gostat 等。差异基因的 GO 分析关键在于利用统计学方法进行基因富集,常用的方法是 Fisher 的精确概率法或卡方检验。Fisher 的精确概率法利用超几何分布 (hypergeometric distribution)的原理推断每个基因集中差异表达基因的比例是否与整个基因芯片上差异表达基因的比例相同。& & 聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。基因表达谱数据的聚类分析,目的是为了将寻找一类类似的基因,如具有共同的调控原件、具有相似的生物学功能或具有相同的祖先等。这样的聚类往往可以发现一些未知领域,可以根据类中已知基因的功能而得知推断未知基因的功能。聚类分析要确定两个特征向量间的合适的测度及相似度,并确定算法方案,根据选定的相似性测度对向量进行聚类。常用的相似性测度包括欧氏距离(Euclideandistance)、明考斯基距离(Minkowski distance)、皮尔逊相关距离(Pearson correlationdistance)、马氏距离(Manhattan distance)等。聚类方法的分类可以有很多种,按照是否具有先验知识而分为监督聚类(supervised clustering)和非监督聚类(unsupervised clustering)。非监督聚类中的层级聚类(hierarchical clustering)、k means 聚类、自组织图、主成分分析等算法已经广泛地运用到基因表达分析中。基因聚类分析中容易受到噪点基因的干扰,而且要求算法的准确性和有效性较高,目前较常用的方法包括模糊聚类和人工神经网络。人工神经网络方法中自组织映射(Self Organizing Map, SOM)使用的最多,它采用的是结构简单的单层竞争性神经网络模式在输入端引入并与输出结点关联,其间的权重通过学习反复变更,直到达到终止标准,结果是相似的模式被分入同组,并为同一个单位神经元所代表。不同的聚类过程侧重于不同的相似性,那么聚类的结果也会有所不同。在聚类之前,一般要考虑一下四方面的内容:(1)什么样的数据,是原始的标准化后的数据,还是 log 转化后的数据,或者是做了另外方法转化后的数据;(2)需要用全部的基因还是选择性的使用部分基因;(3)需要用什么样的矩阵把所选择的基因结合起来;(4)运用什么样的聚类算法。基因表达谱聚类分析已经被应用到各个领域,如癌症,个体行为关系等。
如果您认为本网转载的内容涉及侵权,请作品的作者联系网站下方的编辑qq
牧通人才网微信公众号芯片数据预处理 - 实验交流 - 生物秀
标题: 芯片数据预处理
摘要: [芯片数据预处理]原文地址:芯片数据预处理作者:生物信息(bioinformation)专用基因表达数据进行聚类、分类等数据分析之前,往往需要进行预处理,包括对丢失数据进行填补、清除不完整的数据或合并重复数据等数据清洗,根据分析的目的进行数据过滤,以及针对分析方法选择合适的数据转换方法等。
1、数据清洗是数据分析前必须进行的一项工作,对于基因表达数据,目的是去除表达水平是负值或很小的数据、或者明显的噪声数据
( 单个异常大或小的峰谷信号 ) 。2、数据的…… [关键词:基因 基因表达谱 预处理 基因表达 对照样本 对数]……
基因表达数据进行聚类、分类等数据分析之前,往往需要进行预处理,包括对丢失数据进行填补、清除不完整的数据或合并重复数据等数据清洗,根据分析的目的进行数据过滤,以及针对分析方法选择合适的数据转换方法等。
1、数据清洗是数据分析前必须进行的一项工作,对于基因表达数据,目的是去除表达水平是负值或很小的数据、或者明显的噪声数据
( 单个异常大或小的峰谷信号 ) 。
2、数据的缺失对于某些后续数据分析方法(例如层次式聚类和 PCA
)来说有着非常大的影响,甚至是致命性的,这时必须采取相应的方法。一个简单方法是直接过滤掉这些存在缺失数据项的行向量或列向量。另一个方法是设定阈值,计算行向量或列向量中的缺失项数目,如果达到该阈值,则将该数据项所在行或列从数据矩阵
中删除;如果没有达到阈值但存在缺失项,对这些缺失项可以进行插值。以
代替缺失项,或用基因表达谱中的平均值或中值进行替代,这些方法都比较简单,但是否与真实值接近,很难进行评估。较为复杂和可靠的方法是,分析基因表达谱的模式,从中得到相邻数据点之间的关系,根据这种关系,利用相邻数据点估算得到缺失值。这种方法类似于
近邻方法,需要有足够的完整的模式来发现有缺失值的相邻模式,需要有足够的值来确定它们的邻居。
3、在细胞中,基因表达有时空特异性,在某一条件下,能够表达的基因占基因总数的少部分,而大多数基因仅维持基础转录或不转录,转录本丰度很小,因此,
微阵列实验得到的数据矩阵中存在大量的基因表达谱曲线是平坦的,即基因表达水平变化很小。对于这些基因,往往不是学家所关心的,而它们的存在,却会大大增加数据分析的复杂性,而且会对一些分析方法的结果有干扰。对这些数据进行过滤是非常有必要的。要保留的基因表达谱究竟占总体数据的多少比例?这个问题是与分析目的密切相关的,例如对于分析细胞周期相关的基因表达,保留的基因可能较多;而对于肿瘤特异基因表达谱分析,保留的基因往往较少。过滤基因所采用的标准有:①基因表达谱中最大值与最小值的差;②标准差;③均方根;④绝对值大于阈值的数据个数等。根据分析的对象和目的,可以选择以上一个或多个标准,确定阈值,从而选择基因表达谱。
4、基因表达谱数据经过过滤,在进行聚类分析等操作前,往往还需要进行数据转换。数据转换是将数据变换为适合数据挖掘的形式,可以根据需要构造出新的数据属性以帮助理解分析数据的特点,或者将数据规范化,使之落在一个特定的数据区间中。因此,数据转换包括对数转换和标准化两个过程。
5、许多 DNA
微阵列实验的结果是测量样本与对照样本间信号强度的 Ratio 值,对于
Ratio 值,在大多数情况下是转换到对数 (log)
空间中进行处理,常用的对数底为 2, e, 10
。考虑时间序列上的基因表达数据,实验结果是相对于 0
时刻的表达水平。假设在时间点 1 ,基因的表达水平没有改变,在时间点 2
,上调 2 倍,而时间点 3 ,下调 2 倍,原始的比率值分别为 1.0 、 2.0
、 0.5 。在大多数应用中,需要把上调 2 倍和下调 2
倍看作是变化的相同幅度,只是方向不同。在 Ratio 空间中,时间点 1 和
2 之间的差异是 +1.0 ,而时间点 1 和 3 之间是 -0.5
,从数学角度看,上调 2 倍的数值是下调 2 倍的 2 倍。而在 log
空间中,(为了简化,用 2 为底),这三个数据点分别为 0 、 1.0 、
-1.0 ,上调 2 倍与下调 2 倍是关于 0
对称的。因此,对数转换可以使小于 1 的值变大,大于 1
的值变小,从而使它们关于 0
对称化,这种变换是否反映了一定的生物学意义,能更直观的了解基因的上调或下调的幅度?尚没有定论,但是对于大多数基因表达数据分析过程,都是在
log 空间中进行的。
6、数据的标准化是将所有的数据转换到同一个范围内,这样做的好处是方便比较和计算相关系数,缺点是在标准差接近
的时候,会产生大的噪声,这也是首先要进行数据过滤的一个重要理由。
一种是正态标准化:通过标准化,使得每个基因表达谱的平均值为 0
,标准差为 1 。如果要求所有的数据 x 分布在 [0 , 1]
之间,还需要进行其他转换 。
一种数据标准化方法是数据的中心化。对于来自细胞系的大量肿瘤样本与一个共同的对照样本比较,每一个基因,相对于对照样本中那个基因的表达水平,都有一系列的
值。因为对照样本通常对实验没有什么帮助,对照样本中的基因表达量是独立于分析的。这样,可以通过调整每一个基因的数值来反映系列观察值的变化,例如平均值或者中值。这就是平均值
中值中心化,中心化可以减少对照样本的影响。中心化数据同样可以用于去除某些类型的偏差。例如,许多双色荧光杂交实验的结果没有校正
Ratio 值的系统偏差,它们是由于 RNA
数量差异、标记效率和图像获取参数偏差所造成的。这样的偏差对于所有的基因与一个固定数值的
Ratio 有放大的效应。在 log
空间的平均值和中值中心化有校正这种偏差的效果。数据中心化是基于这样的一种假设,在特定的实验中,基因的平均值期望比率是
1.0( 在 log 空间中为 0) 。通常,更多的是使用中值中心化。
目前对数据预处理这种策略的作用还不是很清楚,还没有人进行系统的研究,提供有说服力的证据来帮助研究人员针对特定的任务选择特定的数据预处理的策略和方法。在具体应用时,往往是根据分析目的和个人经验选择不同的方法。
芯片数据一般是偏态分布,因此需要进行对数处理,常取以2为底,并且为后面的处理带来方便。
红绿染色后,log[2,RG]表示光强度,log[2,R/G]表示差异表达程度。若取同等条件下两样本作图会出现偏倚。
可参考文献:NATURE——Microarray
data normalization and transformation
Quackenbush---2002
相关热词:
生物秀是目前国内最具影响力的生物医药门户网站之一,致力于IT技术和BT的跨界融合以及生物医药领域前沿技术和成功商业模式的传播。为生物医药领域研究人员和企业提供最具价值的行业资讯、专业技术、学术交流平台、会议会展、电子商务和求职招聘等一站式服务。
官方微信号:shengwuxiu
电话:021-基因表达差异分析中,有的基因显示著表达但是log2changefold值却是Inf是什么意思啊?基因表达差异分析中,有的基因显示著表达但是log2chang-知识宝库
你可能对下面的信息感兴趣导读:基于DNA微阵列的基因表达数据管理和分析,摘要:DNA微阵列是生命科学研究的重要工具,产生了大量的数据,这些数据的存储、分发和数据挖掘成为DNA微阵列能被推广应用的关键技术,关键词:DNA微阵列数据挖掘数据仓库标准基因表达分析,DNA微阵列(DNAmicroarray),也叫基因芯片,该固定有探阵的基片就称之为DNA微阵列,可以检测出样本中与探阵阵列中互补的核苷酸片段,从而得到样本中关于基因结
基于DNA微阵列的基因表达数据管理和分析
029129 谢建明
2002年10月
摘要:DNA微阵列是生命科学研究的重要工具,在疾病诊断、药物开发等领域得到了广泛应用。在应用过程中,产生了大量的数据,这些数据的存储、分发和数据挖掘成为DNA微阵列能被推广应用的关键技术。本论文简单介绍了这两方面的研究现状。
关键词:DNA微阵列 数据挖掘 数据仓库 标准 基因表达分析
DNA微阵列(DNA microarray),也叫基因芯片,是近几年发展起来的一种能快速、高效检测DNA个不等的称之为探针的核苷酸序列固定在微小的(约1cm2)玻璃或硅片等固体基片或膜上,该固定有探阵的基片就称之为DNA微阵列。它利用核苷酸分子在形成双链时遵循碱基互补原则,可以检测出样本中与探阵阵列中互补的核苷酸片段,从而得到样本中关于基因结构和表达的信息。它的技术来源追溯到一个多世纪之前,Ed Southern发现被标记的核酸分子能够与另一被固化的核酸分子配对杂交。因此,Southern blot可被看做是最早的基因芯片。在八十年代,Bains W.等人就将短的DNA片断固定到支持物上,借助杂交方式进行序列测定。1995年,斯坦福大学开发出第一片cDNA芯片并用于生命科学研究,1998年美国Affymetrix公司将第一片带有13.5万个基因探阵的寡聚核苷酸芯片推向市场,标志着DNA微阵列的产业化,从此基因芯片或DNA微阵列的研究和应用得到了广泛的重视,可以说在生命科学研究界和产业界掀起了基因芯片热潮,1999年Nature出专刊介绍这门基因芯片及其应用。
基因芯片可用于DNA序列的再测序、基因SNP或多态性检测和基因表达分析。由于基因芯片技术是一种高通量检测技术,它可是并行的同时检测成百上千,甚至成千上万个基因的活动情况或DNA片段,改变了传统的每次只能检测一个基因的情况,因此能大大提高检测效率,降低检测成本,并保证了检测质量。基因芯片技术可广泛应用于疾病诊断和治疗、全新的途径,为生物大分子的全新设计和药物开发中先导化合物的快速筛选和药物基因组学研究提供技术支撑平台。
通过基因表达谱的研究可以进行进一步的理论研究或应用研究。
2、应用研究包括疾病诊断和药物开发。根据不同疾病状态下的差异表达谱的研究可以确定疾病的类型和进展。研究药物作用后基因表达谱的改变可以确定药物的毒性、预后和疗效,从而指导药物开发和临床合理用药。
在基于DNA微阵列的基因表达分析研究中,数据的分析和管理是一个关键性的问题,它直接影响了实验结果的准确型和实验的可靠性。
图1 DNA微阵列的基因表达数据的获得
二、数据分析 数据的分析包括了三个部分:芯片图像处理获得单次实验的基因表达水平;整合多次实验得到基因表达矩阵;根据基因表达矩阵进行知识挖掘。下面简单介绍一下其中涉及的关键技术:包括归一化和聚类分析。 归一化
对于cDNA微阵列技术,包含Cy3和Cy5两个通道,通常存在两个通道荧光亮度不平衡的问题,Cy3的亮度低于Cy5[Quackenbush, 2001]。归一化的目的是平衡实验过程中Cy3与Cy5两个通道的相对荧光亮度。它基于如下的假设:芯片上的所有的基因,一组基因子集或一套外源的控制在标记前产生RNA,其平均表达率等于1。使用归一化因子调整数据,弥补实验的变化,
“平衡”待比较的两个样本的荧光信号。主要有3种被广泛使用的技术用于来自同一个芯片杂交的基因表达数据的归一化。
1、总亮度归一化
此外,假设一些基因在待检测的样本中相对于控制样本是上调的,另外一些是下调的。对于芯片上成百上千或成RNA的量是一样的。因此,芯片上所有的元素计算得到的总的累加亮度在Cy3和设下,计算归一化因子,并用于芯片上每个基因的亮度比例计算。
2、用回归技术归一化
对于起源于相关样本的mRNA,被分析的基因的显著性分数在相似的水平上被表达。在Cy5与Cy3亮度(或对数值)的散点图上,这些基因沿着直线聚类,如果两个样本标记和检测效率是一样的则该斜率将是1。这些数据的归一化等于用回归技术计算它的最合适斜部回归技术更合适,例如LOWESS(局部权值散点图平滑)回归。
3、使用比率统计归一化
Chen描述的基于比率统计的归一化方法。假设尽管在紧密相关的细胞中,单个基因可以上调或下调,RNA产生的总量与重要的基因近似相等,例如看家基因。基于这种假设,他们发展了一种近似概率密度比率Tk=Rk/Gk(R,G分别代表第k个元素的测量的红/绿亮度比)然后他们用于迭代过程,归一化平均表达率为1,计算可信度阈值用于识别差异表达的基因。 除了以上三种在应用中被广泛使用的除外,还有一些复杂的、非线性的方法用于归一化。归一化后,11 对于合成寡聚核苷酸微阵列不存在cDNA微阵列荧光不平衡导致的系统歪曲的问题,但是对于相比较的两组实验来说,需要用两块芯片与两个样本杂交两次,产生的原因包括两个样本中mRNA数量的差异或用于标记样本的染料的质量不同,都可能导致错误。在这里归一化的目的也是去除这些错误。
聚类分析 通过图1的数据获取过程,可以得到细胞的基因表达矩阵。基因的表达矢量定义为每个基因在表达空间的位置。用基因表达的观点看,每个实验在空间中表达一个隔离的和不同的轴,在该实验中的基因的测量值log2(比率)代表了几何坐标。例如,如果我们有三个实验,对于一个给定的基因在实验1种的log2(比率)值是它的x坐标,在实验2中的值是y坐标,在实验3中的值是z2个基因,对于每个实验近似相同的值(log2(比率))将在表达空间中空间相近的对于更多的实验这种推广是直接的(尽管很难画出),表达空间的维度的增加与实验的数目相等。用这种方式,表达数据可以表示为n维表达空间,n是实验的数目,每个基因表达矢量表示为该空间内的单个点。
有了测量基因间距离的方法后,聚类算法根据在表达空间中的分离度选择基因和将基因分组。需要提及的是如果我们感兴趣聚类实验,我们将每个实验表示为一个实验矢量,包括每个基因的表达值。这里定义的实验空间,维度等于每个实验中分析的基因数目。同样的方法定义距离,我们能够应用任何的聚类方法来分析和分组实验。
为了解释多个实验分析的结果,直觉的可视化表示是很有帮助的。通常使用的方法依赖于表达矩阵的建立,矩阵的每一列表示单个实验,每一行表示特定基因的表达矢量。根据表达数据用不同的颜色表示矩阵元素建立多个实验的基因表达模式的可视化。表达矩阵有无数的方案来着色和表示。最常用的方法是根据每个实验的log2(比率)值,log2(比率)等于0用黑色,大于零的用红色表示,负数的用绿色表示。对于矩阵中的每一个元素,相对亮度表示了相对表达水平,约亮的元素表示差异表达越大。对于任何特定的实验组,表达矩阵通常没有明显的模式或顺序。设计程序来聚类数据通常重组行、列或两者。当以这种方式可视表示可以看到明显的表达模式。
在聚类数据前,有两个问题需要考虑:1、数据需要用某种调整方式来增强某一种关系?
2、采用何种距离测量来分组相关的基因。在许多微阵列实验中,数据分析被具有最大数据值的变量决定,这样掩盖了其他重要的区别。为了避免这个问题,采用的一种方法是调整或重新确定数值范围,使每个基因的平均表达为0,称之为平均中心法过程。在这个过程中,基因的基本表达水平被每次实验测量值相减。这样增强了每个基因在每个实验中的表达水平的变异,而不考虑基因是否是上调或下调。这种方法对于分析时间过程的实验是特别有用的,可以发现在基础表达水平周围变异相似的基因。这些数据调整为-1~1之间的值。或者每个表达矢量的长度为1。
k-means);
聚类分析技术非常有用,应该关注不同的算法、不同的归一化或者不同的距离矩阵,将把不同的目标放在不同的类中,此外,不相关数据的聚类仍将产生类,虽然他们没有生物学意义。因此基因表达分析方法的挑战是针对特定的数据应用适当的方法,使数据明显的分开。主要的无师聚类分析方法有层次式聚类法[Eisen,1998]、自组织神经网络[Tamayo,1999] 、k平均法、模糊聚类法等,有师分类包括矢量学习机法[Brown,2000]等,此外还有主元分析法和利用统计学的SAM法等。
1、层次式聚类法(hierarchical clustering method)
这是多元统计分析中常用聚类方法,对于n个样本构成的n个矢量,看作是n个类,先计算所有两类之间的相似性关系,将相似关系最近的两类生成一个新类,继续以上过程,直到最后只有一个类为止。在这个过程中每次形成一个新类,类的数目间减少一个,最后形成一棵树,反映样本之间的相似关系。在计算新类与其它类的相似关系时有不同的方法,有最小距离法、最大距离法、平均距离法、重心法、离差平方和法等。如最小距离法是将组成新类的两个类分别与第三个类相似关系最近的值为新类和第三个类之间的相似关系。该类方法可以直观的反映基因之间的关系,而且计算速度快,但使用不同的类间距离计算法会产生不同的聚类结果,而且对于一个样本被分类后,就不能再参与分类,因此它不能将所有的数据作为一个整体进行分析,是一个局部决策的方法。同时当样本集非常大时,树型结果非常复杂,树的剪枝和类的确定比较模糊。最简单、结果可视。是用于分析基因表达数据用得最多的方法,它是一种合成分析的方法,单个基因被连接形成组,继续直到形成单棵层次树。对于基因表达数据,平均连接聚类给出可接受的结果。主要问题是随着类数目的增加,表达某一类的表达矢量也许不再表示类种的任何成员。此外,与最初的基因顺序有关。
2、自组织神经网络法(SOM,self-organizing map)
自组织映射是Kohonen,T提出的类似大脑思维的一种人工神经网络方法,是一种竞争学习算法,可以被看作是一种将N维模式空间各点到输出空间少数点的映射。这一映射由系统本身完成,没有外部的监督,即聚类是以自组织的方式实现的。SOM采用无教师学习训练,训练完成后,分类信息存储在权值向量中,具有与权值向量相似的输入向量将分为一类。包括1维和2维SOM,2维SOM也称为KFM(Kohonen Feature Mapping)。它们的区别在于KFM考虑邻近神经元的相互作用,即获胜神经元对周围神经元由于距离的不同会产生不同的影响。聚类结果与k平均法相仿,它的优点是自动提取样本数据中的信息,同时也是一种全局的决策方法,缺点在于必须实现设定类的数目与学习参数,而且学习时间较长。
3、模糊聚类法(Fuzzy Clustering method)
模糊聚类是模拟人类的思维方法,通过隶属度函数来反映某一对象属于某一类的不确定程度[15],从而建立起样本对于类别的不确定性的描述,准确反映样本之间的关系。模糊聚类分析方法的基本原理是将模糊数学中的有关概念与方法引进聚类分析,通过建立模糊相似关系来生成模糊等价关系,进而产生不同的水平截集,得到对样本的动态聚类结果。由于动态聚类图的建立,可以方便的获取有明显特征的类,并能看到类的扩展,清楚地反映了类之间的关系,这样就克服了k平均法和自组织神经网络法必须事先确定类数目的缺点;同时对于每个λ值,所有的基因都重新参与分类,所以模糊聚类分析方法具有全局性,这是层次聚类法所不具有的。
4、k-平均法
它先将样本分成若干类,然后计算每类的中心矢量(每类样本的平均值),对于所有的样本重新计算与各类中心矢量的距离,然后根据距离调整分类,得到新的聚类中心,再次重复该过程,直到能满足一定条件为止。它是层次聚类法的很好的替代,其分类结果与SOM的聚类结果接近。主要问题是在聚类开始时必须指定类的数目。
5、主元分析法PCA(also called singular value decomposition)
主要思路是减少矢量的维数而不损失用于分类的信息。属于多元统计分析中一种常用的
包含总结汇报、党团工作、IT计算机、旅游景点、外语学习、办公文档、人文社科、经管营销、专业文献、出国留学、资格考试以及基于 DNA 微阵列的基因表达数据管理和分析等内容。本文共2页
相关内容搜索}

我要回帖

更多关于 基因差异表达分析 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信