表达谱芯片在进行基因芯片探针设计计时分别有哪两种

细胞库/细胞培养
ELISA试剂盒
实验室仪器/设备
原辅料包材
体外检测试剂
实验方法原理
基因芯片(Gene Chip,DNA Chip),又称DNA微阵列(DNA Micorarray),是指按照预定位置固定在固相载体上很小面积内的千万个核酸分子所组成的微点阵阵列。在一定条件下,载体上的核酸分子可以与来自样品的序列互补的核酸片段杂交。如果把样品中的核酸片段进行标记,在专用的芯片阅读仪上就可以检测到杂交信号。
基因芯片基本技术流程图
试剂、试剂盒
仪器、耗材
将超低温保存的样品除去样品袋,在电子天平上称重后,转移至用液氮预冷的碾钵中,用杵子碾磨组织,其间不断加入液氮,直至碾磨成粉末状。
将碾磨成粉末状的样品,转移至已经加入适量TRIzol试剂的匀浆管中,把匀浆管置于冰浴中,在组织匀浆粉碎机上进行匀浆。匀浆至匀浆液不粘且无颗粒即可。
将匀浆液转移至15 mL离心管中, 于4℃,12 000 g,离心10 min。
小心吸取上清液转入新的15 mL离心管,在15~30℃放置5 min。
向匀浆液中加入氯仿,盖紧离心管盖,用力震荡离心管,在15~30℃放置3 min。
于4℃,12 000 g,离心15 min。
从离心机中小心地取出离心管,吸取上清至另一15 mL离心管。
向上清加入异丙醇,轻轻颠倒离心管充分混匀液体,在15~30℃放置10 min。
于4℃,12 000 g,离心10 min。
弃去上清,缓慢地沿管壁加入75%乙醇5 mL,轻轻颠倒洗涤离心管管壁,小心弃去乙醇。
再加入75%乙醇10 mL,在涡旋器上短暂涡旋;于4℃,8 000 g离心10 min。
小心弃上清,短暂离心,用移液枪吸去所有上清,在超净工作台中干燥沉淀5 min。
加入RNase-free的Milli-Q水完全溶解RNA沉淀后,-80℃保存。
二、探针标记与杂交
(1) 配制预杂交液:杂交试剂1加入到的Eppenderf管中,振荡混匀后,加入杂交试剂2混匀。
(2) 将配制好的预杂交液放入95℃水浴锅内变性2 min,将待预杂交的玻片放入95℃水浴锅内变性30 s,玻片取出后即放入无水乙醇中30 s,晾干。
(3)将已变性的预杂交液加到玻片的点样区域内,盖上盖玻片,放入杂交箱内42℃预杂交5~6 h。
标记探针(以下在冰浴中进行)
(1)于一已灭菌的1.5 mL Eppendorf管内依次加入以下试剂(反应终体积为50 μL,以下试剂均为RNase-free): ddH2O
逆转录引物
50~100 μg
振荡混匀,置于70℃水浴10 min。取出后,迅速置于冰上。
(2) 分别加入以下试剂: 逆转录酶缓冲液
(3) 而后在暗室中加入以下试剂: 逆转录酶
Cy5-dCTP或Cy3-dCTP
(4) 用手指弹打管壁以混匀样品,手浴2 min。将Eppendorf管置于42℃水浴2 h。
(5)依次在Eppendorf管中加入标记试剂I 4 μL,65℃水浴10 min后加入标记试剂II 4 μL。混匀,合并对照组、实验组。避光,真空抽干至50 μL左右。
(6)使用DNA纯化柱(或乙醇沉淀)纯化DNA。
(7)将柱体在旋涡混合器上剧烈振荡摇匀,悬浮内溶的树脂。将柱顶端的小帽旋松四分之一圈,掰断柱下端的密封头。
(8)将柱置于一个1.5 mL的Eppendorf管中,以3 000 rpm离心 1min将柱置于另一个新的1.5 mL Eppendorf管中,去掉顶端的帽,将样品慢慢加到树脂上表面的中间,注意不要搅动柱体。以3 000 rpm离心2 min,经纯化的样品流出,被收集在支持用的Eppendorf管中。
(9)加入标记试剂III 8 μL,真空抽干。
(1)在抽干的探针管中加6.5 μL杂交试剂I,充分混匀,使探针溶解。再加入6.5 μL杂交试剂II,混匀备用。
(2)将预杂交的玻片取出,用ddH2O冲去盖玻片。
(3)将探针置于95℃水浴中变性2 min;玻片置于95℃水浴中变性30 s,玻片取出浸无水乙醇30 s,探针取出后迅速置于冰上。
(4)将探针置于芯片上,用盖玻片覆盖,置于杂交舱中,用Parafilm密封,放入42℃杂交箱内杂交过夜(16~18 h)。
(1) 用0.5%的洗涤液1冲洗玻片,去除盖玻片。
(2) 准备两个染色缸,分别装有0.5%的洗片试剂1+2%的洗片试剂2、5%的洗片试剂3,放入60℃水浴锅中。
(3) 将玻片依次浸入以上两个染色缸中洗涤10 min。
(4) 用0.5%的洗涤液1冲洗玻片,晾干后扫描。
一、基因芯片技术步骤
基因芯片技术主要包括四个主要步骤:芯片制备、样品制备、杂交反应和信号检测和结果分析。
目前制备芯片主要以玻璃片或硅片为载体,采用原位合成和微矩阵的方法将寡核苷酸片段或cDNA作为探针按顺序排列在载体上。芯片的制备除了用到微加工工艺外,还需要使用机器人技术。以便能快速、准确地将探针放置到芯片上的指定位置。
生物样品往往是复杂的生物分子混合体,除少数特殊样品外,一般不能直接与芯片反应,有时样品的量很小。所以,必须将样品进行提取、扩增,获取其中的蛋白质或DNA、RNA,然后用荧光标记,以提高检测的灵敏度和使用者的安全性。
杂交反应是荧光标记的样品与芯片上的探针进行的反应产生一系列信息的过程。选择合适的反应条件能使生物分子间反应处于最佳状况中,减少生物分子之间的错配率。
信号检测和结果分析
杂交反应后的芯片上各个反应点的荧光位置、荧光强弱经过芯片扫描仪和相关软件可以分析图像,将荧光转换成数据,即可以获得有关生物信息。
二、基因芯片种类及特点
目前,基因芯片主要由寡核苷酸芯片和cDNA芯片两大类组成。以下分别介绍这两类芯片的基本原理和特点:
寡核苷酸芯片(Oligonucleotides Chip)
概念:是指做在固相载体上的寡核苷酸微阵列。其制备方法以直接在基片上进行原位合成为主、有时也可以预先合成,再按照制备cDNA芯片的方法固定在基片上。原位合成(In situ synthesis)是目前制造高密度寡核苷酸芯片最为成功的方法,有几种不同的工艺,其中最著名的是美国Affymetrix公司()的专利技术——光引导化学合成法(Light-directed chemical synthesis process)。产品名为GeneChip。
Affymetrix公司已公开的光引导化学合成主要过程如下:首先根据杂交目的确定寡核昔酸探针的长度和序列。再由计算机设计出合成寡核苷酸时用到的所有光掩膜(Masks)。最后做探针合成。光导原位合成技术的优点是可以用很少的步骤合成极其大量的探针阵列,探针阵列密度可高达到每平方厘米一百万个。而这种方法的主要缺点:一是需要预先设计、制造一系列掩模,造价较高:二是每步产宰较低.因此合成探针的长度受到了限制。
此外,原值合成的方法还有Incyte Phamaceuticals5公司(http//)和Rosetta Biosystem Inc公司等使用的基于喷墨打印原理的原价合成法(IN situ synthesis with reagents delivered by ink-jet printer devices)。喷印装置与普通的彩色喷墨打印机类似,用四种碱基液体取代墨盒中的彩色墨汁,通过计算机控制喷印机将特定种类的试剂喷洒到预定的区域上。冲洗、去保护、偶联等过程与传统的DNA固相原值合成技术相同。喷印法可以合成长度为40~50 nt的寡核昔酸链,每步产率可以达到99%,合成30nt的寡核昔酸产率可达70%以上。日本佳能公司利用其独创的“气泡喷墨”技术,仅用24 pl溶液就可以在基片上制作出近百微米的小探针点.每平方厘米可排布近20000个探针,克服了喷墨打印技术制备探针阵列密度较小的缺点。
寡核昔酸芯片的杂交和检测分析:样品处理和杂交检测方法与cDNA芯片是一致的。由于寡核昔酸阵列多需要区分单碱基突变.因此严格控制杂交液盐离子浓度、杂交温度和冲洗时间是杂交实验成败的关键。
cDNA芯片(cDNA Chip)
概念:在玻璃片、硅片、聚丙烯膜、硝酸纤维素膜、尼龙膜等固相载体上固定的成千上万个cDNA分子组成cD4A微阵列。制作cDNA芯片最常用的固相载体是显微镜载玻片,载玻片在使用前需要进行表面处理,目的是抑制玻璃片表面对核酸分子的非特异性吸附作用。常用的表面处理方法有氨基化法、醛基化法和多聚赖氨酸包被法。
cDNA芯片的制备:制备cDNA芯片多用合成后点样法(Spotting after synthesis),简称点样法。合成后点样法使用的专用设备称为点样仪(Arrayer),目前有多家国外公司(如Bopdiscovery,Biorobotics,Vartesian Technologies,Genetic Microsystems,Genomicssolutions等)生产点样仪。点样仪的主要部件是由计算机系统控制的电脑机械手。点样时电脑机械手利用点样针头(Pin)从96或384檄孔板上蘸取cDNA样品,按照设计好的位置点在载玻片表面。针头的数目、机械手的移动时间、针头清洗和干燥时间、样品总数和载破片数目共同决定了点样所需时间;针头的直径和形状、样品溶液的粘滞程度以及固相载体的表面特性决定了芯片上液滴的量和扩散面积。
除点样法以外,cDNA芯片也可以用电子定位法(Electronic addressing)制备。美国Nanogen公司()最早使用这项技术,他们对空白片上的持定位点进行电活化,使相应活化点的表面带有电荷,成为“微电极”,能够吸附cDNA分子。带有微电极的片子与样品溶液共同孵育,溶液中的cDNA分子被吸附的微电极上,并与片子表面发生化学结合从而固定。用这种工艺制备的芯片的优点是:微电极的电吸附作用可以提高与靶核酸的杂交效率。缺点是制备复杂.成本较高。这种带有微电极的芯片也称为主动式芯片。许多公司出售商品化的cDNA芯片,可以根据需要从公司定制。美国Incyte公司是显著名的cDNA芯片提供商之—,其产名为GEMTM芯片,每张片子上最多可以含有10000点,对样品中mRNA的检出限达到2pg,对两种来源样品中的基因差异表达的检出限为2倍。
cDNA芯片的使用方法——样品制备和杂交
样品制备包括分离和标记两个方面,有些样品还婴经过核酸扩增放大这一步骤。样品制备的一般过程是:提取待检样品中的mRNA,反转录成cDNA,同时标记上荧光(荧光标记为最常用的方法.优点是无放射性且有多种颜色可供使用;研究者可以根据需要选用其它标记方法,例如同位素标记法、化学发光法或酶标法;如果目的是研究两种来源的组织细胞基因的差异表达,则分别提取两种组织细胞的mRNA,反转录成cDNA,分别标记两种不同颜色的荧光(如Cy3和Cy5),等量混合后与芯片进行杂交反应。
杂交反应可以在专用的杂交仪(Hybridization station)或杂交盒(Hybridization chamber)内进行。杂交仪能够容纳多张芯片,有利于杂交过程的自动化和杂交条件的标准化。单个反应可以在杂交盒里进行,斯坦福大学Patrick O.Brown教授领导的实验室将制作杂交盒的详细说明提供在互联网,同时还提供了cDNA芯片设备、样品处理与杂交的完整的实验手册和有关软件的下载,网址是:http://cmgm.stanford.edu/pbrowri/index.html。
杂交信号检测和分析
通常检测芯片上的杂交信号需要高灵敏度的检测系统——阅读仪(Reader),阅读仪的成像原理分为激光共焦扫描和CCD成像两种。前者分辨率和灵敏度较高,但是扫描速度较慢且价格昂贵。后者的持点与之相反。十祈一次标准的cDNA芯片杂交实验产生的成干上万个点的杂交信息,需要生物信息学手段的支持。已经有多种读取和分析杂交信号的应用软件以及能够与网络公共数据库连接进行数据分析的应用软件、在NHGRI的问站可以下载用于图像分析的软件,还可以找到能够与Genbank、Unigene等数据库联机工作的软件包。
最新实验心得
(共6个心得)
基因芯片的广告铺天盖地,关于基因芯片的很多宣传也让人热血沸腾,例如:那个人、那篇文章做了基因芯片发了大文章;有如:宣传者拿出一个大列表让你看,这么多高分的杂志都是用了基因芯片。好像这个价格不菲的东东档次很高,也能给你的实验找到一个突破口,也能让你发篇大文章,至少是一篇SCI,甭管分高分低。
2003-8的一篇综述,对基因芯片的统计问题深入浅出地进行了一些探讨,对基因芯片的本质及实际操作问题都有涉及。文章中对这一新兴领域的深刻见解表现了作者深厚的学术涵养。
发表于 23:53
随着人类基因组(测序)计划( Human genome project )的逐步实施以及分子生物学相关学科的迅猛发展,越来越多的动植物、微生物基因组序列得以测定,基因序列数据正在以前所未有的速度迅速增长。然而,怎样去研究如此众多基因在生命过程中所担负的功能就成了全世界生命科学工作者共同的课题。为此,建立新型杂交和测序方法以对大量的遗传信息进行高效、快速的检测、分析就显得格外重要了。
发表于 08:17
(共3个问题)
相关实验Protocol
谁能提供实验帮助?
谁做这个实验?
这种实验主要还是交给公司做,现在公司实验检测和数据分析都可以做,学生老师或者医生只要有个很好的思路设计好实验就可以了。上海敏芯信息科技对这种芯片的分析和解读很专业的。
不知道怎么做
都是交给公司做的,自己没做过
用到基因芯片的,一般都是公司给做的,如上海生物芯片,关键在于后续的生物信息学分析,找出感兴趣的点~现在流行的还有蛋白芯片,如上海华盈生物(/)
protocol不是很复杂,每次都能得到结果,可靠性尚可,不过有时候和PCR验证不一致。还是很好的筛选方法。
谁关注这个实验?
丁香通采购热线:400-
Copyright (C)
DXY All Rights Reserved.基因表达谱芯片数据分析 - 广州济恒医药科技有限公司
基因表达谱芯片数据分析
&基因表达谱芯片数据分析及其Bioconductor实现&1.表达谱芯片及其应用表达谱DNA芯片(DNA microarrays for gene expression profiles)是指将大量DNA片段或寡核苷酸固定在玻璃、硅、塑料等硬质载体上制备成基因芯片,待测样品中的mRNA被提取后,通过逆转录获得cDNA,并在此过程中标记荧光,然后与包含上千个基因的DNA芯片进行杂交反应30min~20h后,将芯片上未发生结合反应的片段洗去,再对玻片进行激光共聚焦扫描,测定芯片上个点的荧光强度,从而推算出待测样品中各种基因的表达水平。用于研究基因表达的芯片可以有两种:① cDNA芯片;②寡核苷酸芯片。cDNA芯片技术及载有较长片段的寡核苷酸芯片采用双色荧光系统:目前常用 Cy3一dUTP(绿色)标记对照组mRNA,Cy5一dUTP(红色)标记样品组 mRNA[1]。用不同波长的荧光扫描芯片,将扫描所得每一点荧光信号值自动输入计算机并进行信息处理,给出每个点在不同波长下的荧光强度值及其比值(ratio值),同时计算机还给出直观的显色图。在样品中呈高表达的基因其杂交点呈红色,相反,在对照组中高表达的基因其杂交点呈绿色,在两组中表达水平相当的显黄色,这些信号就代表了样品中基因的转录表达情况[2]。基因芯片因具有高效率,高通量、高精度以及能平行对照研究等特点,被迅速应用于动、植物和人类基因的研究领域,如病原微生物毒力相关基因的。基因表达谱可直接检测mRNA的种类及丰度,可以同时分析上万个基因的表达变化,来揭示基因之间表达变化的相互关系。表达谱芯片可用于研究:①同一个体在同一时间里,不同基因的表达差异。芯片上固定的已知序列的cDNA或寡聚核苷酸最多可以达到30 000多个序列,与人类全基因组基因数相当,所以基因芯片一次反应几乎就能够分析整个人的基因[3]。②同一个体在不同时间里,相同基因的表达差异。③不同个体的相同基因表达上的差异。利用基因芯片可以分析多个样本,同时筛选不同样本(如肿瘤组织、癌前病变和正常组织)之间差异表达的基因,这样可以避免了芯片间的变异造成的误差[4]。张辛燕[5]等将 512个人癌基因和抑癌基因的cDNA用点样仪点在特制玻片上制成表达谱芯片,对正常人卵巢组织及卵巢癌组织基因表达的差异性进行比较研究,结果发现在卵巢癌组织中下调的基因有23个,上调的基因有15个,初步筛选出了卵巢癌相关基因。Lowe[6]等利用胰腺癌、问充质细胞癌等组织的cDNA制备基因芯片,筛选到胰腺癌细胞中高表达的基因,为医疗诊断、病理研究及新药设计奠定基础。&2. 表达谱芯片的数据处理技术2.1 探针水平数据(probe-level data)的获得提取生物样品的mRNA并反转录成cDNA,同时用荧光素或同位素标记。在液相中与基因芯片上的探针杂交,经洗膜后用图像扫描仪捕获芯片上的荧光或同位素信号[7],由此获得的图像就是基因芯片的原始数据(raw data),也叫探针水平数据。获取探针水平的数据是芯片数据处理的第一步,然后需要对其进行预处理(pre-processing),以获得基因表达数据(gene expression data)。基因表达数据是芯片数据处理的基础。2.2 预处理2.2.1背景(background)处理背景处理即过滤芯片杂交信号中属于非特异性的背景噪音部分。一般以图像处理软件对芯片划格后,每个杂交点周围区域各像素吸光度的平均值作为背景。但此法存在芯片不同区域背景扣减不均匀的缺点,同时会使1%~5%[7]的点产生无意义的负值。也可利用芯片最低信号强度的点(代表非特异性的样本与探针结合值)或综合整个芯片非杂交点背景所得的平均值做为背景[8]。Brown[8]等提出利用整个芯片杂交点外的平均吸光度值作为背景的best-fit方法,使该问题得到较好的解决,并有效地提高了处理数据的质量。背景处理之后,我们可以将芯片数据放入一个矩阵中:&M = &&其中,各字母的意义如下:N:条件数;G:基因数目(一般情况下,G&&N);行向量mi=(mi1,mi2,&,miN)表示基因i在N个条件下的表达水平(这里指绝对表达水平,亦即荧光强度值);列向量mj=(m1j,m2j,&,mGj)表示在第j个条件下各基因的表达水平(即一张芯片的数据);元素mij表示第基因i在第j个条件下(绝对)基因表达数据。m可以是R(红色,Cy5,代表样品组)。也可以是G(绿色,Cy3,代表对照组)。2.2.2数据清洗(data cleaning)经过背景校正后的芯片数据中可能会产生负值,显然负值是没有生物学意义的。数据集中还可能包括一些单个异常大(或小)的峰(谷)信号,它们被认为是随机噪声。另外,对于负值和噪声信号,通常的处理方法就是将其去除。然而,数据的缺失(除了上述原因会造成数据缺失以外,扫描的过程中也可能会产生缺失)对后续的统计分析(尤其是层式聚类和主成分分析)有致命的影响。所以对数据的删除,通常是删去所在的列向量或行向量。一个比较常用的做法是,事先定义个阈值M。若行(列)向量中的缺失数据量达到阈值M,则删去该向量。若未达到M,有两种方法处理,一是以0或者用基因表达谱中的平均值或中值代替,另一个是分析基因表达谱的模式,从中得到相邻数据点之间的关系,据此利用相邻数据点估算得到缺失值(类似于插值)。2.2.3归一化(normalization)经过背景处理和数据清洗处理后的修正值反映了基因表达的水平[9]。然而在芯片试验中,各个芯片的绝对光密度值是不一样的,在比较各个试验结果之前必需将其归一化(normalization,也称作标准化)。在同一块芯片上杂交的、由不同荧光分子标记的两个样品间的数据,也需归一化。常用的标准化方法有&看家基因法&、基于总光密度的方法、回归方法、比率统计法 [10]等。⑴ &看家基因(house-keeping gene)&法此法最为常用,可以用于几张芯片的数据归一化。它预先选择一组表达水平不变的看家基因,计算出这组基因平均ratio值为1时标准化系数,然后将其应用于全部的数据以达到归一化的目的。但是目前尚未找到理想的看家基因[11],另外此前有研究表明,所谓&看家基因&在不同实验条件下其表达水平同样发生变化[12]。⑵基于总光密度的方法[13]此方法用于标准化同一块芯片上杂交的两种样品,它假设两批待标记的mRNA的量相同;相对于对照组样品,实验组的表达应既有上调也有下调。而且,扫描所得的所有Cy5和Cy3荧光分子的光密度值是相同的。据此计算出一个标准化系数,用以重新计算芯片上每个基因的光密度。⑶回归的方法[13]此方法用于标准化同一块芯片上杂交的两种样品。如果mRNA来自紧密相关的样品,那么大部分基因的表达水平是相近的。这样,在以Cy5和Cy3为坐标的散点图上,这些基因应呈一直线。如果两批样品的标记和检测效率相同,则直线的斜率也是惟一的。那么,标准化这些数据就等同于用回归的方法计算其最适斜率。但在实际试验中,光密度值常为非线性,此时应该使用局部回归方法,如LOWESS(1ocally weighted scatterplot smoothing)回归法。⑷比率统计法[13]此方法用于标准化同一块芯片上杂交的两种样品,并且建立于以下的假设之上:在近似的两个样品中,虽然基因有上调和下调,但一些基本的基因(如管家基因)的表达量是近似相同的。由此得出一个近似概率密度公式:比率T =R /G(R 和G分别是芯片上第K个点的红光和绿光的强度),经过迭代算法处理得到一个平均表达比率及其可信限,用于数据的标准化计算。2.3基因表达数据经过预处理,探针水平数据转变为基因表达数据。为了便于应用一些统计和数学术语,基因表达数据仍采用矩阵形式。随着生物学进入后基因组学时代,类似芯片数据这样的的非序列生物数据几乎呈指数形式膨胀。这些生物数据往往维数高,具有异质性和网络性,传统的分析方法已不能胜任,发展优秀的算法分析生物数据成为生物学研究的瓶颈。数据挖掘等决策支持技术因其在大规模数据处理方面的卓越能力而在其中占据越来越重要的地位[14]。数据挖掘也被称为数据库知识发现(knowledge discovery in database,KDD),是从数据库中识别出有效的、新颖的、潜在有用的并且最终可理解的、模式的非平凡过程[15]。迄今还没有一套完整、统一的数据挖掘理论体系来指导如何获取有用信息[16]。2.4差异表达基因(differentially expressed genes,DEGs)筛选用于检测基因表达水平的DNA微阵列的应用之一是比较实验,目的是比较两个条件下的基因差异表达,从中识别出与条件相关的特异性基因或显著差异表达的基因。2.4.1倍数变化法(fold chang, FC)比较两个各不同生物样本时,可根据ratio值来筛选,一般认为ratio值在0.5&2.0范围内的基因不存在显著表达差异,该范围之外则认为表达有显著差异。当然,上述范围需要根据不同实验条件作调整。FC法的优点是简单直观,需要的芯片量少,节约研究成本[16];缺点是结论过于简单,其阈值的划分主观性较强、缺乏生物学和统计学支持,尤其对于分析样本中的低拷贝或高拷贝转录子,容易产生假阳性和假阴性问题[12]。一般而言,FC法可用于对于预实验和实验初筛。2.4.2&参数分析(parameter analysis)⑴ t-检验(t-test)t 检验可用于两个生物条件下多个重复样本的差异表达基因的筛选。当 t 超过根据可信度选择得标准时,比较的两样本被认为存在着差异。受样本量和成本的限制,研究者提出了调节性 t 检验(regulated t-test)。它根据在基因表达水平和变异之间存在着相互关系,相似的基因表达水平有着相似的变异这个经验,应用贝叶斯条件概率统计方法,通过检测同一张芯片上其他临近基因表达水平,理论上可对任何基因的变异程度估计进行弥补。调节性 t 检验法对基因表达的标准差估计优于一般t检验和FC法[20]。⑵ F 检验F 检验又称变异数分析或方差分析(analysis of variance, ANOVA)。F 检验适用于多个生物条件下DEGs的检测,它检验两个或多个样本均数的差异是否有统计学意义。方差分析需要参照实验设计,参照样本常用多种细胞的mRNA混合而成,由于所有的细胞同时表达基因众多,结果低表达基因在样本混合后就被稀释而减少了参照样本的代表性,因此,增加参照样本的细胞不会提高参照样本的代表性。方差分析的缺点在于虽然能计算出那些基因有统计差异,但是他没有对那些组之间有统计差异进行区分。如果相区分组间的统计差异,则需要使用均值间的两两比较(post-hoc comparisons)检验,该检验是对方差分析后的基因进行下一水平更细节的分析[15]。⑶回归分析(regression analysis)基因表达谱的回归分析可以处理多个基因变量间线性依存关系,研究者提出了&使用回归分析的基因表达谱数据&。Li 等[22]使用互变量(Cox)回归方法分析基因表达谱数据,用于患者的生存率预判;Huang 等[23]将线性回归方法应用于肿瘤的分类研究中。2.4.3非参数分析(nonparameter analysis)由于噪声的存在,通过数据转换后微阵列数据可能仍然不呈正态分布,因此使用参数分析法可能有风险。非参数检验的优点在于不必假设数据满足特殊的正态分布,尽管其对数据进行筛选有些粗放,而且其对表达数据分析的敏感性不如参数分,但是仍然可行。常用的基因表达谱数据分析的非参数检验方法有:传统的非参数t-检验(nonparametric t-test)[24]、Wilcoxon秩和检验(Wilcoxon rank sun test)[24]和新的非参数法如检验贝叶斯法(empirical Bayes method)[25]、芯片显著性分析法(signifcance analysis of micorarray,SAM)[26]、混合模型法(the mixture model method,MMM)[27]等。2.4.4假表达谱(pseudo profile)假表达谱常用于鉴别基因的某一特定性为。比如要鉴别在肺癌中高表达而在正常肺组织中和其他肿瘤组织中低表达的基因,就可以先假设具有这样一个假表达谱,然后在实际芯片数据中去寻找与其相吻合的基因[7]。关于DEGs的检测,目前尚无统一性标准,芯片后验证性实验(RT-PCR、荧光定量 RT-PCR、Northern等)是确定样本基因差异表达的黄金标准。2.5基因芯片数据分析的非监督方法在基因表达谱中找出差异表达基因只是对表达谱数据进行统计学分析第一步,通过建立共调控网络,发掘未知和已知基因功能才是芯片实验的最终目的。前者可以看成是基因表达的单基因水平分析,后者则为基因与蛋白质网络分析。根据对所研究的基因表达规律和实验分组是否了解,可将分析方法分为监督的(supervised)和非监督导的(unsupervised)。前者根据特定样本或基因的已知生物学信息对表达谱建立分类器,进而对各基因进行功能分类和预测,后者则通过计算和比较表达谱各基因统计学距离,聚类&相似性&样本或基因。两者都假设功能相似的基因其表达谱也是相似的,但Zhou[19]等认为,一些相似功能的基因并不总是表现相似的表达谱,针对此他们提出了&过渡共表达基因&概念及相应的数学模型鉴定表达谱中此类基因。2.5.1非监督的分析方法概述芯片数据统计分析的非指导的方法即聚类分析(cluster analysis),在目前最为常用。聚类分析是研究事物分类的一种方法,是在事物分类面貌尚不清楚的情况下研究事物的分类,其原理是直接比较样本中各指标之间的性质,将性质相近的归为一类,性质差别较大的归在另一类。统计学上通过计算相似距离(similarity distances)来比较数据,常用相关系数或欧氏距离表示。2.5.2&非监督分析中的数据降维(dimension reduction)在芯片数据中,有些数据并未提供有显著意义的信息,反而会给数据分析带来不必要的复杂。理想情况下,经过数据降维处理后,剩余数据即为非冗余数据(non-redundant data),不同组间的数据提供的信息是互相独立的。数据降维技术也分为监督的方法和非监督的方法。非监督分析中的数据降维主要是指删除不提供信息的数据。如果某一基因在不同条件下的表达水平相同,则它对区分这些不同条件没有任何作用,该基因所提供的数据即为冗余数据。为了去除冗余数据,可将冗余的数据整合到一个新的杂合分组中。主成分分析可很好的完成这一任务。2.5.3&非监督分析的各种技术简介⑴系统聚类(hierarchical clustering)[10]系统聚类根据聚类的方式分为凝聚法(agglomerative approach)和分裂法(divisive approach)。a. 凝聚法按照从下到上的方式对个体进行聚类,初始每个个体从各为一类、按照一定的规则进行逐步合并,直到所有个体都归为一类或达到预定的终止条件。凝聚法因类问相似性的度量方法的不同而又有所差异。b. 分裂法按照从上到下的方式对个体进行聚类,初始所有个体为一类,然后按照一定规则逐渐分裂,直到每个个体形成一类或满足某个特定的结束条件,如达到预定的类数或两个最邻近的类之间的距离超过某预定值。系统聚类方法简单,但有时在选择分裂点或合并点时存在困难。一旦将一组个体分裂或合并,后续的类将在新类的基础上产生,而不能取消己经完成的分裂或合并,也不能在类问对个体进行调整。系统聚类不适于分析基因表达谱复杂的数据[9]。⑵分割聚类(partitioning methods)[10][11]对于一个给定的基因芯片矩阵,分割算法将把观察个体分为预定的几部分,使得对个体的分割达到最优的客观标准,即类内个体间的相似性达到最大,而类间个体间的相似性达到最小。最常用的分割算法为k-means法和k-medoids法。a. k-means法把n个观察个体分成k个类,使类内的相似性高,而类间的相似性低。类的相似性用类内观察个体的均值来度量,此均值被视为类的重心。通过计算新形成的k类的类均数,达到目标函数收敛。具体步骤如下:所有数据随机分入k个簇中,每个簇的平均向量用于计算各簇间的距离。然后用迭代方法计算簇间数据移动后的距离,某个数据只有在比原先所在的簇更为接近现在所在的簇时,才能留在目前所在的簇,每次移动后簇的平均向量都重新计算,如此不断重复,直至一旦有任何移动,都会增加簇内的距离或减小簇间的非相似性为止。该法的局限性在于:①此方法在较大数据量时的扩展性和效率都较理想,但可能陷入局部最优。②只能用于类均数确定的情况下,若包含分类变量时就不适用。③必须提前确定类数。④受噪声和异常值的影响较大。目前常先使用凝聚算法确定类数和初始的类,再利用迭代重定位技术提高聚类的效果。k-medoids算法中用模式代替类均数,使用新的非相似性指标处理分类资料,用以频数为基础的方法对类的模式进行更替,而k-prototypes算法(k-means和k-medoids的结合)可以处理数值变量和分类变量的混合资料。EM(expectation maximization)算法是k-means算法的另一种扩展,把每一个体不是划为具体的某种类别,而是赋予其属于各类的概率。b. k-medoids法k-means算法对于异常值敏感,因为极端值可能歪曲资料的分布。k-medoids算法选择类的最中心的一点作为参照点,而不是类中所有个体的均数。当数据中存在噪声和奇异值多时,k-medoids算法比k-means算法具有更高的稳健性,因为一个类中具有代表性的中心点比该类中所有个体的均数更不易受异常值的影响。但k-medoids方法同样需要预先确定类数[10]。分割聚类分析适合于对具有相似性的基因进行分类。系统聚类和分割聚类是基因芯片数据分析中最传统、应用最广泛的方法,对于一般资料具有较理想的分类效果,但在处理复杂非线性及变量问的交互作用时效果较差。⑶主成分分析(principal component analysis,PCA)[28]在大规模基因表达数据的分析工作中,由于组织样本例数远远小于所观察基因个数(G&&N),如果直接采用前述聚类分析可能产生较大误差,故需要对聚类算法进行改进。目前已经提出很多改进的聚类方法,其中较为流行的方法是应用主成分分析方法对数据进行分析。主成分分析的目的是要对多变量数据矩阵进行最佳综合简化。使用的方法是寻找这些变量的线性组合&&称之为&主成分&(principal component),使这些主成分间不相关。为了能用尽量少的主成分个数去反映原始变量间提供的变异信息,要求各主成分的方差从大到小排列,第一主成分最能反映数据间的差异。主成分分析通过合并原来的维数得到更少的维数来表示对象,同时要求新的维数必须尽可能地反映原有维数所反映的信息,它有较少的信息丢失.主成分分析有助于简化分析和多维数据的可视化[17]。⑷自组织映射图网络(self-organizing map clustering,SOM)[10]所谓自组织特征映射是指神经网络中邻近的各个神经元通过侧向交互作用彼此相互竞争,自适应地发展成检测不同信号的特殊检测器。自组织映射网络图的基本原理是:将多为数据输入成几何学节点,相似的数据模式聚成节点,相隔较近的节点组成相邻的类,从而使多维的数据模式聚成2维节点的自组织映射图。SOM适合于复杂的多维数据的模式识别和特征分类等探索性分析,它允许对聚类的部分结构施加干预。相对于系统聚类中的严格结构和k-means聚类的无结构,SOM更灵活。与主成分分析(PCA)类似,SOM可以对数据集中的不同表达模式实现可视化,从而判断某种模式是否为另外一种模式的变异。SOM同样需要实现确定类数。⑸模糊聚类法(fuzz clustering)[10]在真实情况下,基因各功能类间的边界经常是不能截然分开的,模糊聚类适合于解决此类问题。该方法首先由Bezdek提出,后被Guthke用于基因芯片数据中的基因的分类。它给出向量(代表观察个体或基因)隶属于各类的隶属度,亦即该向量属于各类的概率。非监督模糊聚类的应用包括模糊c-means法、概率SOM和Gustafson-plaid法。⑹双向聚类(two-way clustering,TWC)基因表达谱常采用单向聚类法(one-way clustering),即要么以整个样本中特性相似的基因进聚类,或者以基因表达相似的样本进行聚类。对样本和基因同时进行聚类就是双向聚类法(two-wayclustering),目前基因表达谱的数据分析常用的双向聚类有基因剃须(gene shaving,GS)和格子模型(plaid models)。基因剃须是通过基因的共同表达值或表达量来鉴定基因的亚类,基因表达谱分析方法常用监督进行聚类,没有考虑一个基因可能属于多个类。基因剃须对基因或样本进行分类既可以是监督的,也可以是非监督的。基因剃须近年逐渐被应用于基因表达谱的分析中,Hastie[23]使用基因剃须方法分析了B细胞淋巴瘤患者的基因表达谱,鉴定了一小类可用于生存率预判的基因。2.6基因芯片数据分析的监督方法监督的方法又称判别分析(discriminant analysis),以判别样本所属的类型。判别分析在已有数据的基础上建立分类器,并利用所建立的分类器对未知样品的功能或状态进行预测。与聚类分析不同,判别分析使用某种方法将研究对象分成若干类的前提下,建立判别函数,用以判定未知对象属于已知分类中的哪一类[16]。2.6.1&监督方法的数据降维监督的方法中的数据降维主要指数据选择,其目的有二:⑴挑选相对基本的数据了;⑵减少同济分析所必须的数据量。最简单的降维方法是,不断重复为每个数据加权的分类算法。首先用分类算法去除加权最小的数据,然后在剩下的数据中再用分类算法去除加权最小的数据,如此不断重复,直到这种处理已经失去统计显著性的时候,表明有重要信息已经被错误删去了。此时,立即停止计算,然后找回被误删的数据,这样剩下的数据则为非冗余的。当然,这个方法的缺点在于难以确定统计显著性的大小。2.6.2&各类监督方法技术简介⑴线性判别分析(1inear discriminant analysis,LDA)线性判别分析是指在输入变量上构造线性判别函数的方法。即寻找一种变换,使得在某种意义下类间分离性最大,类内相异性最小。它是一种有监督的维数约简方法[30][31]。线性判别分析的特点是计算简单,易于应用,一般具有较低的误差率,但不能处理基因(或个体)间的交互作用。因此,当基因(或个体)间存在复杂的交互作用时,线性判别分析不易发现数据中的规律性[10]。有研究指出,在基因芯片的分类中,Diagonal线性判别分析具有与最临近分类相接近的较高的判别性能,而Fisher线性判别分析的判别性能比其他方法要差[10]。另外,与LDA接近的还包括二次方判别分析等。Cho等[32]应用Fisher判别方法分析肿瘤患者的基因表达谱资料以判别肿瘤的分型;Dangond[33]等将Fisher判别方法应用于计算肌萎缩侧索硬化病的基因表达谱研究中。⑵k最临近分类法(k-nearest neighbor classfiers)k最临近分类法建立在通过类比进行学习的基础上,训练样本由n维计量变量描述,而每个观察个体由n维空间中的一点来描述。当给定一个未知样本,k-最临近分类算法将在模式空间中搜寻与此样本最临近的k个观察个体,这k个个体就是该位置观察个体的k个最临近点。一般采用欧氏距离来衡量临近程度。未知样本被赋予k个租赁金的个体中类数最多的类。与复杂的分类算法相比,k-最邻近算法具有简单、直观、误差率较低等特点,能够以&黑箱&的方式处理基因间的交互作用,但不能洞悉数据的结构。⑶决策树(decision trees)[16]决策树是一种常用于预测模型的算法,它通过将大量数据有目的的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理[34]。⑷人工神经网络法(artificial neural network,ANN)ANN是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在ANN中,大量节点(&神经元&或&单元&)之间相互联接构成网络,即&神经网络&,以达到处理信息的目的。其优势是运行分析师无需在心中有特定模型,而且神经网络可以发现交互作用效果。Sawa等对酵母属基因表达谱数据进行欧式距离、相关系数、相互信息和基于神经网络的聚类分析,发现基于神经网络的聚类结果较前3种更为合理。⑸支持向量机(support vector machine,SVMs)[11][35]支持向量机是数据挖掘中的一个新方法。支持向量机能非常成功地处理回归问题(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题,它通过训练一种&分类器&来辨识与已知的共调控基因表达类型相似的新基因。它起源于统计学习理论,研究如何构造学习机,实现模式分类问题。支持向量机使用结构风险最小化,使每一类数据之间的分类间隔最大。SVM用构建训练组的方法来学习如何区分不同的类别,它可以利用生物学的信息决定如何分组,也可以找出已分类组中的错误值。例如Williams [36]为了鉴定出肾母细胞瘤复发的基因表达谱模型,研究了27例肾母细胞瘤患者的肿瘤组织,其中13例2年内复发,对复发和未复发的肿瘤组织进行基因芯片实验,并应用支持向量机对基因表达谱数据进行分析,结果发现了一小类可能用于肿瘤预诊的基因。2.7数据的可视化方法[14]生物信息数据量大,形式复杂,直观地显示数据挖掘结果使其易于理解甚至关系到数据挖掘的成功与发展。目前已有一些可视化方法和工具,如Stanfold大学的TreeView软件采用色彩图与树图显示聚类的结果,树图能够清楚地显示层次聚类的每一步骤。另外,Bioconductor也提供芯片数据可视化的方法。&3. R & Bioconductor应用于表达谱芯片的数据处理3.1 R & Bioconductor简介R语言是一种计算机程序设计语言,也是一个开放式的软件开发平台,它具有强大的数学统计分析和科学数据可视化功能,能提供给各种数据处理和统计分析工具,如线性和非线性建模、经典的统计测试、时间序列分析、分类和聚类,同时也提供各种图形显示和分析工具。由于R语言是一个开放式的软件开放平台,软件开发人员可以再这个平台上不断扩充R语言的功能,并开发出面向特定应用的软件,如Bioconductor。Bioconductor实际上是一个开源和开放式的软件开发项目,该项目起始于2001年秋季,项目核心成员主要是哈佛医学院/哈佛公共卫生学院的Dana Farber癌症研究所生物统计组,还有来自美国和国际上的其他研究机构的一些研究人员。该项目的目标是建立多方面的、强有力的基因组数据的统计与图形分析方法,促进各种生物数据的集成,推动数据的综合分析和利用,促进各种生物数据的集成,推动数据的综合分析和利用,促进形成?%上一篇:下一篇:
技术部联系人:李小姐
移动电话:
邮政编号:510463
公司地址:广州萝岗科学城创新基地揽月路80号C区406-410
公司邮箱:
&联系人:石小姐
联系电话:020-&
邮政编号:510463
公司地址:广州萝岗科学城创新基地揽月路80号C区406-410
Copyright@ &
广州济恒医药科技有限公司版权所有&&&&&
电话:020-
地址:广州萝岗科学城创新基地揽月路80号C区406-410
邮编:510463
&&&&&&&&&&}

我要回帖

更多关于 芯片探针与基因名称 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信