检测基因表达是否与年龄相关应用什么统计学性别年龄组比较分析

点击联系发帖人 时间：2017-10-28 04:27

性别年龄的统计学分析

参考文献：
上篇论文：下篇论文：
400-675-1600利用基因表达谱芯片筛选胃癌及转移相关差异表达基因的研究
本文应用含有14784条人类全长基因的cDNA表达谱芯片，以临床切除的胃癌和正常胃粘膜组织、胃原发癌和转移癌组织标本为研究对象，筛选胃癌、淋巴结转移和肝转移相关差异表达基因，进一步应用RT-PCR、免疫组化和Western印记分析验证部分差异表达基因在胃癌、淋巴结转移组织中的表达，从分子水平阐释胃癌及其转移的机制，对有效防治胃癌、提高胃癌患者长期生存率具有重要的指导意义。
实验方法：
1、标本收集与临床病理资料选取大连医科大学附属第一医院普外科手术切除、病理检查证实的胃癌6例，其中4例伴有淋巴结转移，1例伴有肝转移，每例于标本离体后立即取胃原发癌组织、配对的正常胃粘膜及转移灶癌组织，入液氮冷冻保存备用。所选用病例术前均未行放疗和化疗，且经组织学检查证实。
2、cDNA微阵列芯片制备芯片采用上海生物芯片有限公司提供的人14KcDNA表达谱芯片，为监控芯片杂交数据的可靠性，设定阳性对照为看家基因(10个)：阴性对照为细菌基因(6个)：空白对照为点样液。人14KcDNA表达谱芯片基因总数14784个，矩阵点数为18点×18点×48(亚矩阵)，点间距230μm。
3、mRNA抽提按Trizol一步法分别抽提胃癌组织、正常胃粘膜和淋巴结转移、肝转移组织总RNA，采用QIAGEN Rneasy Kit进一步纯化总RNA，应用琼脂糖凝胶电泳判断28S和18S的亮度比例评价总RNA的质量，分离mRNA。
4、标记与杂交参照Schena等的方法逆转录cDNA探针并标记mRNA，分别用Cy5-dUTP和Cy3-dLJTP标记不同组织的mRNA。将含混合探针的杂交液与芯片变性后，将杂交液滴于芯片点样区，用盖玻片覆盖，置于杂交舱中，用Parafilm密封，放入42℃中温水浴杂交16h。
5、结果分析采用激光共聚焦荧光扫描仪扫描芯片，用QuantArray&'R&分析软件读取数据，得出Cy3和Cy5标记的强度值，计算Ratior值为Cy3/Cy5。结果分析：(1)总RNA提取结果良好；(2)Cy3和Cy5信号荧光强度必须有一个&800；(3)Ratio(Cy3/Cy5)比值的自然对数绝对值&2或&0.5，判断为差异表达基因。
6、 RT-PCR实验验证部分表达差异基因取胃癌组织、淋巴结转移组织的RNA在常规条件下从引物开始反转录，PCR扩增，检测筛选出的差异表达基因在胃癌组织和淋巴结转移组织中的表达，对基因芯片结果进行验证。
7、验证差异表达基因EphB4的蛋白水平采用免疫组化和Western印记方法对筛选出差异表达基因Ephb4在正常胃粘膜、不同分期的胃癌和淋巴结转移组织中蛋白表达进行分析，同时探讨EphB4表达与胃癌临床病理因素的关系。
8、统计学分析采用SPSS10.0软件，计数资料采用X&'2&检验，四格表的确切概率法，P&0.05有统计学意义。
研究结果：
1、RNA质量控制分别提取胃癌组织和癌旁正常组织中总RNA的含量在50ug～100ug之间，琼脂糖凝胶电泳结果分析RNA，28SrRNA和18SrRNA条带清晰，5S条带模糊，说明RNA纯度和完整性较好。
2、差异表达基因分析本研究测定了胃癌的全基因序列，筛选出胃癌及转移相关差异表达基因。与正常胃粘膜组织相比，6例胃癌组织中共检出40个差异表达基因，21条基因出现显著表达上调，19条基因出现显著表达下调。与胃癌组织相比，在4例淋巴结转移组织中共检出46个差异表达基因，18条基因出现显著表达上调，28条基因出现显著表达下调。在肝转移癌组织中共检出178个差异表达基因，114条基因出现显著表达上调，64条基因出现显著表达下调。
3、验证部分差异表达基因为了验证cDNA芯片实验中差异表达基因，我们选择7个差异表达明显的基因在6例胃癌组织中进行RT-PCR验证，其中5个基因表达上调(S100A6，S100A1，ETV4，CDH17和Ephb4)、2个基因表达下调(NK4和PPP2R1B)。进一步选择2个差异表达明显的上调基因在4例胃癌淋巴结转移组织中进行RT-PCR验证，分别为S100A4和Ephb4，经RT-PCR验证其表达趋势与基因芯片检测结果一致。
4、验证差异表达基因EphB4的蛋白水平免疫组化和Western blot结果显示， EphB4阳性表达位于肿瘤细胞的胞浆和血管内皮细胞中，为棕黄色颗粒，染色均一，40例胃癌组织中EphB4的阳性表达为23例(57.5％)，配对的正常胃粘膜组织中EphB4的阳性表达为6例(15％)，两组之间的差异具有显著性(P&0.05)。EphB4表达水平与胃癌浸润程度、淋巴结转移和Lauren分型密切相关，与患者的性别、年龄和分化程度无关。
研究结论：
1.经基因芯片检测分析，胃癌组织与正常胃黏膜相比基因表达存在明显差异，淋巴结转移癌灶、肝转移癌灶与胃原发癌相比基因表达也存在明显差异，提示胃癌的发生、发展和转移是多基因参与的过程、多基因变异的结果。
2.部分差异表达基因经RT-PCR重复验证，S100A6，S100A11，ETV4，CDH17，NK4，PPP2R1B，S100A4和Ephb4基因异常表达可能参与胃癌发生发展。
3.采用免疫组化和Western印记分析进一步验证差异表达基因EphB4在胃癌中表达，发现EphB4在胃癌组织中异常高表达，且与胃癌浸润程度、淋巴结转移和Lauren分型有相关性，提示EphB4基因有望成为胃癌治疗新靶点。
学位信息：
您可以直接复制参考文献内容，或按指定格式导出。
参考文献：
指定格式：
客服热线：转3 (周一至周五：8:00至17:00)
客服邮箱：.cn5岁以下儿童ORMDL3基因表达与哮喘预测指数相关性分析--《现代生物医学进展》2016年08期
5岁以下儿童ORMDL3基因表达与哮喘预测指数相关性分析
【摘要】：目的:为了探究ORMDL3(orosomucoid 1-like 3)基因表达量与哮喘预测指数(Asthma predictive index,API)、性别、年龄、遗传和环境等因素之间的相关性。方法:从2013年4月-2014年8月,我们收集了115位数据有效的5岁以下儿童的资料,并依据API严格标准对其进行分类:API+(过去一年内喘息次数≥4)、API-(过去一年内喘息次数1-3次)和API0(无喘息)组,统计三组之间的基本资料,并检测ORMDL3基因表达量与API、性别、年龄、家族史、喘息次数、和鼻炎之间的相关性。结果:API+组内男女性别比例显著高于其他组,ORMDL3基因表达量在API0内的表达量显著高于API+和API-组内表达量(P=0.044),并且ORMDL3基因表达量与API指数之间存在一定的相关性(相关系数:-0.232,P=0.020),但是ORMDL3基因表达量与性别、年龄、家族史、喘息次数、和鼻炎之间无统计学相关性(P0.05)。结论:ORMDL3基因表达量与API指数之间存在微弱的负相关性,API阳性鉴定标准需要进一步的改进。
【作者单位】：
【关键词】：
【基金】：
【分类号】：R725.6【正文快照】：
前言哮喘是儿童时期最常见的慢性疾病,据报道,有接近一半的儿童在3岁前至少出现过1次喘息和呼吸困难等哮喘样症状,但仅仅有30%的儿童出现反复哮喘[1-3],且到学龄前仍有喘息症状。但由于引起喘息的原因众多,婴幼儿肺功能检测不可靠,尚无确切诊断方法,因此,临床儿科医生难以在婴
欢迎：、、)
支持CAJ、PDF文件格式，仅支持PDF格式
【相似文献】
中国期刊全文数据库
丁毅鹏;何海武;石慧芳;林莉;陈山;姚红霞;;[J];海南医学;2012年11期
池颖静;庄建伟;江柳;;[J];中国医学创新;2012年30期
黄争光;赵霞;;[J];医学研究杂志;2013年11期
金哲;王金凤;李红;王园园;王强;吴奎武;徐东群;徐东刚;;[J];医学研究杂志;2010年11期
黄争光;赵霞;罗卉;;[J];中华中医药杂志;2014年07期
;[J];;年期
中国重要会议论文全文数据库
庄丽丽;金蕊;朱亮华;蒋莉;章素芬;邱灵芝;高珊;王全;周国平;;[A];2012年江浙沪儿科学术年会暨浙江省医学会儿科学分会学术年会、儿内科疾病诊治新进展国家级学习班论文汇编[C];2012年
蒋莉;周国平;;[A];2012年江浙沪儿科学术年会暨浙江省医学会儿科学分会学术年会、儿内科疾病诊治新进展国家级学习班论文汇编[C];2012年
&快捷付款方式
&订购知网充值卡
400-819-9993
《中国学术期刊（光盘版）》电子杂志社有限公司
同方知网数字出版技术股份有限公司
地址：北京清华大学 84-48信箱大众知识服务
出版物经营许可证新出发京批字第直0595号
订购热线：400-819-82499
服务热线：010--
在线咨询：
传真：010-
京公网安备75号&p&以下方法仅适用开发出身或有语言基础的同学。&/p&&p&&br&&/p&&p&我的情况跟题主是一样的，软件工程出身，在之前一直在做Java/Python开发，无意之中接触到了爬虫，接触了一堆一堆的数据，之后慢慢开始对数据感兴趣，开始学习一些数据分析的技能：凭着爬虫以及数据分析的技能我找到了理想中的数据分析岗位。所以我对自己的评价一直是：&b&科班出身的软件工程师、野路子的数据分析师。&/b&&/p&&p&&br&&/p&&p&从Java/Python开发到Python爬虫到数据分析，有很多人是看着我一步一步走过来的，我想在这里根据我自己这段野路子的学习经历说一说非科班如何利用业余时间学数据分析，当然只是数据分析，不是数据挖掘。&/p&&p&&br&&/p&&p&数据分析师的能力分为：&b&分析能力和业务能力，&/b& &a class=&member_mention& href=&///people/1226dd3baaf60e6904a7e& data-hash=&1226dd3baaf60e6904a7e& data-hovercard=&p$b$1226dd3baaf60e6904a7e&&@邹昕&/a& 大神说：&b&分析能力决定一个数据分析师的下限，业务能力决定一个数据分析师的上限。&/b&&/p&&p&&br&&/p&&p&因为是开发出身，我的方法与其他人的不同，&/p&&p&我把数据分析的学习分为两个大的阶段，：&/p&&p&&br&&/p&&p&学习的第一阶段：这一阶段是为了培养自己做分析的能力&/p&&p&&b&第一阶段的基础是要有数据&/b&&/p&&p&分析能力相对来说是死板的，通常你需要学会掌握下面这些技能：&/p&&ul&&li&数据分析常用哪些算法？&/li&&li&需要用哪些库？&/li&&li&如何进行计算？&/li&&li&进行可视化，每一种图表的用途是什么？&/li&&/ul&&p&&br&&/p&&p&为了解决上面抛出的问题，你可以仔细学习阅读下面的书籍：&/p&&p&1. &a href=&///?target=https%3A///subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&利用Python进行数据分析 (豆瓣)&i class=&icon-external&&&/i&&/a&&/p&&p&2. &a href=&///?target=https%3A///subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&SciPy and NumPy (豆瓣)&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&当然，如果你不想用Pyhton用R去搞这么复杂的计算，那你也可以直接把清理好的数据扔在一些做计算和可视化的工具里，我比较熟悉的就是：Tableau，以及据说不错的Power BI.当然最后你发现还是学习Python或者R的数据分析库来的实在，因为他们更加灵活。&/p&&p&&br&&/p&&p&在第一阶段用工具结合Python我留下了一些文章，可以作为参考，这些都是在爬虫抓了很多数据之后，先有数据后结合教程书籍分析学习产生的内容。&/p&&p&1. &a href=&/p/& class=&internal&&链家网的租房数据做些有意思的事情？&/a&&/p&&p&2. &a href=&/p/& class=&internal&&豆瓣读书分析报告&/a&&/p&&p&3. &a href=&/p/& class=&internal&&爬取6.6w+豆瓣电影之后的分析故事&/a&&/p&&p&&br&&/p&&p&学习的第二阶段：&b&这一阶段是为了培养自己做业务的能力&/b&&/p&&p&在第一阶段的学习你已经学会了：&/p&&ul&&li&对数据的整体感知&/li&&li&知道什么时候该用什么图表&/li&&li&掌握了一些基本的算法和分析库&/li&&/ul&&p&&br&&/p&&p&这一阶段，技术不再是你的障碍，&b&重点是要有IDEA&/b&&/p&&p&这一阶段数据分析的步骤通常为：&/p&&ul&&li&我想要做什么？分析什么？&/li&&li&是否有数据能提供支持？把你想做的抽象成数据。&/li&&li&数据获取/数据清洗&/li&&li&开始进行分析（语言、工具）&/li&&/ul&&p&&br&&/p&&p&我们能看到这四个步骤后两个步骤是在第一阶段学习的内容，所以我们只要把精力聚焦在前两个步骤就可以了，那么怎样培养自己数据分析的IDEA，我的方法是：多学多看多做。&/p&&p&&br&&/p&&p&多看：看一些实战IDEA较多的书籍&/p&&p&1. &a href=&///?target=https%3A///subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&数据之美 (豆瓣)&i class=&icon-external&&&/i&&/a&&/p&&p&2. &a href=&///?target=https%3A///subject/3283973/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&啤酒与尿布 (豆瓣)&i class=&icon-external&&&/i&&/a&&/p&&p&3. &a href=&///?target=https%3A///subject/5257905/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&深入浅出数据分析 (豆瓣)&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&多做：&/p&&p&网络上有很多数据分析的案例，很简单易懂，在深层的技术点也不难，你完全可以按照他的思路重新做一遍，就变成了你的思路了。&/p&&p&&b&数据冰山的数据分析文章：&/b&&/p&&p&1. &a href=&/p/?refer=hemingke& class=&internal&&生活中的数据犀利哥之一：开篇及选车&/a&&/p&&p&2. &a href=&/p/?refer=hemingke& class=&internal&&生活中的数据犀利哥之二：排队&/a&&/p&&p&3. &a href=&/p/?refer=hemingke& class=&internal&&生活中的数据犀利哥之三：找座&/a&&/p&&p&4. &a href=&/p/?refer=hemingke& class=&internal&&生活中的数据犀利哥之四：看趋势&/a&&/p&&p&5. &a href=&/p/& class=&internal&&生活中的数据犀利哥之五：找错因果关系&/a&&/p&&p&6. &a href=&/p/& class=&internal&&生活中的数据犀利哥之六：快递员送货&/a&&/p&&p&7. &a href=&/p/?refer=hemingke& class=&internal&&北上广深哪里过得更潇洒&/a&&/p&&p&8. &a href=&/p/?refer=hemingke& class=&internal&&沧海横流，看行业起伏（2015年）&/a&&/p&&p&9. &a href=&/p/?refer=hemingke& class=&internal&&和颐事件之后: 怎么定酒店更有安全感？&/a&&/p&&p&10. &a href=&/p/?refer=hemingke& class=&internal&&老鹿玩数据——不光是求婚神器（一）&/a&&/p&&p&11. &a href=&/p/?refer=hemingke& class=&internal&&老鹿玩数据——不光是求婚神器（二）&/a&&/p&&p&12. &a href=&/p/?refer=hemingke& class=&internal&&《春节自救指南》之数据分析&/a&&/p&&p&&br&&/p&&p&&b&还有我曾经写的几篇文章：&/b&&/p&&p&1. &a href=&/p/& class=&internal&&如何判断一场知乎live的质量？&/a&&/p&&p&2. &a href=&/p/& class=&internal&&豆瓣5.6分的《西游伏妖篇》有水军吗？&/a&&/p&&p&&br&&/p&&p&&b&团支书的一些回答和文章：&/b&&/p&&p&1. &a href=&/question//answer/& class=&internal&&怎样才能以最少的钱租个靠近地铁的房子？&/a&&/p&&p&2. &a href=&/question//answer/& class=&internal&&「上海富了周围，北京坑了周围」？ - 知乎&/a&&/p&&p&3. &a href=&/question//answer/& class=&internal&&如何不吹牛地形容北京有多大？ - 知乎&/a&&/p&&p&&br&&/p&&p&等等几位的文章都可以用来学习参考。&/p&&p&&br&&/p&&p&通过以上数据分析算是入门了，至于如何进阶，我也在摸索中，希望有机会我可以更新到这篇回答里，也欢迎在学习数据分析的同学一起交流。&/p&&p&&br&&/p&&p&&b&PS：如果你正在学习或者想要学习数据分析，又苦于没有数据集，可以在微信公众号“一个程序员的日常”后台回复关键词“0”获取一套我整理好的上百万条各个网站的数据集合。&/b&&/p&
以下方法仅适用开发出身或有语言基础的同学。我的情况跟题主是一样的，软件工程出身，在之前一直在做Java/Python开发，无意之中接触到了爬虫，接触了一堆一堆的数据，之后慢慢开始对数据感兴趣，开始学习一些数据分析的技能：凭着爬虫以及数据分析的技能我…
&p&看到这个问题我必须拿出我收藏多年，不到关键时刻不示人的计算机之神：Ravindrababu Ravula，数据结构和算法、编译原理、操作系统、计算机网络全都懂，懂还就算了，讲课还非常棒！&/p&&img src=&/v2-fef7694c9edf10c32d2439_b.png& data-rawwidth=&1117& data-rawheight=&626& class=&origin_image zh-lightbox-thumb& width=&1117& data-original=&/v2-fef7694c9edf10c32d2439_r.png&&&p&&a href=&///?target=https%3A///channel/UCJjC1hn78yZqTf0vdTC6wAQ& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/channel/UCJ&/span&&span class=&invisible&&jC1hn78yZqTf0vdTC6wAQ&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&很久之前因为工作原因需要一点编译原理的知识，但是本科上课的知识已经忘光了（其实上课的时候也没怎么认真听懂）。然后就上 Youtube 搜了一下，找到这位帅气的印度小哥。怀着试一下的心态看了几分钟，然后发现：&b&根本停不下来&/b&！就一口气把 Parser 相关的知识全听完了，隔天消化一下，后续就写出了人生第一个 Parser，并且应用到了前端的模版引擎当中。虽然我不知道他的名字怎么念，但是我知道他讲课是在太棒了。&/p&&p&给你讲解 Parser 的分类：&/p&&img src=&/v2-a5b4ef654ac91_b.png& data-rawwidth=&1242& data-rawheight=&652& class=&origin_image zh-lightbox-thumb& width=&1242& data-original=&/v2-a5b4ef654ac91_r.png&&&p&Top-down Parsing 的工作原理：&/p&&img src=&/v2-87dc532fb_b.png& data-rawwidth=&1126& data-rawheight=&631& class=&origin_image zh-lightbox-thumb& width=&1126& data-original=&/v2-87dc532fb_r.png&&&p&通过大量的白板演算实例教你怎么算 First 和 Follow 集，直到教到你懂为止：&/p&&img src=&/v2-6990abab4af7ba2a180b_b.png& data-rawwidth=&1263& data-rawheight=&647& class=&origin_image zh-lightbox-thumb& width=&1263& data-original=&/v2-6990abab4af7ba2a180b_r.png&&&p&一步步教你 Parsing Table：&/p&&img src=&/v2-822d0ba1bdb764ea5fde7f549c99a512_b.png& data-rawwidth=&1213& data-rawheight=&628& class=&origin_image zh-lightbox-thumb& width=&1213& data-original=&/v2-822d0ba1bdb764ea5fde7f549c99a512_r.png&&&p&通过实际白板代码推演递归下降的 LL(1) Parser，告诉你每一步代码做了什么，每一步的程序状态是怎么样的，教到你懂为止：&/p&&img src=&/v2-21c9af1bbcdf7f36cb4ef_b.png& data-rawwidth=&600& data-rawheight=&313& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/v2-21c9af1bbcdf7f36cb4ef_r.png&&&p&我这里当然省略了 Ravula 老师讲课的很多细节。这位名字我不会念的老师讲课细致、逻辑清晰，有条不紊，难的地方通过大量实例一步步讲解，不含糊，让人如痴如醉欲罢不能，以至于我现在写简单的 Parser 都是直接怼 EBNF 直接开撸。然后我回忆了一下本科给我们讲编译原理的那位老先生，原来当年听不懂课除了跟我智商低有关系以外，还跟讲课的人有很大的关系啊！&/p&&p&不轻易间点看了 Ravula 老师的主页，发现他不仅仅懂编译原理，而且懂几乎所有计算机学科相关的基础课程，包括数据结构和算法、编译原理、操作系统、计算机网络：&/p&&img src=&/v2-d2a231dfa9205_b.png& data-rawwidth=&1081& data-rawheight=&862& class=&origin_image zh-lightbox-thumb& width=&1081& data-original=&/v2-d2a231dfa9205_r.png&&&br&&img src=&/v2-679c9c388adfb21d1e266f3cd53958e2_b.png& data-rawwidth=&1079& data-rawheight=&826& class=&origin_image zh-lightbox-thumb& width=&1079& data-original=&/v2-679c9c388adfb21d1e266f3cd53958e2_r.png&&&p&这些个好东西这么多年来我都是偷偷看的，我发现国内很少人知道他。可能是跟你得学会怎么听印度口音的英文才能听他讲课有关系[捂脸]（不过不用怕，Youtube 的字幕就好了，但是也是英文字幕）。&/p&&p&当然小哥也不是万能的，有些地方还是需要有一点知识储备才能听懂，所以最好是能够结合一些资料来配合着看最佳。&/p&&p&UPDATE：评论区好多朋友都说看过小哥的 KMP、后缀树等，看来我对小哥还是知之甚少。&/p&&p&UPDATE：很多朋友问有没有中文字幕，讲道理应该是没有的。最猴还是能习惯一下听英文，配合着 Youtube 的英文字幕其实还可以，毕竟来来去去就那几个词。习惯听英文，新世界的大门会向你敞开。&/p&&p&UPDATE：有朋友说怎么开字幕，这里有个 CC 啊，点他啊&/p&&img src=&/v2-8bf97f291a560bb3d0f855_b.png& data-rawwidth=&241& data-rawheight=&127& class=&content_image& width=&241&&&p&PS：小哥能不能给我点广告费。&/p&&p&UPDATE: 有些朋友说听不懂...那我也很绝望啊，我还能怎么办&/p&
看到这个问题我必须拿出我收藏多年，不到关键时刻不示人的计算机之神：Ravindrababu Ravula，数据结构和算法、编译原理、操作系统、计算机网络全都懂，懂还就算了，讲课还非常棒！很久之前因为工…
好东西不敢独享，转载一发。&br&&br&正在学习林轩田的机器学习基石和吴恩达的机器学习，感觉讲的还不错，数学基础还是蛮重要的。&br&&br&&blockquote&&p&&a href=&///?target=http%3A///article/machine-learning-guide.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&机器学习入门资源不完全汇总&i class=&icon-external&&&/i&&/a&&/p&&p&感谢贡献者： tang_Kaka_back@新浪微博&/p&&p&欢迎补充指正，转载请保留原作者和原文链接。本文是 &a href=&///?target=http%3A///& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&机器学习日报&i class=&icon-external&&&/i&&/a&的一个专题合集，欢迎订阅：请给&a href=&mailto:?subject=%E8%AE%A2%E9%98%85%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E6%97%A5%E6%8A%A5%20from%20guide&&&/a&发邮件，标题＂订阅机器学习日报＂。&/p&&a class=& wrap external& href=&///?target=http%3A///article/machine-learning-guide.html%23%25E5%259F%25BA%25E6%259C%25AC%25E6%25A6%%25BF%25B5& target=&_blank& rel=&nofollow noreferrer&&机器学习入门资源不完全汇总&i class=&icon-external&&&/i&&/a&基本概念&p&&a href=&///?target=http%3A//zh.wikipedia.org/zh/%25E6%259C%25BA%25E5%%25E5%25AD%25A6%25E4%25B9%25A0& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&机器学习&i class=&icon-external&&&/i&&/a& 机器学习是近20多年兴起的一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与统计推断学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。&/p&&p&下面从微观到宏观试着梳理一下机器学习的范畴：一个具体的算法，领域进一步细分，实战应用场景，与其他领域的关系。&/p&&p&图1: 机器学习的例子：NLTK监督学习的工作流程图 (source: &a href=&///?target=http%3A//www.nltk.org/book/ch06.html& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&nltk.org/book/ch06.html&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&)&/p&&p&图2: 机器学习概要图 by Yaser Abu-Mostafa (Caltech) (source: &a href=&///?target=http%3A//work.caltech.edu/library/181.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Map of Machine Learning (Abu-Mostafa)&i class=&icon-external&&&/i&&/a&)&/p&&p&图3: 机器学习实战：在python scikit learn 中选择机器学习算法 by Nishant Chandra (source: &a href=&///?target=http%3A//n-/2013/01/picking-machine-learning-algorithm.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&In pursuit of happiness!: Picking the right Machine Learning Algorithm&i class=&icon-external&&&/i&&/a&)&/p&&p&图4: 机器学习和其他学科的关系：数据科学的地铁图 by Swami Chandrasekaran (source: &a href=&///?target=http%3A///thoughts/becoming-a-data-scientist/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Becoming a Data Scientist&i class=&icon-external&&&/i&&/a&)&/p&&a class=& wrap external& href=&///?target=http%3A///article/machine-learning-guide.html%23%25E5%%25E9%%25E6%2594%25BB%25E7%& target=&_blank& rel=&nofollow noreferrer&&机器学习入门资源不完全汇总&i class=&icon-external&&&/i&&/a&入门攻略&p&大致分三类：起步体悟，实战笔记，行家导读&/p&&ul&&li&&p&&a href=&///?target=http%3A///post/512037/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&机器学习入门者学习指南 @果壳网&i class=&icon-external&&&/i&&/a& (2013) 作者 &a href=&///?target=http%3A///group/i//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&白马&i class=&icon-external&&&/i&&/a& -- [起步体悟] 研究生型入门者的亲身经历&/p&&/li&&li&&p&&a href=&///?target=http%3A///thread/show/2837/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&有没有做机器学习的哥们？能否介绍一下是如何起步的 @ourcoders&i class=&icon-external&&&/i&&/a& -- [起步体悟] 研究生型入门者的亲身经历，尤其要看&a href=&///?target=http%3A///user/show/25895/reyoung/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&reyoung&i class=&icon-external&&&/i&&/a&的建议&/p&&/li&&li&&p&&a href=&///?target=http%3A///tornadomeet/tag/%25E6%259C%25BA%25E5%%25E5%25AD%25A6%25E4%25B9%25A0/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&tornadomeet 机器学习笔记&i class=&icon-external&&&/i&&/a& (2013) -- [实战笔记] 学霸的学习笔记，看看小伙伴是怎样一步一步地掌握“机器学习”&/p&&/li&&li&&p&&a href=&///?target=https%3A///machine-learning-roadmap-your-self-study-guide-to-machine-learning/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Machine Learning Roadmap: Your Self-Study Guide to Machine Learning&i class=&icon-external&&&/i&&/a& (2014) Jason Brownlee -- [行家导读] 虽然是英文版，但非常容易读懂。对Beginner,Novice,Intermediate,Advanced读者都有覆盖。&/p&&ul&&li&&a href=&///?target=http%3A///a-tour-of-machine-learning-algorithms/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&A Tour of Machine Learning Algorithms&i class=&icon-external&&&/i&&/a& （2013）这篇关于机器学习算法分类的文章也非常好&/li&&li&&a href=&///?target=http%3A///best-machine-learning-resources-for-getting-started/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Best Machine Learning Resources for Getting Started&i class=&icon-external&&&/i&&/a&（2013）这片有中文翻译 &a href=&///?target=http%3A///56256/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&机器学习的最佳入门学习资源 @伯乐在线&i class=&icon-external&&&/i&&/a& 译者 &a href=&///?target=http%3A///members/linwenhui/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&programmer_lin&i class=&icon-external&&&/i&&/a&&/li&&/ul&&/li&&li&&p&门主的几个建议&/p&&ul&&li&既要有数学基础，也要编程实践&/li&&li&别怕英文版，你不懂的大多是专业名词，将来不论写文章还是读文档都是英文为主&/li&&li&[我是小广告][我是小广告]订阅机器学习日报，跟踪业内热点资料。&/li&&/ul&&/li&&/ul&&a class=& wrap external& href=&///?target=http%3A///article/machine-learning-guide.html%23%25E6%259B%25B4%25E5%25A4%259A%25E6%2594%25BB%25E7%& target=&_blank& rel=&nofollow noreferrer&&机器学习入门资源不完全汇总&i class=&icon-external&&&/i&&/a&更多攻略&ul&&li&&a href=&/question/& class=&internal&&机器学习该怎么入门 @知乎&/a& (2014)&/li&&li&&a href=&///?target=http%3A///Whats-the-easiest-way-to-learn-machine-learning& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&What's the easiest way to learn machine learning @quora&i class=&icon-external&&&/i&&/a& (2013)&/li&&li&&a href=&///?target=http%3A///What-is-the-best-way-to-study-machine-learning& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&What is the best way to study machine learning @quora&i class=&icon-external&&&/i&&/a& (2012)&/li&&li&&a href=&///?target=http%3A///Is-there-any-roadmap-for-learning-Machine-Learning-ML-and-its-related-courses-at-CMU& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Is there any roadmap for learning Machine Learning (ML) and its related courses at CMU Is there any roadmap for learning Machine Learning (ML) and its related courses at CMU&i class=&icon-external&&&/i&&/a&(2014)&/li&&/ul&&a class=& wrap external& href=&///?target=http%3A///article/machine-learning-guide.html%23%25E8%25AF%25BE%25E7%25A8%258B%25E8%25B5%%25BA%2590& target=&_blank& rel=&nofollow noreferrer&&机器学习入门资源不完全汇总&i class=&icon-external&&&/i&&/a&课程资源&p&Tom Mitchell 和 Andrew Ng 的课都很适合入门&/p&&a class=& wrap external& href=&///?target=http%3A///article/machine-learning-guide.html%23%25E5%%25E9%%25E8%25AF%25BE%25E7%25A8%258B& target=&_blank& rel=&nofollow noreferrer&&机器学习入门资源不完全汇总&i class=&icon-external&&&/i&&/a&入门课程&a class=& wrap external& href=&///?target=http%3A///article/machine-learning-guide.html%232011-tom-mitchellcmu%25E6%259C%25BA%25E5%%25E5%25AD%25A6%25E4%25B9%25A0& target=&_blank& rel=&nofollow noreferrer&&机器学习入门资源不完全汇总&i class=&icon-external&&&/i&&/a&2011 Tom Mitchell(CMU)机器学习&p&&a href=&///?target=http%3A//www.cs.cmu.edu/%7Etom/10701_sp11/lectures.shtml& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&英文原版视频与课件PDF&i class=&icon-external&&&/i&&/a& 他的《机器学习》在很多课程上被选做教材，有中文版。&/p&&ul&&li&Decision Trees&/li&&li&Probability and Estimation&/li&&li&Naive Bayes&/li&&li&Logistic Regression&/li&&li&Linear Regression&/li&&li&Practical Issues: Feature selection，Overfitting ...&/li&&li&Graphical models: Bayes networks, EM，Mixture of Gaussians clustering ...&/li&&li&Computational Learning Theory: PAC Learning, Mistake bounds ...&/li&&li&Semi-Supervised Learning&/li&&li&Hidden Markov Models&/li&&li&Neural Networks&/li&&li&Learning Representations: PCA, Deep belief networks, ICA, CCA ...&/li&&li&Kernel Methods and SVM&/li&&li&Active Learning&/li&&li&Reinforcement Learning 以上为课程标题节选&/li&&/ul&&a class=& wrap external& href=&///?target=http%3A///article/machine-learning-guide.html%232014-andrew-ng-stanford%25E6%259C%25BA%25E5%%25E5%25AD%25A6%25E4%25B9%25A0& target=&_blank& rel=&nofollow noreferrer&&机器学习入门资源不完全汇总&i class=&icon-external&&&/i&&/a&2014 Andrew Ng (Stanford)机器学习&p&&a href=&///?target=https%3A//www.coursera.org/course/ml& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&英文原版视频&i class=&icon-external&&&/i&&/a& 这就是针对自学而设计的，免费还有修课认证。“老师讲的是深入浅出，不用太担心数学方面的东西。而且作业也非常适合入门者，都是设计好的程序框架，有作业指南，根据作业指南填写该完成的部分就行。”（参见白马同学的入门攻略）&推荐报名，跟着上课，做课后习题和期末考试。(因为只看不干，啥都学不会)。& (参见reyoung的建议）&/p&&ol&&li&Introduction (Week 1)&/li&&li&Linear Regression with One Variable (Week 1)&/li&&li&Linear Algebra Review (Week 1, Optional)&/li&&li&Linear Regression with Multiple Variables (Week 2)&/li&&li&Octave Tutorial (Week 2)&/li&&li&Logistic Regression (Week 3)&/li&&li&Regularization (Week 3)&/li&&li&Neural Networks: Representation (Week 4)&/li&&li&Neural Networks: Learning (Week 5)&/li&&li&Advice for Applying Machine Learning (Week 6)&/li&&li&Machine Learning System Design (Week 6)&/li&&li&Support Vector Machines (Week 7)&/li&&li&Clustering (Week 8)&/li&&li&Dimensionality Reduction (Week 8)&/li&&li&Anomaly Detection (Week 9)&/li&&li&Recommender Systems (Week 9)&/li&&li&Large Scale Machine Learning (Week 10)&/li&&li&Application Example: Photo OCR&/li&&li&Conclusion&/li&&/ol&&a class=& wrap external& href=&///?target=http%3A///article/machine-learning-guide.html%23%25E8%25BF%259B%25E9%%25E8%25AF%25BE%25E7%25A8%258B& target=&_blank& rel=&nofollow noreferrer&&机器学习入门资源不完全汇总&i class=&icon-external&&&/i&&/a&进阶课程&p&&strong&2013年Yaser Abu-Mostafa (Caltech) Learning from Data&/strong& -- 内容更适合进阶 &a href=&///?target=http%3A//work.caltech.edu/lectures.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&课程视频,课件PDF@Caltech&i class=&icon-external&&&/i&&/a&&/p&&ol&&li&The Learning Problem&/li&&li&Is Learning Feasible?&/li&&li&The Linear Model I&/li&&li&Error and Noise&/li&&li&Training versus Testing&/li&&li&Theory of Generalization&/li&&li&The VC Dimension&/li&&li&Bias-Variance Tradeoff&/li&&li&The Linear Model II&/li&&li&Neural Networks&/li&&li&Overfitting&/li&&li&Regularization&/li&&li&Validation&/li&&li&Support Vector Machines&/li&&li&Kernel Methods&/li&&li&Radial Basis Functions&/li&&li&Three Learning Principles&/li&&li&Epilogue&/li&&/ol&&p&&strong&2014年林軒田(国立台湾大学) 機器學習基石 (Machine Learning Foundations)&/strong& -- 内容更适合进阶，華文的教學講解 &a href=&///?target=https%3A//www.coursera.org/course/ntumlone& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&课程主页&i class=&icon-external&&&/i&&/a&&/p&&p&When Can Machines Learn? [何時可以使用機器學習] The Learning Problem [機器學習問題] -- Learning to Answer Yes/No [二元分類] -- Types of Learning [各式機器學習問題] -- Feasibility of Learning [機器學習的可行性]&/p&&p&Why Can Machines Learn? [為什麼機器可以學習] -- Training versus Testing [訓練與測試] -- Theory of Generalization [舉一反三的一般化理論] -- The VC Dimension [VC 維度] -- Noise and Error [雜訊一錯誤]&/p&&p&How Can Machines Learn? [機器可以怎麼樣學習] -- Linear Regression [線性迴歸] -- Linear `Soft' Classification [軟性的線性分類] -- Linear Classification beyond Yes/No [二元分類以外的分類問題] -- Nonlinear Transformation [非線性轉換]&/p&&p&How Can Machines Learn Better? [機器可以怎麼樣學得更好] -- Hazard of Overfitting [過度訓練的危險] -- Preventing Overfitting I: Regularization [避免過度訓練一：控制調適] -- Preventing Overfitting II: Validation [避免過度訓練二：自我檢測] -- Three Learning Principles [三個機器學習的重要原則]&/p&&a class=& wrap external& href=&///?target=http%3A///article/machine-learning-guide.html%23%25E6%259B%25B4%25E5%25A4%259A%25E9%E6%258B%25A9& target=&_blank& rel=&nofollow noreferrer&&机器学习入门资源不完全汇总&i class=&icon-external&&&/i&&/a&更多选择&p&&strong&2008年Andrew Ng CS229 机器学习&/strong& -- 这组视频有些年头了，主讲人这两年也高大上了.当然基本方法没有太大变化，所以课件PDF可下载是优点。 &a href=&///?target=http%3A///special/opencourse/machinelearning.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&中文字幕视频@网易公开课&i class=&icon-external&&&/i&&/a& | &a href=&///?target=https%3A///playlist%3Flist%3DPLA89DCFA6ADACE599& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&英文版视频@youtube&i class=&icon-external&&&/i&&/a& |&a href=&///?target=http%3A//cs229.stanford.edu/materials.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&课件PDF@Stanford&i class=&icon-external&&&/i&&/a&&/p&&p&第1集.机器学习的动机与应用第2集.监督学习应用.梯度下降第3集.欠拟合与过拟合的概念第4集.牛顿方法第5集.生成学习算法第6集.朴素贝叶斯算法第7集.最优间隔分类器问题第8集.顺序最小优化算法第9集.经验风险最小化第10集.特征选择第11集.贝叶斯统计正则化第12集.K-means算法第13集.高斯混合模型第14集.主成分分析法第15集.奇异值分解第16集.马尔可夫决策过程第17集.离散与维数灾难第18集.线性二次型调节控制第19集.微分动态规划第20集.策略搜索&/p&&p&&strong&2012年余凯(百度)张潼(Rutgers) 机器学习公开课&/strong& -- 内容更适合进阶 &a href=&///?target=http%3A///course/view/49e8b8f67c1cfad& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&课程主页@百度文库&i class=&icon-external&&&/i&&/a& ｜ &a href=&///?target=http%3A//bigeye.au./DragonStar2012/download.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&课件PDF@龙星计划&i class=&icon-external&&&/i&&/a&&/p&&p&第1节Introduction to ML and review of linear algebra, probability, statistics (kai) 第2节linear model (tong) 第3节overfitting and regularization(tong) 第4节linear classification (kai) 第5节basis expansion and kernelmethods (kai) 第6节model selection and evaluation(kai) 第7节model combination (tong) 第8节boosting and bagging (tong) 第9节overview of learning theory(tong) 第10节optimization in machinelearning (tong) 第11节online learning (tong) 第12节sparsity models (tong) 第13节introduction to graphicalmodels (kai) 第14节structured learning (kai) 第15节feature learning and deeplearning (kai) 第16节transfer learning and semi supervised learning (kai) 第17节matrix factorization and recommendations (kai) 第18节learning on images (kai) 第19节learning on the web (tong)&/p&&a class=& wrap external& href=&///?target=http%3A///article/machine-learning-guide.html%23%25E8%25AE%25BA%25E5%259D%259B%25E7%25BD%%25AB%2599& target=&_blank& rel=&nofollow noreferrer&&机器学习入门资源不完全汇总&i class=&icon-external&&&/i&&/a&论坛网站&a class=& wrap external& href=&///?target=http%3A///article/machine-learning-guide.html%23%25E4%25B8%25AD%25E6%& target=&_blank& rel=&nofollow noreferrer&&机器学习入门资源不完全汇总&i class=&icon-external&&&/i&&/a&中文&p&&a href=&///?target=http%3A//www.52ml.net/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&我爱机器学习&i class=&icon-external&&&/i&&/a& 我爱机器学习&/p&&p&&a href=&///?target=http%3A///bbsdoc/DataSciences.html& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&/bbsdoc/DataS&/span&&span class=&invisible&&ciences.html&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& MITBBS－电脑网络 - 数据科学版&/p&&p&&a href=&///?target=http%3A///group/262/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&机器学习小组&i class=&icon-external&&&/i&&/a& 果壳 & 机器学习小组&/p&&p&&a href=&///?target=http%3A//cos.name/cn/forum/22& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&cos.name/cn/forum/22&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a& 统计之都 >> 统计学世界 >> 数据挖掘和机器学习&/p&&p&&a href=&///?target=http%3A///%23%21board/ML_DM& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&北邮人论坛-北邮人的温馨家园&i class=&icon-external&&&/i&&/a& 北邮人论坛 && 学术科技 && 机器学习与数据挖掘&/p&&a class=& wrap external& href=&///?target=http%3A///article/machine-learning-guide.html%23%25E8%258B%25B1%25E6%& target=&_blank& rel=&nofollow noreferrer&&机器学习入门资源不完全汇总&i class=&icon-external&&&/i&&/a&英文&p&&a href=&///?target=https%3A///josephmisiti/awesome-machine-learning& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&josephmisiti/awesome-machine-learning · GitHub&i class=&icon-external&&&/i&&/a& 机器学习资源大全&/p&&p&&a href=&///?target=http%3A//work.caltech.edu/library/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Machine Learning Video Library&i class=&icon-external&&&/i&&/a& Caltech 机器学习视频教程库，每个课题一个视频&/p&&p&&a href=&///?target=http%3A///& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Analytics, Data Mining, and Data Science&i class=&icon-external&&&/i&&/a& 数据挖掘名站&/p&&p&&a href=&///?target=http%3A///& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a& 数据科学中心网站&/p&&a class=& wrap external& href=&///?target=http%3A///article/machine-learning-guide.html%23%25E4%25B8%259C%25E6%258B%%25A5%25BF%25E6%2589%25AF& target=&_blank& rel=&nofollow noreferrer&&机器学习入门资源不完全汇总&i class=&icon-external&&&/i&&/a&东拉西扯&p&一些好东西，入门前未必看得懂，要等学有小成时再看才能体会。&/p&&p&&a href=&///?target=http%3A//en.wikipedia.org/wiki/Machine_learning%23Machine_learning_and_data_mining& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&机器学习与数据挖掘的区别&i class=&icon-external&&&/i&&/a&&/p&&ul&&li&机器学习关注从训练数据中学到已知属性进行预测&/li&&li&数据挖掘侧重从数据中发现未知属性&/li&&/ul&&p&&a href=&///?target=http%3A///What-are-some-good-machine-learning-jokes& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Dan Levin, What is the difference between statistics, machine learning, AI and data mining?&i class=&icon-external&&&/i&&/a&&/p&&ul&&li&If there are up to 3 variables, it is statistics.&/li&&li&If the problem is NP-complete, it is machine learning.&/li&&li&If the problem is PSPACE-complete, it is AI.&/li&&li&If you don't know what is PSPACE-complete, it is data mining.&/li&&/ul&&p&几篇高屋建瓴的机器学习领域概论, 参见&a href=&///?target=http%3A///best-machine-learning-resources-for-getting-started/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&原文&i class=&icon-external&&&/i&&/a&&/p&&ul&&li&&a href=&///?target=http%3A//www.cs.cmu.edu/%7Etom/pubs/MachineLearning.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&The Discipline of Machine Learning&i class=&icon-external&&&/i&&/a&Tom Mitchell 当年为在CMU建立机器学习系给校长写的东西。&/li&&li&&a href=&///?target=http%3A//homes.cs.washington.edu/%7Epedrod/papers/cacm12.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&A Few Useful Things to Know about Machine Learning&i class=&icon-external&&&/i&&/a& Pedro Domingos教授的大道理，也许入门时很多概念还不明白，上完公开课后一定要再读一遍。&/li&&/ul&&p&几本好书&/p&&ul&&li&李航博士的《统计学习方法》一书前段也推荐过，给个&a href=&///?target=http%3A///subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&豆瓣的链接&i class=&icon-external&&&/i&&/a&&/li&&/ul&&/blockquote&
好东西不敢独享，转载一发。正在学习林轩田的机器学习基石和吴恩达的机器学习，感觉讲的还不错，数学基础还是蛮重要的。感谢贡献者： tang_Kaka_back@新浪微博欢迎补充指正，转载请保留原作者和原文链接。本文是 …
大家都看到他天才不羁、年少轻狂的一面，我却看出了柯洁身为一名围棋手的担当。&br&&br&也许所有人都明白，千古以来无数惊才绝艳之人苦苦追求的神之一手，是终究能被代码所穷尽的。但在被时代的车轮碾过之前，请允许那些身负无数流派无数渊源的围棋手们，能够在冰冷的数据面前维系住尊严。柯洁作为当世围棋第一人，如果他不发声，就代表着整个围棋界的心气都要没了。&br&&br&明知不可为而为之，虽千万人吾往矣。&br&&br&一条由1997年出生的年轻人于2016年发出的大白话微博，却不知怎么的，让我想起了千年前的荆轲刺秦的勇气。&br&&br&“此其义或成或不成，然其立意较然，不欺其志，名垂后世，岂妄也哉！”&br&&br&Update:&br&&img data-rawwidth=&720& data-rawheight=&1280& src=&/v2-ac31a2c3e676aea0362f3_b.png& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&/v2-ac31a2c3e676aea0362f3_r.png&&&br&&br&也许在绝对的实力碾压面前，所有对技艺的打磨对围棋之道的虔诚都只是笑话；也许在历史的车轮面前，所有的年少热血终会被碾过；也许李世石九段的“神之一手”会成为人类棋手最后一次战胜AI。&br&&br&但无论如何，我会一直坚信，所有知其不可为而为之的勇敢，都是人类能够继续前行的最大依靠。
大家都看到他天才不羁、年少轻狂的一面，我却看出了柯洁身为一名围棋手的担当。也许所有人都明白，千古以来无数惊才绝艳之人苦苦追求的神之一手，是终究能被代码所穷尽的。但在被时代的车轮碾过之前，请允许那些身负无数流派无数渊源的围棋手们，能够在冰…
&p&我读着新版本AlphaGo的论文，对比前一个版本（即AlphaGo Fan）的论文。直观感受如下：&br&&/p&&p&旧版AlphaGo：&/p&&img src=&/v2-eb5bf0dce50da9192bde72db4d0eeb0c_b.jpg& data-caption=&& data-rawwidth=&455& data-rawheight=&640& class=&origin_image zh-lightbox-thumb& width=&455& data-original=&/v2-eb5bf0dce50da9192bde72db4d0eeb0c_r.jpg&&&p&AlphaGo Zero:&/p&&img src=&/v2-6d3ca80cf2450afd7765_b.jpg& data-caption=&& data-rawwidth=&1280& data-rawheight=&969& class=&origin_image zh-lightbox-thumb& width=&1280& data-original=&/v2-6d3ca80cf2450afd7765_r.jpg&&&p&&br&&/p&&hr&&p&&br&&/p&&p&如果我对围棋一无所知，读初代AlphaGo的论文，可能会有以下疑问：&/p&&p&策略网络和价值网络，结构和功能很接近啊，为什么不合并成一个呢？&/p&&p&为什么要用专家的棋谱作为初始训练样本？从一张白纸开始训练岂不是更具有普遍性？&/p&&p&快速走子是什么鬼？只用价值网络评估不是更有效率吗？&/p&&p&为什么要输入围棋知识？AlphaGo的强化学习过程难道学不到这些知识吗？&/p&&p&&br&&/p&&p&旧版的AlphaGo，虽然神功小成，但斧凿痕迹显著。好似一只机器人女友，虽有绝色容颜，却长着机械手、声音冷如谷歌娘（误）。理想的围棋人工智能，应该是简洁、优雅、浑然天成，就像死宅们的老婆新垣结衣一样（大雾）。&/p&&p&而新版的AlphaGo，真的造出了栩栩如生的Gakki（误）。&/p&&p&具体地说，AlphaGo Zero相比于初代AlphaGo，有以下几点改进：&/p&&p&1、将策略网络和价值网络合并，组成一个可以同时输出策略p和价值v的新网络。&/p&&p&1.1、简化了新网络的结构。新策略·价值网络的输入特征平面由48个减少到了17个。其中，涉及围棋知识的输入特征（气(liberty)、征子(ladder)）被删去。&/p&&p&2、新策略·价值网络只需通过强化学习来训练，无需监督学习。即无需输入人类高手棋谱作为初始训练样本，只需用随机落子作为初始训练样本。&/p&&p&3、优化了蒙特卡洛搜索树，主要是省去了快速走子(rollout policy)，节约大量实战计算成本。&/p&&p&3.1、快速走子策略也需要输入大量人类已知的围棋知识，比如如何点死大眼(Nakade, 如点死直三、丁四、刀把五等棋型的唯一招法）。省去快速走子，也就省去了输入这些知识的麻烦。&/p&&p&4、改卷积网络为残差网络，提高训练效率。&/p&&p&留下的，是一个从零开始训练的神经网络，以及用简单到不能再简单的MCTS算法行棋的AlphaGo Zero。&/p&&p&&b&知易行难&/b&。这些改进貌似不难想到，是因为AlphaGo Zero本来就是研究者理想中的女神。而初版AlphaGo不够女神，不是因为研究者不想，而是暂时做不到。举个例子，AlphaGo Fan版本中，神经网络的输入由48个特征平面构成。其中两个平面分别表示，某一步棋是否是成功的征子，和某一步棋是否是成功的逃征子。&/p&&img src=&/v2-a47cf5dd52_b.jpg& data-caption=&& data-rawwidth=&700& data-rawheight=&450& class=&origin_image zh-lightbox-thumb& width=&700& data-original=&/v2-a47cf5dd52_r.jpg&&&p&这是征子的基本图。白1逃跑，黑2、4以下分别从两侧叫吃白棋，使白方始终只有一口气。一直追到棋盘尽头，白方最终无路可逃。黑棋大获全胜。&/p&&img src=&/v2-7ff343811ffddc99943fde_b.jpg& data-caption=&& data-rawwidth=&302& data-rawheight=&301& class=&content_image& width=&302&&&p&而如果征子路上有对方的小伙伴接应，比如上图右上角的黑棋。那么征子就会失败，并且白棋满盘皆输。&/p&&p&征子是围棋的基本知识，初学者在前两三节课就会学到。但实战的征子可以非常复杂，甚至搞晕职业棋手。&/p&&img src=&/v2-f67b9acd0c2ffdfca41c3f58_b.jpg& data-caption=&& data-rawwidth=&500& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&/v2-f67b9acd0c2ffdfca41c3f58_r.jpg&&&p&这张图来自职业棋谱，赵善津胜王铭琬。注意，白棋中央一大坨已经被征死了。白方看错了引征，招致全盘皆输。&/p&&img src=&/v2-316bbaec0c99a269c18a7dfdad92ed4f_b.jpg& data-caption=&白棋硬跑的后果如图。。全军覆没& data-rawwidth=&500& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&/v2-316bbaec0c99a269c18a7dfdad92ed4f_r.jpg&&&p&征子也能搞晕神经网络。我刚才在某计算机围棋的讨论区看到Joona Kiiski网友的观点，和大家分享一下：&/p&&blockquote&- The learning was based on self-play. Understanding ladders is perhaps not so important if your opponent doesn't understand them either... Every time a decisive ladder appears on the board, the result is practically a coin toss.&br&&br&- And as others have pointed out, unlike almost all other go features, ladders are not at all a local feature. The features need to build up through a huge number of convolution layers, before it works. And it's difficult to build this understanding incrementally (unlike e.g. life & death where you can start with simple cases and then move to more difficult cases), so we lack bias to direct the learning to the right direction.&/blockquote&&p&大意如下：&/p&&blockquote&和绝大部分围棋的特征（比如死活、官子、定式等）不同，征子完全不是局部特征，而是全局特征。这就意味着，在神经网络能正确处理征子之前，征子的特征需要通过大量卷积层来慢慢建立。这会给神经网络的训练带来潜在的麻烦。&br&&br&如果对局双方（黑AlphaGo-白AlphaGo）都不懂征子，那么总体结果也不会差太多吧。每个征子的结果就好像投硬币一样随机，总的胜负加起来差不多是零。&/blockquote&&p&更要命的是，在征子上一旦出现失误，大胜的棋局会直接变成大败。&/p&&p&据此可以推测，征子的这些麻烦特性，使得初代AlphaGo不得不把征子作为输入神经网络的特征之一。（另一个软件Zen，即使和初代AlphaGo做了类似的处理，实战的征子依然会偶尔出错，被人类棋手逆袭了好多盘。）&/p&&p&AlphaGo Zero的神经网络，大胆省去了征子特征的输入。细细品味训练过程，略微吃惊：神经网络直到训练的（相对）后期才学会征子。&/p&&p&David Silver在Reddit的问答中表示：&/p&&blockquote&AlphaGo Zero has no special features to deal with ladders (or indeed any other domain-specific aspect of Go). Early in training, Zero occasionally plays out ladders across the whole board - even when it has quite a sophisticated understanding of the rest of the game. But, in the games we have analysed, the fully trained Zero read all meaningful ladders correctly.&/blockquote&&p&大意如下：&/p&&blockquote&在训练早期，Zero偶尔会把征子走到棋盘的尽头（注：就像上面那图里硬跑征子的白棋一样。正确的策略是不去跑征子，及时止损）-- 即使她对围棋的其它部分已经有了相当深刻的认识。不过，在我们分析的Zero完全体对局中，她总能正确判断一切有意义的征子。&/blockquote&&p&&br&&/p&&p&或许是开发团队好运，更有可能是反复尝试以后才成功。总之，在征子上，AlphaGo Zero涉险过关。&/p&&p&同理，分拆策略、价值网络，以及采用快速走子，是旧版AlphaGo的暂时妥协，而在新版终于得以解决。&/p&&p&DeepMind，及其母公司谷歌的终极目标不是破解围棋，而是造出通用人工智能。通用智能不需要额外专业知识。AlphaGo Zero在无围棋知识输入的前提下达到如此高度，可以说离通用智能又近了一步。&/p&&p&大道至简。对于AlphaGo，最简洁的，就是最美的。&/p&&p&&br&&/p&&hr&&p&&br&&/p&&p&说棋。&/p&&p&摒弃人类棋谱输入，从零（Zero因此得名）开始训练阿尔法狗。去年谷李大战以来，棋迷翘首以盼的“纯净版”阿尔法狗终于问世。&/p&&p&更恐怖的是，Zero经过三天训练就达到AlphaGo Lee的水平（即去年战胜李世乭的版本，ELO ~3750。对比今日柯洁ELO ~3660.），节约了90%+的时间。见下图。&/p&&img src=&/v2-593e310a1bece85e3504258e_b.jpg& data-caption=&& data-rawwidth=&2437& data-rawheight=&1254& class=&origin_image zh-lightbox-thumb& width=&2437& data-original=&/v2-593e310a1bece85e3504258e_r.jpg&&&p&四十天之后，Zero甚至超越了姐妹版本Master，对Master实现90%胜率。Master和Zero的主要区别是，Master有人类棋谱输入，经历监督学习（SL）而非强化学习（RL）。&/p&&p&我在论文中学到了一句拉丁语，starting &i&tabula rasa, &/i&从一张白纸开始&i&。&/i&看Zero的训练过程，就像看一个婴儿成长，妙趣横生。&/p&&img src=&/v2-d4e3d497ea06aa5e1b43ea_b.jpg& data-caption=&& data-rawwidth=&3020& data-rawheight=&1187& class=&origin_image zh-lightbox-thumb& width=&3020& data-original=&/v2-d4e3d497ea06aa5e1b43ea_r.jpg&&&p&第三个小时，如同幼儿堆石子。第二十小时，有板有眼。第70小时，复杂局面处理自如，已是顶尖高手。&/p&&img src=&/v2-12c61aea43d08c6e41471e_b.jpg& data-caption=&& data-rawwidth=&2989& data-rawheight=&1393& class=&origin_image zh-lightbox-thumb& width=&2989& data-original=&/v2-12c61aea43d08c6e41471e_r.jpg&&&p&看AlphaGo学会的定式，更是有趣。A行是AlphaGo在训练过程中学会的人类定式。B行则是在训练的不同阶段，AlphaGo最喜欢的定式。&/p&&p&B行第一个，黑棋下在1,1，显然是卖萌，此时大概是第10个小时。B行第二个，黑星位，白棋外靠（！），黑退，白扳粘的变化。此变化不在人类课本当中，白2略惊悚，直观看也是白棋稍亏。果然，在40小时以后，本定式被无情淘汰（见下图）。&/p&&img src=&/v2-25eb77d4c84d1c89bfa29b_b.jpg& data-caption=&& data-rawwidth=&1508& data-rawheight=&887& class=&origin_image zh-lightbox-thumb& width=&1508& data-original=&/v2-25eb77d4c84d1c89bfa29b_r.jpg&&&p&第三变，点三三！千呼万唤始出来。&/p&&img src=&/v2-ce2e7e628d345d8ca740d85f209cd8ae_b.jpg& data-caption=&& data-rawwidth=&1498& data-rawheight=&843& class=&origin_image zh-lightbox-thumb& width=&1498& data-original=&/v2-ce2e7e628d345d8ca740d85f209cd8ae_r.jpg&&&p&20小时以后此变化出现频率猛增，并一度达到3%，此后缓慢回落，最终稳定在0.5%。这是我曾经最喜欢的定式之一，也是定式书上必介绍的一个基本型。黑地白势，各得其所。&/p&&p&作为对比，点三三的另一变如下：&/p&&img src=&/v2-7dce50ab175defcb08e239ab00cf2f78_b.jpg& data-caption=&& data-rawwidth=&1460& data-rawheight=&843& class=&origin_image zh-lightbox-thumb& width=&1460& data-original=&/v2-7dce50ab175defcb08e239ab00cf2f78_r.jpg&&&p&在五十小时后，黑5飞的频率大增。至70小时，此变频率达0.2%。从最终的自战对弈来看，此变的频率似乎超过了黑5扳（有待查证）。很有意思，AlphaGo对此定式的认识过程和人类有些相似。长久以来，黑5扳都是点三三的标准变化。直到最近十年左右，黑5飞才开始变得频繁起来。由于Master的影响，人类棋手开始频繁点三三，并且把黑5飞作为标准变化。上图的后续只是此定式的一变，在Zero自战谱中还看到了一些微小的改动。&/p&&p&下一个“定式”最有意思。&/p&&img src=&/v2-fd7aa024450_b.jpg& data-caption=&& data-rawwidth=&1463& data-rawheight=&874& class=&origin_image zh-lightbox-thumb& width=&1463& data-original=&/v2-fd7aa024450_r.jpg&&&p&1-5正常。白6奇思妙想！人类绝少在开局阶段往二路下。白10贴以后，黑棋需要补断，白棋活角。局部尚未定型，得失不明。可惜此变昙花一现，不知AlphaGo是否发现了局部更好的手段。&/p&&p&欣赏一局完全体Zero的棋谱&/p&&img src=&/v2-c3d1da70ac5fb7df7e3d_b.jpg& data-caption=&& data-rawwidth=&500& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&/v2-c3d1da70ac5fb7df7e3d_r.jpg&&&p&37-41，潇洒、放肆、不拘一格。状态爆表的一流棋手偶尔也有如此表演，而这对于AlphaGo只是正常操作。&/p&&img src=&/v2-7c8a5a218e43b80b5543c_b.jpg& data-caption=&& data-rawwidth=&500& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&/v2-7c8a5a218e43b80b5543c_r.jpg&&&p&白130. 官子同样滴水不漏。（黑只能在A位接。若在B位吃，白O17即可出棋。白棋点完以后，T17有先手味道。）&/p&&p&Zero的Elo等级分是5000分，人间已无敌手。但其左右互搏仍互有胜负，可见离围棋上帝尚有距离。Zero当为近阶段围棋人工智能的高峰，但尚不是围棋的终点。&/p&&hr&&p&于我，AlphaGo Zero还有以下几个悬念：&/p&&p&1、Zero的策略·价值网络是否对所有贴目值都生效，还是只针对7.5目。再进一步，AlphaGo Zero心目中的最佳贴目是多少。&/p&&p&&b&更新：虽然没有明确回答本问题，但Julian援引樊麾的评论，称AlphaGo Zero不能评价“耳赤妙手”，因为Zero仍然只是在7.5贴目的规则下行棋。&/b&&/p&&p&2、Zero的官子，特别是小官子阶段，是否会犯错。重点是，有无因为官子失误而被翻盘的棋局。&/p&&p&3、以大贴目为前提，Zero会如何应对白方的模仿棋。&/p&&p&&br&&/p&&hr&&p&&br&&/p&&p&三千年的围棋，AlphaGo只用三天走过。谨以《贺新郎·读史》结束本文：　　　&/p&&p&人猿相揖别。只几个石头磨过，小儿时节。铜铁炉中翻火焰，为问何时猜得？不过几千寒热。人世难逢开口笑，上疆场彼此弯弓月。流遍了，郊原血。&/p&&p&一篇读罢头飞雪，但记得斑斑点点，几行陈迹。五帝三皇神圣事，骗了无涯过客。有多少风流人物？盗跖庄屩流誉后，更陈王奋起挥黄钺。歌未竟，东方白。&/p&
我读着新版本AlphaGo的论文，对比前一个版本（即AlphaGo Fan）的论文。直观感受如下：旧版AlphaGo：AlphaGo Zero: 如果我对围棋一无所知，读初代AlphaGo的论文，可能会有以下疑问：策略网络和价值网络，结构和功能很接近啊，为什么不合并成一个呢？为什么…
知乎首答一发！！！！&br&&br&&br&还记得从前，验证码还只是这样：&br&&img src=&/a13abdafeaaebbd_b.png& data-rawwidth=&60& data-rawheight=&21& class=&content_image& width=&60&&&br&&b&作为一名优秀的程序猿的你在想，为什么不做一个自动识别软件，验证码全是数字，你只要收集一个包含10个数字的训练库，把图片二值化然后分隔单个字符最后对比训练库里的数字最终识别，so easy！&/b&&br&作为一个有情怀的天才程序猿，你花了1天搞定了该程序，自豪感爆棚。&br&自己用了几天赶脚非常不错，于是你不仅自己用，还发给亲戚朋友们用。尽管它只是省了3秒钟的输入验证码的时间不过你的亲戚朋友们因为觉得它确实很高大上，纷纷夸你并把它分享给自己的朋友。&br&&br&然而，终于有一天，你的作品被传到了另一个天才程序猿手里，非常不巧的是，&b&他就是运营这个网站并且整出“验证码”这玩意儿的那个程序猿。&/b&他的工作任务就是确保在用户电脑前执行登陆或者注册操作的是一个“人”而不是某个黑科技刷子。&br&看完你的东西他瞬间觉得日了狗了，觉得你的软件是对他工作的侮辱，是在向他的智商发出挑战...&br&&br&于是，这货大手一挥，后来的验证码变成了，这样：&br&&img src=&/2a105b98c92afa83ffd5ba_b.png& data-rawwidth=&89& data-rawheight=&25& class=&content_image& width=&89&&&br&次日你刚起床，发现你的邮箱已经炸了，里面全是大家在向你反馈你的软件不能用了。于是打开网页看到了新版的验证码。&br&你冷哼一声，当然，你是一个天才程序猿，你只简单的向你的训练库里又添加了52个大小写英文字母就解决了这个问题。完了以后你还顺手添加了几个日文平片假名，也没别的目的，就是多装个B。&br&于是你的软件又能用了。&b&你觉得你的智商已经碾压了这个做网站的货。&/b&&br&&br&然而，不可避免的，过了几天你发现，验证码开始丧心病狂了，它已经变成了这样：&br&&img src=&/989e1cad214bf0b2e3b2bbb_b.png& data-rawwidth=&67& data-rawheight=&22& class=&content_image& width=&67&&&br&&b&现在你就觉得有点懵逼了&/b&，汉字那么多，你觉得这个对面那个做验证码的程序猿就是想玩儿死你。不过没关系，换汤不换药。于是你又花了一个礼拜，写了一个字符自动截取的代码，在网上整理出了常用汉字3000个，并且分别截取了这3000个字的黑体、宋体和楷体的图片并放进了训练库里。你的程序又能用了。&br&这次以后你觉得很累但是真的很有成就感，你觉得你就是全天下最diao的程序猿。然后你就去补睡了。&br&&br&然而，你不会意识到的是，在你睡觉的时候，另一个程序猿正在被你逼疯。&br&几天以后，你发现验证码突然变得开始反人类：&br&有，这样的&img src=&/f8bbac59d82ae647e4987a_b.png& data-rawwidth=&64& data-rawheight=&23& class=&content_image& width=&64&&这样的&br&&img src=&/1f9d9c6b491b74efd133_b.png& data-rawwidth=&117& data-rawheight=&29& class=&content_image& width=&117&&这样的&img src=&/fde2917806a_b.png& data-rawwidth=&114& data-rawheight=&30& class=&content_image& width=&114&&这样的&img src=&/f9bf4de67bedfc9a1e4d45_b.png& data-rawwidth=&82& data-rawheight=&30& class=&content_image& width=&82&&还有这样的&img src=&/fe23544eada58ca0b06408bfe9f2f216_b.png& data-rawwidth=&79& data-rawheight=&38& class=&content_image& width=&79&&- -|&br&&br&等到某天你再从睡梦中醒过来的时候会发现，整个世界都已经不一样了，你的邮箱里全是愤怒的朋友、朋友的朋友还有朋友的朋友的朋友。&br&他们不单单只吐槽你的软件不能用了，而且更关键是！！&b&喵了个咪的这TM啥玩意儿啊！直接用眼看都特么看不清这些验证码到底是个毛了啊！！！！&br&&/b&&br&&b&看到这些牛鬼蛇神我猜你整个人都已经斯巴达了！！！&/b&&br&&br&但是怎么办，你是天才程序猿！你不能输啊！ &br&于是你系上头巾，泡好咖啡，借了各种书籍撸起袖子准备开干，势要搞定这些验证码。&br&&br&此时，电话响了。&br&&br&是你的老妈。&br&&br&你妈说：儿啊，你妈跟你爸打算出去度个假，想要在网上订个火车票，&b&上了12306的网站&/b&，&b&&u&但是它最近不知道为什么突然换了一种验证码啊。&/u&&/b&你爸妈是真老了，看了看发现是真不会输这个验证码，听二姨说你搞了个什么软件能直接自动给输了，你给我看看呗。&br&&br&你轻松的应承下来，不急不慢的打开12306网站。&br&&br&终于&br&&br&你惶恐的小眼神一眼就看到了如下玩意儿：&br&&img src=&/0d4acb4cbf5c807c0175e_b.jpg& data-rawwidth=&854& data-rawheight=&640& class=&origin_image zh-lightbox-thumb& width=&854& data-original=&/0d4acb4cbf5c807c0175e_r.jpg&&&br&&br&&br&&b&&u&听说大部分程序狗高中的时候都学的理科！！！！！！！！！！&/u&&/b&&br&&br&&br&&b&&u&就问你服不服！&br&&/u&&/b&&br&-----------------------------------------------------------分割一下-----------------------------------------------------&br&&br&&br&&br&&br&槽吐完了再给大家看一看最初的那个清纯简单的验证码&br&&img src=&/a13abdafeaaebbd_b.png& data-rawwidth=&60& data-rawheight=&21& class=&content_image& width=&60&&&br&1秒辨别，2秒输入&br&&br&&br&所以想要表达的是，其实自动识别验证码这种东西，只要你不是黄牛党僵尸号出售员刷票专业户这种职业，花尽了心思去做完了也就只是装装X，并没有什么卵用。何必呢。&br&&br&&b&最后想一想人家对面哪位一直跟你杠正面，不停开脑洞搞出更加变态的验证码的小哥，你熬一个夜意味着他马上得熬一个夜，于是你又熬两个夜，他再熬四个夜...... 0.0 炸！&/b&&br&&b&所以，大家都是程序狗，大学选专业的时候一不小心走了神才踏上这条不归路的，互相放一条生路吧！！！Q.Q&/b&&br&&br&&br&&br&&br&&b&------------------------------------------------------------------再割一下------------------------------------------------&/b&&br&&br&&br&（8.29）感谢大家的点赞~ 知乎首答就这么多赞开心得不得了lol。&br& 有同学问我说我似乎没有真正回答为什么程序猿不做自动识别的这个问题&br&&br&&b&答案就是，又不是没做出来过&/b&&br&&br&好吧我想我们可以来个类比：&br&做验证码的那位程序猿A就像是拿了一个花瓶来让大家认，做自动识别程序的小哥B就像是一直试图教机器认识这是个花瓶一样。&br&&br&起初，A为了反击B，给花瓶上色、用布包起来只留个轮廓或者干脆掰掉一个把手来试图让B的程序识别不了这个花瓶。&br&可是B是个很牛X的程序猿啊而且他调教的程序也相当的蒸汽！每每都能拆掉A出的奇招。&br&但是每次A只要随手给出一点变动，B就要花上一两天来继续优化他的程序！&br&&br&&br&可是各位，你们有没有发现再这样下去无非只有一个结局。&br&&br&就是... ...&br&&b&A说：&妈蛋！算你狠！LZ不跟你玩儿了！大不了咱俩鱼死网破！&&/b&&br&&b&然后顺手直接把花瓶砸了......&/b&&br&&b&&你丫倒是接着拼起来认啊！！&&br&&/b&&br&&br&&br&&br&所以事实就是，现在的很多奇葩验证码已经很难做到自动识别了，而且就算有人做到了，估计识别率暂时也无法保证，而有情怀的程序猿们一般都会把用户体验看得很重，残次品是不会到处去发给大家炫耀的。&br&&br&况且&br&等到有一天程序猿B调教好了程序又能识别了&br&&br&A只要把花瓶渣捡起来砸得更碎一点=、=
管你们自己用眼睛还能不能识别&br&&br&&br&&b&----------------------------------------------------------------------&/b&&br&部分图片来源于网络，侵删。
知乎首答一发！！！！还记得从前，验证码还只是这样：作为一名优秀的程序猿的你在想，为什么不做一个自动识别软件，验证码全是数字，你只要收集一个包含10个数字的训练库，把图片二值化然后分隔单个字符最后对比训练库里的数字最终识别，so easy！作为一…
&p&&b&左右互搏，青出于蓝而胜于蓝？&/b& &/p&&p&&b&—阿尔法狗原理解析&/b&&/p&&br&&br&&p&这些天都在没日没夜地关注一个话题，谷歌人工智能程序AlphaGo（国内网友亲切地称为“阿尔法狗”）以5:0击败欧洲职业围棋冠军樊麾二段，并在和世界冠军的比赛中2:0领先。&/p&&br&&p&什么！！&/p&&br&&p&19年前计算机击败国际象棋冠军卡斯帕罗夫的情景还历历在目，现在计算机又要来攻克围棋了吗！？&/p&&br&&p&虚竹在天龙八部里自填一子，无意中以“自杀”破解“珍笼”棋局，逍遥子方才亲传掌门之位。难道以后“阿尔法狗”要出任逍遥派掌门了？&/p&&br&&p&1933年，东渡日本19岁的吴清源迎战当时的日本棋坛霸主、已经60岁的本因坊秀哉，开局三招即是日本人从未见过的三三、星、天元布阵，快速进击逼得对方连连暂停“打卦”和弟子商量应对之策。随后以“新布局”开创棋坛新纪元。难道阿尔法狗会再造一个“新新布局”？&/p&&br&&p&作为一个关心人工智能和人类命运的理科生，近些天刷了好些报道，记者们说“阿尔法狗是个‘价值神经网络’和‘策略神经网’络综合蒙特卡洛搜索树的程序”，但我觉得光知道这些概念是不够的。我想看看“阿尔法狗”的庐山真面目。&/p&&br&&br&&p&&b&准备好棋盘和脑容量，一起来探索吧？&/b&&/p&&br&&img src=&/f3a99d8a3d3_b.jpg& data-rawwidth=&348& data-rawheight=&232& class=&content_image& width=&348&&&br&&p&围棋棋盘是19x19路，所以一共是361个交叉点，每个交叉点有三种状态，可以用1表示黑子，-1表示白字，0表示无子，考虑到每个位置还可能有落子的时间、这个位置的气等其他信息，我们可以用一个361 * n维的向量来表示一个棋盘的状态。我们把一个棋盘状态向量记为s。&/p&&br&&p&当状态s下，我们暂时不考虑无法落子的地方，可供下一步落子的空间也是361个。我们把下一步的落子的行动也用361维的向量来表示，记为a。&/p&&br&&p&这样，设计一个围棋人工智能的程序，就转换成为了，任意给定一个s状态，寻找最好的应对策略a，让你的程序按照这个策略走，最后获得棋盘上最大的地盘。&/p&&br&&p&如果你想要设计一个特别牛逼惊世骇俗的围棋程序，你会从哪里开始呢？对于在谷歌DeepMind工作的黄士杰和他的小伙伴而言，第一招是：&/p&&br&&br&&p&&b&“深度卷积神经网络”&/b&&/p&&br&&img src=&/2e3c3fcc35aa_b.jpg& data-rawwidth=&640& data-rawheight=&156& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/2e3c3fcc35aa_r.jpg&&&br&&p&深度卷积神经网络早在98年就攻克了手写数字识别，近些年在人脸识别、图像分类、天气预报等领域无往而不利，接连达到或超过人类的水平，是深度学习火遍大江南北的急先锋。我们现在看到的Picasa照片自动分类，Facebook照片识别好友，以及彩云小译同声传译（软广出现，不要打我）都是此技术的应用。这等天赐宝物，如果可以用来下围棋，岂不是狂拽酷炫吊炸天？&/p&&br&&p&所以2015年黄士杰发表在ICLR的论文[3]一上来就使出了“深度神经网络”的杀招，从网上的围棋对战平台KGS（外国的qq游戏大厅）可以获得人类选手的围棋对弈的棋局。观察这些棋局，每一个状态s，都会有一个人类做出的落子a，这不是天然的训练样本&s,a&吗？如此可以得到3000万个样本。我们再把s看做一个19x19的二维图像（具体是19x19 x n，n是表示一些其他feature），输入一个卷积神经网络进行分类，分类的目标就是落子向量a’，不断训练网络，尽可能让计算机得到的a’接近人类高手的落子结果a，不就得到了一个模拟人类棋手下围棋的神经网络了吗？&/p&&br&&p&于是我们得到了一个可以模拟人类棋手的策略函数P_human，给定某个棋局状态s，它可以计算出人类选手可能在棋盘上落子的概率分布a = P_human(s)，如下图：&/p&&img src=&/ac76a560d067d86e0a596336_b.jpg& data-rawwidth=&321& data-rawheight=&312& class=&content_image& width=&321&&&br&&p&红圈就是P_human觉得最好的落子方案。每一步都选择概率最高的落子，对方对子后再重新计算一遍，如此往复就可以得到一个棋风类似人类的围棋程序。&/p&&br&&p&这个基于“狂拽酷炫”深度学习的方案棋力如何呢？&/p&&br&&p&&b&不咋地&/b&。黄士杰说P_human已经可以和业余6段左右的人类选手过招，互有胜负，但还未能超过当时最强的电脑程序CrazyStone[1,5]，距离人类顶尖玩家就差得更远了。&/p&&br&&p&所以，为求更进一步，黄士杰打算把P_human和CrazyStone的算法结合一下，师夷长技以制夷，先击败所有的其他围棋AI再说。&/p&&p&等等，CrazyStone的算法是什么？&/p&&br&&p&哦，那个算法是黄士杰的老师Remi Coulum在2006年对围棋AI做出的另一个重大突破：&/p&&br&&p&&b&“MCTS，蒙特卡洛搜索树”&/b&&/p&&img src=&/51ca11128a5aafdcfabf6_b.jpg& data-rawwidth=&440& data-rawheight=&277& class=&origin_image zh-lightbox-thumb& width=&440& data-original=&/51ca11128a5aafdcfabf6_r.jpg&&&p&蒙特卡洛搜索树（Monte-Carlo Tree Search）是一种“大智若愚”的方法。面对一个空白棋盘S0，黄士杰的老师Coulum最初对围棋一无所知，便假设所有落子方法分值都相等，设为1。然后扔了一个骰子，从361种落子方法中随机选择一个走法a0。Coulum想象自己落子之后，棋盘状态变成S1，然后继续假设对手也和自己一样二逼，对方也扔了一个筛子，随便瞎走了一步，这时棋盘状态变成S2，于是这两个二逼青年一直扔骰子下棋，一路走到Sn，最后肯定也能分出一个胜负r，赢了就r记为1，输了则为0，假设这第一次r=1。这样Coulum便算是在心中模拟了完整的一盘围棋。&/p&&br&&p&Coulum心想，这样随机扔骰子也能赢？运气不错啊，那把刚才那个落子方法（S0,a0）记下来，分值提高一些：&/p&&ul&&li&新分数= 初始分+ r&/li&&/ul&&br&&p&我刚才从（S0, a0）开始模拟赢了一次，r=1，那么新分数=2，除了第一步，后面几步运气也不错，那我把这些随机出的局面所对应落子方法(Si,ai)的分数都设为2吧。然后Coulum开始做第二次模拟，这次扔骰子的时候Coulum对围棋已经不是一无所知了，但也知道的不是太多，所以这次除（S0, a0）的分值是2之外，其他落子方法的分数还是1。再次选择a0的概率要比其他方法高一点点。&/p&&br&&p&那位假想中的二逼对手也用同样的方法更新了自己的新分数，他会选择一个a1作为应对。如法炮制，Coulum又和想象中的对手又下了一盘稍微不那么二逼的棋，结果他又赢了，Coulum于是继续调整他的模拟路径上相应的分数，把它们都+1。随着想象中的棋局下得越来越多，那些看起来不错的落子方案的分数就会越来越高，而这些落子方案越是有前途，就会被更多的选中进行推演，于是最有“前途”的落子方法就会“涌现”出来。&/p&&br&&p&最后，Coulum在想象中下完10万盘棋之后，选择他推演过次数最多的那个方案落子，而这时，Coulum才真正下了第一步棋。&/p&&br&&p&蒙特卡洛搜索树华丽转身为相当深刻的方法，可以看到它有两个很有意思的特点：&/p&&br&&p&1）没有任何人工的feature，完全依靠规则本身，通过不断想象自对弈来提高能力。这和深蓝战胜卡斯帕罗夫完全不同，深蓝包含了很多人工设计的规则。MCTS靠的是一种类似遗传算法的自我进化，让靠谱的方法自我涌现出来。让我想起了卡尔文在《大脑如何思维》中说的思维的达尔文主义[6]。&/p&&br&&p&2）MCTS可以连续运行，在对手思考对策的同时自己也可以思考对策。Coulum下完第一步之后，完全不必要停下，可以继续进行想象中的对弈，直到对手落子。Coulum随后从对手落子之后的状态开始计算，但是之前的想象中的对弈完全可以保留，因为对手的落子完全可能出现在之前想象中的对弈中，所以之前的计算是有用的。这就像人在进行对弈的时候，可以不断思考，不会因为等待对手行动而中断。这一点Coulum的程序非常像人，酷毙了。&/p&&p&但黄士杰很快意识到他老师的程序仍然有局限：初始策略太简单。我们需要更高效地扔骰子。&/p&&p&如何更高效的扔骰子呢？&/p&&p&用P_human()来扔。&/p&&img src=&/c7affbc42d19_b.png& data-rawwidth=&517& data-rawheight=&257& class=&origin_image zh-lightbox-thumb& width=&517& data-original=&/c7affbc42d19_r.png&&&p&黄士杰改进了MCTS，一上来不再是二逼青年随机掷骰子，而是先根据P_human的计算结果来得到a可能的概率分布，以这个概率来挑选下一步的动作。一次棋局下完之后，新分数按照如下方式更新：&/p&&ul&&li&新分数= 调整后的初始分+ 通过模拟得到的赢棋概率
&/li&&/ul&&br&&p&如果某一步被随机到很多次，就应该主要依据模拟得到的概率而非P_human。&/p&&p&所以P_human的初始分会被打个折扣：&/p&&ul&&li&调整后的初始分= P_human/（被随机到的次数+ 1）
&/li&&/ul&&p&这样就既可以用P_human快速定位比较好的落子方案，又给了其他位置一定的概率。看起来很美，然后实际操作中却发现：“然并卵”。因为，P_human()计算太慢了。&/p&&br&&p&一次P_human()计算需要3ms，相对于原来随机扔骰子不到1us，慢了3000倍。如果不能快速模拟对局，就找不到妙招，棋力就不能提高。所以，黄士杰训练了一个简化版的P_human_fast()，把神经网络层数、输入特征都减少，耗时下降到了2us，基本满足了要求。先以P_human()来开局，走前面大概20多步，后面再使用P_human_fast()快速走到最后。兼顾了准确度和效率。&/p&&br&&p&这样便综合了深度神经网络和MCTS两种方案，此时黄士杰的围棋程序已经可以战胜所有其他电脑，虽然距离人类职业选手仍有不小的差距，但他在2015年那篇论文的最后部分信心满满的表示：“我们围棋软件所使用的神经网络和蒙特卡洛方法都可以随着训练集的增长和计算力的加强（比如增加CPU数）而同步增强，我们正前进在正确的道路上。”&/p&&br&&p&看样子，下一步的突破很快就将到来。同年2月，黄士杰在Deepmind的同事在顶级学术期刊nature上发表了“用神经网络打游戏”的文章[2]。这篇神作，为进一步提高MCTS的棋力，指明了前进的新方向：&/p&&br&&p&&b&“左右互搏，自我进化”&/b&&/p&&br&&p&红白机很多人小时候都玩过，你能都打通吗？黄士杰的同事通过“强化学习”方法训练的程序在类似红白机的游戏机上打通了200多个游戏，大多数得分都比人类还好。&/p&&br&&img src=&/db76a9c4ec7bdf34bf6e5776fdae8a07_b.png& data-rawwidth=&346& data-rawheight=&138& class=&content_image& width=&346&&&p&“强化学习”是一类机器学习方法，Agent通过和环境s的交互，选择下一步的动作a，这个动作会影响环境s，给Agent一个reward，Agent然后继续和环境交互。游戏结束的时候，Agent得到一个最后总分r。这时我们把之前的环境状态s、动作a匹配起来就得到了一系列&s,a&，设定目标为最后的总得分r，我们可以训练一个神经网络去拟合在状态s下，做动作a的总得分。下一次玩游戏的时候，我们就可以根据当前状态s，去选择最后总得分最大的动作a。通过不断玩游戏，我们对&s,a&下总得分的估计就会越来越准确，游戏也玩儿得越来越好。&/p&&br&&p&打砖块游戏有一个秘诀：把球打到墙的后面去，球就会自己反弹得分。强化学习的程序在玩了600盘以后，学到这个秘诀：球快要把墙打穿的时候评价函数v的分值就会急剧上升。&/p&&img src=&/bb8f60e5df607fa2b4778_b.jpg& data-rawwidth=&640& data-rawheight=&371& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/bb8f60e5df607fa2b4778_r.jpg&&&p&黄士杰考虑给围棋也设计一个评价函数v(s)，在P_human()想象自己开局走了20多步之后，不需要搜索到底，如果有一个v(s)可以直接判断是否能赢，得到最后的结果r，这样肯}

我爱游戏网