word2vec训练语料料与测试语料比例多少比较合适

点击联系发帖人 时间：2017-04-28 02:11

word2vec训练语料

基于条件随机场汉语分词的语料规模量化研究_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
基于条件随机场汉语分词的语料规模量化研究
上传于|0|0|文档简介
&&基于条件随机场汉语分词的语料规模量化研究
阅读已结束，如果下载本文需要使用1下载券
想免费下载本文？
定制HR最喜欢的简历
下载文档到电脑，查找使用更方便
还剩1页未读，继续阅读
定制HR最喜欢的简历
你可能喜欢君，已阅读到文档的结尾了呢~~
基于同义词文本分类研究,研究同义词,同义词,oracle 同义词,的同义词,同义词词典,英语同义词,同义词在线查询,影响的同义词,创建同义词
扫扫二维码，随身浏览文档
手机或平板扫扫即可继续访问
基于同义词文本分类研究
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由：
将文档分享至：
分享完整地址
文档地址：
粘贴到BBS或博客
flash地址：
支持嵌入FLASH地址的网站使用
html代码：
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布，请您等待！
3秒自动关闭窗口您的位置： &
基于先秦语料库的古汉语地名自动识别模型构建研究
优质期刊推荐骆卫华等：面向大规模语料的语言模型研究的新进展；■∞；Ｍｅｍｏｒｙ／ＧＢ；Ｆｉｇ．２；Ｐｅｒｆｏｒｍａｎｃｅｏｆ３－ｇｒａｍＢＦＬＭｉ；ｍｅｍｏｒｙ．；图２基于ＢＦ的３元模型在不同空间下的性能；关系．当ＢＦ的误识率超过０．１时，系统性能急剧下；一∞；Ｆｉｇ．３；Ｒｅｌａｔｉｏｎｓｈｉｐ；ｂｅｔｗｅｅｎ；ｆａｌｓｅｐｏｓｉｔｉｖｅ；ｏｆ；ＢＦＩ．，Ｍ；ａｎｄｔ
骆卫华等：面向大规模语料的语言模型研究的新进展
Ｍｅｍｏｒｙ／ＧＢ
Ｆｉｇ．２
Ｐｅｒｆｏｒｍａｎｃｅｏｆ３－ｇｒａｍＢＦＬＭｉｎｄｉｆｆｅｒｅｎｔｓｉｚｅｏｆ
ｍｅｍｏｒｙ．
图２基于ＢＦ的３元模型在不同空间下的性能
关系．当ＢＦ的误识率超过０．１时，系统性能急剧下降．如果误识率相同，则底数越小系统性能越好，这是由于更小的底数提供了更高的精度．还须说明的是，由于ＢＦ语言模型存储的是Ｎ元组的频次，而在实际查询时，要查的Ｎ元组是不带频次信息的，因此必须尝试Ｍ次查询（Ｍ为预定义值），所以实际查询的次数比基于ＴＲＩＥ树的结构还要多出很多，这就导致基于ＢＦ的语言模型查询时速度仅为基于ＴＲＩＥ树的实现的１／６～１］５．
Ｆｉｇ．３
Ｒｅｌａｔｉｏｎｓｈｉｐ
ｂｅｔｗｅｅｎ
ｆａｌｓｅｐｏｓｉｔｉｖｅ
ＢＦＩ．，Ｍ
ａｎｄｔｈｅｐｅｒｆｏｒｍａｎｃｅ．
图３ＢＦ误识率与翻译系统性能之间的关系
２．３分布式并行语言模型
文献［８］实现了一个基于客户机／服务器的分布式语言模型，运行解码器的客户端直接向多台存储语言模型的服务器请求数据，但分布式语言模型只在Ｎ―ｂｅｓｔ重排序时使用，解码时仍使用较小的低阶语言模型．文献［９］在此基础上提出了改进方法，该方法基于Ｇｏｏｇｌｅ的ＭａｐＲｅｄｕｃｅ模型，实现了完整的分布式语言模型的训练与查询方法．
通常大规模语料的分布式训练把语料切分到多个主机上同时进行，并在服务器端汇总结果．平滑是其中最复杂的环节，这是因为很多平滑算法需要查询存放在其他主机上的信息．为简化复杂度，文献
［９］提出了一种有趣的平滑方法――傻瓜回退，其基
本思想是如果Ｎ元组硼。∞：…凹Ｎ不存在，则它的平滑值直接以某个因子回退到其Ｎ一１元组的平滑值，即
Ｓ（ｗｆｆ们卜ｉ－－Ⅳ＋Ｉ
』甓等，ｉｆｆ（ｗ；…）＞ｏ：
【ａＳＫｗｆＩ‘ｒ．Ｏ．ｉ－。Ｉ蚪２），ｉｆ，（训；一肿１）＝０；
其中，厂（ｚ）表示Ｎ元组ｚ的频次，口是回退因子．显然，傻瓜平滑不满足概率的归一化，因此Ｓ（ｚ）并不是一个概率值，但它与概率计算的结果是一致的．傻瓜平滑对于分布式环境是一种廉价的解决方法，虽然小规模数据上它的性能要落后于ＷＢ，ＫＮ等经典平滑算法，但数据规模的增加能够逐渐消弭这种差距．
ＭａｐＲｅｄｕｃｅ是Ｇｏｏｇｌｅ提出的一种分布式并行表示为一个由键／值对组成的表，由用户指定一个函数Ｍａｐ把键／值对映射为中间键／值对，再通过函数的训练非常适合用ＭａｐＲｅｄｕｃｅ处理．以最初的词典词频．函数Ｍａｐ首先把词（作为键）及当前主机上的
后通过一个函数Ｓｈａｒｄ决定把这组键值对发送给哪台主机，函数Ｓｈａｒｄ保证把同一个键的键／值对发
ＭａｐＲｅｄｕｃｅ的词典生成算法的详细步骤．
算法３．基于ＭａｐＲｅｄｕｃｅ的词典生成算法．Ｍａｐ（ｓｔｒｉｎｇ
ｋｅｙ，ｓｔｒｉｎｇ
ｖａｌｕｅ）｛／＊ｋｅｙ―
ｄｏｃｉｄ，ｉｇｎｏｒｅｄ；ｖａｌｕｅ＝ｄｏｃｕｍｅｎｔ＊／
ａｒｒａｙ
ｗｏｒｄｓ＝Ｔｏｋｅｎｉｚｅ（ｖａｌｕｅ）；
ｈａｓｈ―ｍａｐ（ｓｔｒｉｎｇ，ｉｎｔ＞ｈｉｓｔｏ；?
ｆｏｒｉ一１??＃ｗｏｒｄｓ
ｈｉｓｔｏＥｗｏｒｄｓ［ｉ］］＋＋：
ｆｏｒｉｔ已ｒｉｎｈｉｓｔｆ）
Ｅｍｉｔ（ｉｔｅｒ．ｆｉｒｓｔ，ｉｔｅｒ．ｓｅｃｏｎｄ）；｝
计算的编程模型Ｌｌ…，其基本思想是把需处理的数据Ｒｅｄｕｃｅ把拥有相同中间键的值合并起来．语言模型生成为例，其目标是从语料中统计所有不同词及其语料中的频次信息（作为值）映射为中间键／值对，然送给相同的主机，函数Ｒｅｄｕｃｅ接收到同一个键的
键／值对之后，将值累加起来．如下给出了基于
ＳｈａｒｄＦｏｒＫｅｙ（ｓｔｒｉｎｇｋｅｙ，ｉｎｔｎｓｈａｒｄｓ）｛
ｒｅｔｕｒｎ
Ｈａｓｈ（ｋｅｙ）％ｎｓｈａｒｄｓ；）
Ｒｅｄｕｃｅ（ｓｔｒｉｎｇｋｅｙ，ｉｔｅｒａｔｏｒｖａｌｕｅｓ）｛／＊ｋｅｙ―
ｚｖｏｒｄ；ｖａｌｕｅｓ＝ｆｒｅｑｕｅｎｃｙ＊／ｓｕｍ＝Ｏ；
ｆｏｒｅａｃｈ口ｉｎｖａｌｕｅｓ
ｓｕｍ＋一ＰａｒｓｅＩｎｔ（口）；Ｅｍｉｔ（ＡｓＳｔｒｉｎｇ（ｓｕｍ））．）
基于以上信息计算语言模型时，如果采用傻瓜平滑，则一个主机上就拥有计算平滑概率的所有信息．如果采用ＷＢ，ＫＮ等平滑算法，则除了需要Ｎ元组本身的频次之外，还需要前后缀数量等额外信息，而且计算时需要与多个主机进行通信，实现的复杂度较高．
分布式语言模型查询和本地调用不同，它不执行同步查询．这是因为即使翻译一个句子，解码时也会执行成千上万次语言模型查询，对于分布式语言模型而言，这意味着成千上万次连接．为避免网络连接延时，需要把待请求的Ｎ元组累积起来放入一个队列，如果队列已满，则一次性请求一批数据，从而缩短响应时间．
理论上，分布式并行语言模型的处理能力可以随处理数据规模无限扩展，对于性能随数据量增长的应用而言，这是比较理想的解决方法．Ｂｒａｎｔｓ用机器翻译系统进行了多组实验，以验证语言模型规模与系统性能的关系．训练语料包括４组：由ＬＤＣ发布的阿拉伯一英语双语语料的英语部分（约２．３７亿个词，简称ｔａｒｇｅｔ），由ＬＤＣ发布的英语新闻语料
（约５０亿个词，简称ｌｄｃｎｅｗｓ），到２００５年１２月的Ｗｅｂ新闻语料（约３１０亿个词，简称ｗｅｂｎｅｗｓ），从网上采集的网页数据（约２００００亿个词，简称Ｗｅｂ）．解码器是Ｇｏｏｇｌｅ自己开发的基于短语的机器翻译系统，测试集是ＮＩＳＴ２００６阿拉伯语到英语的测试集．测试标准是ＢＬＥＵ值．
困惑度和Ｎ元组覆盖率是衡量语言模型质量的重要指标．困惑度越低，表明语言模型估计的分布与真实语料的分布越吻合．Ｎ元组的覆盖率越高，表明测试语料中更多的Ｎ元组在训练语料中出现
过，对平滑算法韵依赖就越低．对于不同语料，由于
其词汇集不同，不能直接比较困惑度．由图４不难看出，对于同一语料，其困惑度始终随数据规模增长而降低．通过不断累加语料，Ｎ元组的覆盖率也基本随数据规模的增加而线性增长，尤其在加入了Ｗｅｂ语料之后，５元组的覆盖率达到了５６％，这对于语言
计算机研究与发展２００９，４６（１０）
模型的应用显然很有帮助．
扫ｐ日，Ｈ邕彳
ＬＭＴｒａｉｎｉｎｇＤａｔａＳｉｚｅｉｎＭｉｌｌｉｏｎＴｏｋｅｎｓ
Ｆｉｇ．４
Ｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｄａｔａｓｉｚｅ，ｃｏｍｐｌｅｘｉｔｙａｎｄ
Ｎ―ｇｒａｍｃｏｖｅｒａｇｅ．
数据规模与困惑度及Ｎ元组覆盖率的关系
图５给出了规模不断增加的语言模型（采用了傻瓜平滑）对机器翻译性能的影响，曲线上的数字表示随数据规模增加而提升的ＢＬＥＵ值，例如＋０．５６ＢＰ／×２表示Ｎ元组增加１倍，ＢＬＥＵ值增加０．５６．实验结果表明，对于基于短语的机器翻译系统，其性能随语言模型数据规模的增加而增长，虽然总体上增幅趋缓，但在ＴＢ级规模的数据上仍然还保持增长．这表明通过扩大语料规模提升机器翻译性能仍然有一定潜力．但分布式语言模型在解码时增加了网络数据传输的开销，这需要在解码器中引入适当的处理机制，将大量零散的语言模型计算请求合并起来，从而导致解码算法的复杂度大大增加．
ＬＭＴｒａｉｎｉｎｇＤａｔａＳｉｚｅｉｎＭｉｌｌｉｏｎＴｏｋｅｍ
Ｆｉｇ．５
Ｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｔｈｅｐｅｒｆｏｒｍａｎｃｅａｎｄｄａｔａ
ｓｉｚｅ．
图５系统性能与数据规模的关系
语言模型是自然语言处理中非常重要的工熊
骆卫华等：面向大规模语料的语言模型研究的新进展
多年来，研究人员主要集中于语言模型理论尤其是平滑算法的研究．随着计算能力的提高以及可用语料的迅速增长，人们开始关注面向大规模语料的语言模型训练与使用的问题．由于系统资源是有限的，大规模语言模型的处理并不是在原有规模基础上的简单放大．目前，研究者从数据的表示和系统结构等多个角度着手探索这个问题，其中比较有代表性的工作包括基于数据分治、数据压缩和内存映射的一体化方法，基于随机存取模型的语言模型表示，以及基于分布式并行体系的训练与访问．这些方法相比以前的方法都有较大的改进，能够处理更多的语料，但也存在一些缺陷．基于数据分治、压缩和内存映射的一体化方法是一种比较直观的思路，集成到现有系统中比较简单．精简数据结构和量化技术能够压缩数据，但压缩率不高，而且会带来一定的性能损失．采用内存映射使得单机能够访问远大于可用内存的语言模型数据，但其速度大大低于直接内存访问．基于ＢＦ的语言模型提供了一种全新的思路，通过把语言模型表示为布隆过滤器，只需极小的空间就能够存储大规模数据，同时对任意Ｎ元组的查询算法的时间复杂度都是Ｏ（１），但这种方法会引入单向误识，对系统的整体性能会造成一定影响，查询速度较慢，而且也没有解决大规模语言模型的训练问题．分布式语言模型大大降低了语言模型的应用对单机系统的要求，提供了一种可扩展的架构，避免了数据的重复存储，但为了减少昂贵的网络连接开销，需要把语言模型的查询方式改为批处理，因此需要对现有的系统作较大的修改，而且通常需要高配置的服务器以保证较快的查询速度和较高的稳定性．
需要说明的是，虽然本文都是以机器翻译为例来说明新方法的实现和性能，但其作用并不局限于此．事实上，这些方法都具有一定的通用性，同样可以在信息检索、语音识别等领域使用，但在具体应用中还需要结合各个方法的优缺点来进行选择．
在机器翻译、信息检索、语音识别等应用中涉及到对语言模型的大量频繁访问，因此大规模语言模型研究的目的应该是设计一种占用存储空间小、查询速度快且可扩展的方法．如果把几种研究思路结合起来，将有助于更好地实现这一目标．例如，如果采用分布式并行体系，加人数据压缩，并结合有效的缓存策略，将有助于进一步降低语言模型应，用的系统资源要求．此外，一些语言模型的更复杂的问题在现在的研究中涉及的还不多，例如ＳＲＩＬＭ中实现了基于类的语言模型（ｃｌａｓｓ－ｂａｓｅｄｌａｎｇｕａｇｅ
ｍｏｄｅｌ）、句法
语言模型（ｓｙｎｔａｃｔｉｃ
ｌａｎｇｕａｇｅ
ｍｏｄｅｌ），而这些在新
的研究中尚未涉及．此外对多个不同来源的语言模型进行融合，能够更好地估计概率，提高整个系统的性能，这些都将是下一步研究中值得关注的问题．
［１］Ｍａｎｎｉｎｇ
Ｃ。Ｓｃｈｏｔｚｅ
Ｈ．ＦｏｕｎｄａｔｉｏｎｓｏｆＳｔａｔｉｓｔｉｃａｌＮａｔｕｒａｌ
ＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ［Ｍ］．Ｃａｍｂｒｉｄｇｅ。ＭＡ：ＭＩＴＰｒｅｓｓ，
［２］ＧｏｏｄｍａｎＪ．Ａ
ｂｉｔｏｆ
ｐｒｏｇｒｅｓｓ
ｉｎｌａｎｇｕａｇｅ
ｍｏｄｅｌｉｎｇ．Ｔｅｃｈ
ＭｓＲ－ＴＲ一２００ｌ一７２
Ｒｅｄｍｏｎｄ，ＷＡ．
ＭｉｃｒｏｓｏｆｔＲｅｓｅａｒｃｈ，２００１
Ｅｓ］Ｏｃｈ
Ｆ．ＴｈｅＧｏｏｇｌｅｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎｓｙｓｔｅｍｆｏｒ
ＮＩＳＴＭＴｅｖａｌｕａｔｉｏｎ［Ｒ］．Ｇａｉｔｈｅｒｓｂｕｒｇ，ＭＤ：
Ｎａｔｉｏｎｓｌ
Ｉｎｓｔｉｔｕｔｅ
ｏｆＳｔａｎｄｓｒｄａｎｄＴｅｃｈｎｏｌｏｇｙ，２００６
［４］Ｆｅｄｅｒｉｃｏ
Ｍ，Ｃｅｔｔｏｌｏ
Ｍ．Ｅｆｆｉｃｉｅｎｔ
ｈａｎｄｌｉｎｇ
Ｎ－ｇｒａｍ
ｌａｎｇｕａｇｅ
ｍｏｄｅｌｓｆｏｒｓｔａｔｉｓｔｉｃａｌ
ｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ［ｃ］／／Ｐｒｏｃ
ｏｆｔｈｅ２ｎｄＷｏｒｋｓｈｏｐ
Ｓｔａｔｉｓｔｉｃａｌ
ＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ．
Ｓｔｒｏｕｄｓｂｕｒｇ，ＰＡ；ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌ
Ｌｉｎｇｕｉｓｔｉｃｓ，
２００７：８８－９５
［５］ＦｅｄｅｒｉｃｏＭ，ＢｅｒｔｏｌｄｉＮ．Ｈｏｗｍａｎｙ
ｂｉｔｓａｒｅｎｅｅｄｅｄｔＯｓｔｏｒｅ
ｐｒｏｂａｂｉｌｉｔｉｅｓ
ｐｈｒａｓｅ－ｂａｓｅｄ
ｔｒａｎｓｌａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｏｆ
Ｗｏｒｋｓｈｏｐ
ｏｎＳｔａｔｉｓｔｉｃａｌ
Ｍａｃｈｉｎｅ
Ｔｒａｎｓｌａｔｉｏｎ．Ｓｔｒｏｕｄｓｂｕｒｇ，
Ｐ人：Ａｓｓｏｃｉａｔｉｏｎｆｏｒ
Ｃｏｍｐｕｔａｔｉｏｎａｌ
Ｌｉｎｇｕｉｓｔｉｃｓ，２００６：９４―
［６］７ｌ＇ａｌｂｏｔ
Ｉ）．（）ｓｂｏｒｎｅ
Ｍ．Ｒａｎｄｏｍｉｓｅｄ
ｌａｎｇｕａｇｅ
ｍｏｄｅｌｌｉｎｇｆｏｒ
ｓｔａｔｉｓｔｉｃａｌ
ｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ［【？］／／ｌ＇ｒｏｃ
ｏｆｔｈｅ
Ａｎｎｕａｌ
Ｍｅｅｔｉｎｇ
Ａｓｓｏｃｉａｔｉｏｎ
ｏｆＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｓｔｒｏｕｄａｂｕｒｇ，ＰＡ：Ａｓｓｏｃｉａｔｉｏｎｆｏｒ
Ｃｏｍｐｕｔａｔｉｏｎａｌ
Ｌｉｎｇｕｉｓｔｉｃｓ，
２００７：５１２―５１９
［７］Ｔａｌｂｏｔ
Ｄ，ＯｓｂｏｒｎｅＭ．Ｓｍｏｏｔｈｅｄ
Ｂｌｏｏｍｆｉｌｔｅｒ
ｌａｎｇｕａｇｅ
ｍｏｄｅｌｓ：Ｔｅｒａ－ｓｃａｌｅＬＭｓＯＮｔｈｅ
ｃｈｅａｐ［ｃ］／ＩＰｒｏｃ
ｏｆｔｈｅ
Ｊｏｉｎｔ
Ｅｍｐｉｒｉｃａｌ
Ｍｅｔｈｏｄｓ
ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ
Ｃｏｍｐｕｔａｔｉｏｎａｌ
ＮａｔｕｒａｌＬａｎｇｕａｇｅ
Ｌｅａｒｎｉｎｇ．
Ｓｔｒｏｕｄｓｂｕｒｇ。ＰＡｉＡｓｓｏｃｉａｔｉｏｎｆｏｒ
Ｃｏｍｐｕｔａｔｉｏｎｓｌ
Ｉ。ｉｎｇｕｉｓｔｉｃｓ，
２００７：４６８―４７６
［８］Ｚｈａｎｇ
Ｙ，ＨｉｌｄｅｂｒａｎｄＡ，ｅｔａ１．Ｄｉｓｔｒｉｂｕｔｅｄｌａｎｇｕａｇｅｍｏｄｅｌｉｎｇ
Ｎ―ｂｅｓｔ
ｒｅ－ｒａｎｋｉｎｇ
Ｉｔ］／Ｐｒｏｃ
Ｅｍｐｉｒｉｃａｌ
Ｍｅｔｈｏｄｓ
ＮａｔｕｒａｌＬａｎｇｕａｇｃＰｒｏｃｅｓｓｉｎｇ．
Ｓｔｒｏｕｄｓｂｕｒｇ，ＰＡ：Ａｓｓｏｃｉａｔｉｏｎｆｏｒ
Ｃｏｍｐｕｔａｔｉｏｎａｌ
Ｌｉｎｇｕｉｓｔｉｃｓ，
２１６―２３
［９］Ｄｅａｎ
Ｊ，Ｇｈｅｍａｗａｔ
ＭａｐＲｅｄｕｃｅ：Ｓｉｍｐｌｉｆｉｅｄ
ｄａｔａｐｒｏｃｅｓｓｉｎｇｏｎ
ｌａｒｇｅ
ｃｌｕｓｔｅｒｓ口］．Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ
ＡＣＭ。２００８，５１（１）ｚ
１０７－１１３
［１０］Ｂｒａｎｔｓ
Ｔ，ＰｏｐａｔＡ，ｅｔａ１．ＬａｒｇｅＬａｎｇｕａｇｅ
ｍｏｄｅｌｓ
ｉｎｍａｃｈｉｎｅ
ｔｒａｎｓｌａｔｉｏｎ［ｃ］／／Ｐｒｏｃ
ＪｏｉｎｔＣｏｎｆ
Ｅｍｐｉｒｉｃａｌ
Ｍｅｔｈｏｄｓ
Ｎａｔｕｒａｌ
Ｌａｎｇｕａｇｅ
Ｐｒｏｃｅｓｓｉｎｇａｎｄ
Ｃｏｍｐｕｔａｔｉｏｎａｌ
ＮａｔｕｒａｌＬａｎｇｕａｇｅＬｅａｒｎｉｎｇ．Ｓｔｒｏｕｄｓｂｕｒｇ．ＰＡ：Ａｓｓｏｃｉａｔｉｏｎｆｏｒ
Ｃｏｍｐｕｔａｔｉｏｎａｌ
Ｌｉｎｇｕｉｓｔｉｃｓ，２００７：８５８―８６７
计算机研究与发展２００９，４６（１０）
Ｗｅｉｈ咂，ｂｏｒｎ
１９７７．Ａｎ
ａｓｓｉｓｔａｎｔ
Ｌｕｏ刘群，１９６６年生，博士，研究员，博士生导师，中国计算机
ｐｒｏｆｅｓｓｏｒｏｆ
ＩｎｓｔｉｔｕｔｅＣｈｉｎｅｓｅ
Ｃｏｍｐｕｔｉｎｇ
学会高级会员，主要研究方向方向为机器翻译、自然语言处理等．
Ｔｅｃｈｎｏｌｏｇｙ，ｔｈｅ
Ａｃａｄｅｍｙ
Ｓｃｉｅｎｃｅｓ．Ｈｅｒｅｃｅｉｖｅｄｈｉｓｍａｓｔｅｒ’ｓｄｅｇｒｅｅｆｒｏｍＴｓｉｎｇｈｕａＵｎｉｖｅｒｓｉｔｙ
２００５，ｈｅ
ｉｎ２００２．Ｓｉｎｃｅｔｈｅ
Ｇｒａｄｕａｔｅ
ＢａｉＳｈｕｏ，ｂｏｒｎｐｒｏｆｅｓｓｏｒｏｆ
１９５６．ＣｕｒｒｅｎｔｌｙＩｎｓｔｉｔｕｔｅｏｆＣｈｉｎｅｓｅｅｎｇｉｎｅｅｒ
ｇｕｅｓｔ
ＰｈＤｃａｎｄｉｄａｔｅｏｆ
Ｃｏｍｐｕｔｉｎｇ
ＵｎｉｖｅｒｓｉｔｙｏｆｔｈｅＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ．Ｈｉｓｒｅｓｅａｒｃｈ
ｉｎｔｅｒｅｓｔｓ
ｉｎｃｌｕｄｅ
ｉｎｆｏｒｍａｔｉｏｎ
Ｔｅｃｈｎｏｌｏｇｙ，ｔｈｅＳｃｉｅｎｃｅｓ
ｃｈｉｅｆ
Ａｃａｄｅｍｙｏｆ
ｒｅｔｒｉｅｖａｌ，ｔｏｐｉｃＳｈａｎｇｈａｉ
ｄｅｔｅｃｔｉｏｎａｎｄｔｒａｃｋｉｎｇ，ｌａｒｇｅ－ｓｃａｌｅｄａｔａｐｒｏｃｅｓｓｉｎｇ，ｅｔｃ．ＳｔｏｃｋＥｘｃｈａｎｇｅ．Ｈｅｒｅｃｅｉｖｅｄ
ｄｅｇｒｅｅｆｒｏｍＰｅｋｉｎｇＵｎｉｖｅｒｓｉｔｙｉｎｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｐｒｏｃｅｓｓｉｎｇ．Ｈｅｉｓ
ｎｅｔｗｏｒｋ
ｓｅｃｕｒｉｔｙ
ｈｉｓｄｏｃｔｏｒ’ｓ
ｒｅｓｅａｒｃｈ
ｃｏｎｔｅｎｔ
骆卫华，１９７７年生，博士研究生，助理研究员，主要研究方向为信息检索、话题检测与跟踪、大规模数据处理等．
１９９０．Ｈｉｓｍａｉｎａｎｄ
ｌａｒｇｅ－ｓｃａｌｅ
ｍｅｍｂｅｒｏｆＳｔａｎｄｉｎｇＣｏｕｎｃｉｌｏｆｔｈｅＣｈｉｎｅｓｅ
ｄｅｐｕｔｙ
ｄｉｒｅｃｔｏｒ
ｍｅｍｂｅｒ
Ｑｕａ，ｂｏｒｎ１９６６．Ｃｕｒｒｅｎｔｌｙ
ｐｒｏｆｅｓｓｏｒ
Ｉｎｆｏｒｍａｔｉｏｎ
Ｓｏｃｉｅｔｙ
ｏｆｔｈｅＩｎｓｔｉｔｕｔｅｏｆＣｏｍｐｕｔｉｎｇＴｅｃｈｎｏｌｏｇｙ，ｔｈｅ
Ｃｈｉｎｅｓｅ
ＣｏｍｍｉｔｔｅｅｏｆｔｈｅＳｅｃｕｒｉｔｉｅｓＡｓｓｏｃｉａｔｉｏｎｏｆＣｈｉｎａ．
Ａｃａｄｅｍｙ
ｏｆＳｃｉｅｎｃｅｓ．ＰｈＤｈｉｓ
ｄｏｃｔｏｒ’ｓｉｎ
２００４．
白硕，１９５６年生，博士，客座教授，博士生导师，主要研究
ｓｕｐｅｒｖｉｓｏｒ．Ｈｅｄｅｇｒｅｅ
ｒｅｃｅｉｖｅｄ
方向为网络安全、大规模内容处理等．
Ｐｅｋｉｎｇｉｎｃｌｕｄｅ
Ｕｎｉｖｅｒｓｉｔｙｍａｃｈｉｎｅ
Ｈｉｓｍａｉｎｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｔｒａｎｓｌａｔｉｏｎ．
ｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｂｎａｎｄｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ．Ｈｅｉｓ
ｓｅｎｉｏｒ
ｍｅｍｂｅｒｏｆｔｈｅＣｈｉｎｅｓｅＣｏｍｐｕｔｅｒＦｅｄｅｒａｔｉｏｎ．ａｎ
ｅｄｉｔｏｒｉａｌｍｅｍｂｅｒ
Ｊｏｕｒｎａｌ
ｏｆｏｆｔｈｅｔｈｅ
ｏｆＣｈｉｎｅｓｅＩｎｆｏｒｍａｔｉｏｎ
Ｐｒｏｃｅｓｓｉｎｇ。ａＡＣＩ。２００８，ａｎｄＳＩＧＨＡＮ２００８．
ｍｅｍｂｅｒ
Ｐｒｏｇｒａｍ
Ｐｒｏｇｒａｍ
Ｃｏｍｍｉｔｔｅｅ
Ｃｏｍｍｉｔｔｅｅ
ｍｅｍｂｅｒ
ＲｅｓｅａｒｃｈＢａｃｋｇｒｏｕｎｄ
Ｉ．ａｎｇｕａｇｅｍｏｄｅｌ（ｈｅｒｅａｆｔｅｒｒｅｆｅｒｅｄ
ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ，ｅｔｃ．Ｅｍｐｉｒｉｃａｌｌｙｒｅｄｕｃｅｔｈｅｃｏｍｐｌｅｘｉｔｙａｎｄ
Ｉ。Ｍ）ｐｌａｙｓ
ｋｅｙｒｏｌｅｉｎｔｈｅｍｏｄｅｌｓｏｆｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ，ｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌ。
ｓｐｅａｋｉｎｇ，ＬＭｗｉｔｈｈｉｇｈｅｒｏｒｄｅｒ
ｔｒａｉｎｅｄ
ｍｏｒｅｄａｔａ
ｃｏｖｅｒｓ
Ｎ―ｇｒａｍｓ，ａｎｄｗｉｌｌ
ｉｍｐｒｏｖｅｔｈｅｏｖｅｒａｌｌｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｅｓｙｓｔｅｍｓｗｈｉｃｈ
ｃｏｍｐｏｎｅｎｔ，ｅｓｐｅｃｉａｌｌｙｆｏｒ
ａｖａｉｌａｂｌｅｍｏｎｏｌｉｎｇｕａｌ
ｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ．Ｔｈｅｒｅｆｏｒｅ，ｒｅｓｅａｒｃｈｅｒｓｃｏｒｐｏｒａ．Ｈｏｗｅｖｅｒ。ｔｒａｉｎｉｎｇａｎｄｗｉｔｈｔｈｅｏｒｄｅｒｏｆ
ｒｅｑｕｅｓｔｓ
ｒｅａｄｙ
ｔｏｔｒａｉｎｔｈｅｉｒＬＭ
ｍｏｒｅａｎｄｍｏｒｅ
ｏｆｌａｒｇｅ－ｓｃａｌｅ
Ｉ，Ｍｉｓ
ｔｒｉｖｉａｌｐｒｏｂｌｅｍ．ＴｈｅｓｉｚｅｏｆＬＭｗｉｌｌｉｎｃｒｅａｓｅｅｘｐｏｎｅｎｔｉａｌｌｙ
ｔｈｅｓｉｚｅｏｆ
ｔｒａｉｎｉｎｇｃｏｒｐｕｓ．Ｆｏｒ
ｌｉｍｉｔｅｄ
ｒｅｓｏｕｒｃｅｓ
ｏｆｔｈｅｓｙｓｔｅｍ，ｉｔｉｓ
ｌｏａｄａｌＩＮ―ｇｒａｍｓｉｎ
ｍｅｍｏｒｙａｎｄ
ａｃｃｅｓｓ
ｔｈｅｍ．Ｔｏｄｅａｌｗｉｔｈｔｈｅ
ｐｒｏｂｌｅｍ，ｓｏｍｅｐｒｏｍｉｓｉｎｇｍｅｔｈｏｄｓ
ｐｒｏｐｏｓｅｄｉｎ
ｒｅｃｅｎｔ
ｙｅａｒｓ．Ａｎａｄｈｏｃｍｅｔｈｏｄ
ｃｏｍｂｉｎｅｓｓｏｍｅｃｏｍｐａｃｔｄａｔａｓｔｒｕｃｔｕｒｅ。ｄａｔａｃｏｍｐｒｅｓｓｉｏｎｂａｓｅｄｐａｒｔｌｙ．Ｈｏｗｅｖｅｒ，ｔｈｅｃｏｍｐｒｅｓｓｉｏｎ
ｑｕａｎｔｉｚａｔｉｏｎａｎｄ
ｍｅｍｏｒｙｍａｐｐｉｎｇ．ＩｔｒｅｄｕｃｅｓｔｈｅｓｉｚｅｏｆＩ。Ｍ
ｓｐｅｅｄｏｆＮ－ｇｒａｍｓ．Ａｎｏｔｈｅｒｌｏｓｓｙｄａｔａ
ｓａｔｉｓｆｙｉｎｇａｎｄｉｔｗｉｌｌｓｌｏｗｄｏｗｎｔｈｅ
ｒｅｐｒｅｓｅｎｔ
ｑｕｅｒｙ
ｃｏｍｐｒｅｓｓｉｏｎｂａｓｅｄ
Ｂｌｏｏｍｆｉｌｔｅｒｉｓ
ｅｆｆｅｃｔｉｖｅｗａｙ
ＬＭ．ＩｔｋｅｅｐｓｔｈｅｉｎｆｏｒｍａｔｉｏｎｏｆＬＭｉｎｍｕｃｈｓｍａｌｌｅｒ
ｍｅｍｏｒｙ．Ｈｏｗｅｖｅｒ，ｅｒｒｏｒｓｏｆｆａｌｓｅｐｏｓｉｔｉｖｅ
ｐａｒａｌｌｅｌｒｅｓｕｌｔｉｎ
ｔｈｅＣＯＳｔａｎｄｓｌｏｗ
ｒｅｑｕｅｓｔｓ
ａｎｏｔｈｅｒｐｒｏｂｌｅｍｔｏｂｅｃｏｎｓｉｄｅｒｅｄ．Ａｄｉｓｔｒｉｂｕｔｅｄ
ｆｒａｍｅｗｏｒｋｈａｓ
ｇｒｅａｔ
ｇｏｏｄｓｃａｌａｂｉｌｉｔｙ，ｈｕｔｔｈｅ
ｉｍｐｌｅｍｅｎｔａｔｉｏｎｉｓｄｉｆｆｅｒｅｎｔｆｒｏｍｔｒａｄｉｔｉｏｎａｌｓｔａｎｄ－ａｌｏｎｅａｐｐｌｉｃａｔｉｏｎｓ．Ｉｔｗｉｌｌ
ｔｈｅｍｅｔｈｏｄｓｍｅｎｔｉｏｎｅｄａｂｏｖｅｐｒｏｖｉｄｅｓ
ｍｏｄｉｆｉｃａｔｉｏｎｓｔｈｅｃｕｒｒｅｎｔ
ｉｍｐｌｅｍｅｎａｔｉｏｎ．Ｔｈｅｃｏｍｂｉｎａｔｉｏｎｏｆ
ｐｒｏｍｉｓｉｎｇｓｏｌｕｔｉｏｎａｎｄｉｓｗｏｒｔｈｉｎｖｅｓｔｉｇａｔｉｏｎ．ＯｕｒｗｏｒｋｉｓｓｕｐｐｏｒｔｅｄｂｙｔｈｅＨｉ－ＴｅｃｈＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔＰｒｏｇｒａｍｏｆ
Ｃｈｉｎａ―ｔｈｅ
Ｐｒｏｇｒａｍ（２００７ＡＡ０１２４３８）．
面向大规模语料的语言模型研究新进展
作者：作者单位：
骆卫华，刘群，白硕， Luo Weihua， Liu Qun， Bai Shuo
骆卫华,Luo Weihua(中国科学院研究生院,北京,100049;中国科学院计算技术研究所智能信息处理重点实验室,北京,100190)，刘群,Liu Qun(中国科学院计算技术研究所智能信息处理重点实验室,北京,100190)，白硕,Bai Shuo(上海证券交易所,上海,200120)计算机研究与发展
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT)0次
刊名：英文刊名：年，卷(期)：被引用次数：
参考文献(10条)
1.Manning C.Schütze H Foundations of Statistical Natural Language Processing 19992.Goodman J A bit of progress in language modeling.[Tech Rep:MSR-TR-01
3.Och F The Google statistical machine translation system for the 2006 NIST MT evaluation 20064.Federico M.Cettolo M Efficient handling of N-gram language models for statistical machinetranslation 2007
5.Federico M.Bertoldi N How many bits are needed to store probabilities for phrase-based translation 2006
6.Talbot D.Osborne M Randomised language modelling for statistical machine translation 20077.Talbot D.Osborne M Smoothed Bloom filter language models:Tera-scale LMs on the cheap 20078.Zhang Y.Hildebrand A Distributed language modeling for N-best list re-ranking 20069.Dean J.Ghemawat S MapReduce:Simplified data processing on large clusters .Brants T.Popat A Large Language models in machine translation 2007
相似文献(2条)
1.学位论文韩咏中文信息检索索引单元的研究 2006
随着Intemet在全世界的迅猛发展，各种信息资源越来越丰富。信息检索作为互联网的核心技术具有极大的商业价值；信息检索还直接影响到提供给用户什么样的信息；同时信息检索也是情报处理的重要环节。从这个意义来看，研究并掌握信息检索的核心技术，无疑具有十分重要的经济意义、社会意义和军事意义。
本文对中文信息检索中的索引策略进行了研究。由于中文文本没有用于切分单词的空格，这使得索引单元的研究成为中文信息检索的特有问题。本文比较的索引策略包括基于字的索引、基于词的索引和基于字的n元文法的索引。本文包括以下几个方面的内容：
1、汉语自动分词。汉语分词是以词为索引单元的信息检索不可缺少的一步。本文分析了汉语自动分词中的歧义现象，然后介绍了用于处理自然语言的歧义问题的语言模型，最后介绍了应用于语言模型的平滑算法。综合使用这些技术，使汉语自动分词获得了很高的准确率，满足了信息检索的需要。
2、信息检索系统实现问题，即信息检索系统的数据组织方式。对信息检索系统待处理的数据进行高效的组织是进行信息检索的必要前提。数据组织方式影响系统的检索速度和存储空间。这部分首先介绍了索引的组织方法，包括正向索引和倒排索引；然后在关键字的组织查找方式中介绍了两种常用的查找方法B-树和哈希表；随后是信息检索中的数据压缩方法：最后是信息检索系统数据组织的具体实现。本文根据实验数据的特点，恰当地选择了数据组织方法，满足了实验的要求。
3、中文信息检索中的索引策略。本文应用概率模型在TREC公开数据(TREC Mandarin)上比较了不同索引策略对中文信息检索的影响。本文首先介绍了信息检索中的概率模型，随后给出了待比较的检索策略：基于字索引、基于词的索引和字的二元文法索引。实验结果表明，以信息检索常用的平均精确率和R-精确率为评价指标，基于字的二元文法索引性能最优。以召回率与精确率对应表和文件数与精确率对应表为评价指标，基于字的二元文法性能最优或与最好的结果可比。
2.学位论文黄清序基于神经网络和最大熵原理的自适应算术编码方法 2004
通用无损数据编码是数据压缩领域的一个重要的分支,现有的无损数据编码方法大多是基于n-gram模型的,n-gram模型忽略了自然语言中的远距离约束和诸如词序冗余、语义冗余、句法冗余等冗余,为了找出并减少这些冗余,需要更有效的语言模型和更智能的算法.近几年的自然语言处理研究表明,最大熵原理是建立自然语言统计模型的一个很有效的方法.而在许多领域应用广泛的人工神经网络具有自适应和自学习的特点,成为数据编码方法的一个理想选择.传统的人工神经网络数据编码算法需要离线训练且编码速度慢,因此通常多用于专用有损编码领域如声音、图像编码等,在无损数据编码领域应用较少,针对这种现状,该文详细地研究了最大熵统计语言模型和神经网络算法各自的特点,在此基础上提出了一种基于神经网络和最大熵原理的算术编码方法,这是一种自适应的可在线学习的算法,并具有精简的网络结构.实验表明,这种算法在压缩率上优于传统的算法,在编码和解码速度上接近于传统的数据编码方法.
本文链接：http://d..cn/Periodical_jsjyjyfz.aspx
三亿文库包含各类专业文献、行业资料、中学教育、外语学习资料、文学作品欣赏、各类资格考试、应用写作文书、生活休闲娱乐、面向大规模语料的语言模型研究新进展_图文79等内容。　
　顾森在文中介绍了一种基于大规模语料的新词发现算法。对中文资料进行自然语言处理时, 我们会遇到很多其他语言不会有的困难, 例如分词――汉语的词与词之间没... 　统计语言模型有点像天气预报的方法。用来估计概率参数的大规模语料库好比是一个地区历年积累起来的气象纪录,而用三元模型来做天气预报,就像是根据前两天的天气... 　大规模语料库提供的客观翔实的语言证据来从事语言学...一个新学科的名称,而仅仅反映了一个新的研究手段...通过大规模语料库建立统计模型成为语言信息处理和... 　检索报告(1243篇)(2) _教学研究_教育...基于大规模语料库的多引擎语言翻译模型的构建[J]. ...面向双语教学的平行语料库构建及应用[J]. 湖北经 ... 　基于大规模语料库的对美汉语教学用词表的制定研究_教学反思/汇报_教学研究_教育专区。基于大规模语料库的对美汉语教学用词表的制定研究摘要本文探讨使用美国当代... 　面向微博搜索的时间感知的混合语言模型_互联网_IT/计算机...大多数微博查询的大部分相关文档并没有出现在最新...论文通过在 TREC 新闻语料集上做实验表明,加入时间... 　研究中的词汇主义;(3)语料库方法和统计语言模型。...大规模真实文本处理的需求, 我们必须寻找可以从语料...、词性标注、信息检索等应用领域中所取得的进展。... 　内容简介:语言模型是描述句子是否符合语言语法的一种方法,通过对大规模语料库的整理分析,构建一个有效而空间占用少的语言模型对机器翻译等课题的研究具有很大帮助... 　中文领域术语自动抽取方法进展研究_哲学_高等教育_...融合多统计特征的统计模型是目前主流的统计方法,选择...方法适用于大规模语料的特征,又融合了语言规则精确度...}

我爱游戏网