word2vec训练语料料与测试语料比例多少比较合适

基于条件随机场汉语分词的语料规模量化研究_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
基于条件随机场汉语分词的语料规模量化研究
上传于|0|0|文档简介
&&基于条件随机场汉语分词的语料规模量化研究
阅读已结束,如果下载本文需要使用1下载券
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩1页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢君,已阅读到文档的结尾了呢~~
基于同义词文本分类研究,研究 同义词,同义词,oracle 同义词,的同义词,同义词词典,英语同义词,同义词在线查询,影响的同义词,创建同义词
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
基于同义词文本分类研究
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口您的位置: &
基于先秦语料库的古汉语地名自动识别模型构建研究
优质期刊推荐骆卫华等:面向大规模语料的语言模型研究的新进展;■∞;Memory/GB;Fig.2;Performanceof3-gramBFLMi;memory.;图2基于BF的3元模型在不同空间下的性能;关系.当BF的误识率超过0.1时,系统性能急剧下;一∞;Fig.3;Relationship;between;falsepositive;of;BFI.,M;andt
骆卫华等:面向大规模语料的语言模型研究的新进展
Memory/GB
Fig.2
Performanceof3-gramBFLMindifferentsizeof
memory.
图2基于BF的3元模型在不同空间下的性能
关系.当BF的误识率超过0.1时,系统性能急剧下降.如果误识率相同,则底数越小系统性能越好,这是由于更小的底数提供了更高的精度.还须说明的是,由于BF语言模型存储的是N元组的频次,而在实际查询时,要查的N元组是不带频次信息的,因此必须尝试M次查询(M为预定义值),所以实际查询的次数比基于TRIE树的结构还要多出很多,这就导致基于BF的语言模型查询时速度仅为基于TRIE树的实现的1/6~1]5.
Fig.3
Relationship
between
falsepositive
BFI.,M
andtheperformance.
图3BF误识率与翻译系统性能之间的关系
2.3分布式并行语言模型
文献[8]实现了一个基于客户机/服务器的分布式语言模型,运行解码器的客户端直接向多台存储语言模型的服务器请求数据,但分布式语言模型只在N―best重排序时使用,解码时仍使用较小的低阶语言模型.文献[9]在此基础上提出了改进方法,该方法基于Google的MapReduce模型,实现了完整的分布式语言模型的训练与查询方法.
通常大规模语料的分布式训练把语料切分到多个主机上同时进行,并在服务器端汇总结果.平滑是其中最复杂的环节,这是因为很多平滑算法需要查询存放在其他主机上的信息.为简化复杂度,文献
[9]提出了一种有趣的平滑方法――傻瓜回退,其基
本思想是如果N元组硼。∞:…凹N不存在,则它的平滑值直接以某个因子回退到其N一1元组的平滑值,即
S(wff们卜i--Ⅳ+I
』甓等,iff(w;…)>o:
【aSKwfI‘r.O.i-。I蚪2),if,(训;一肿1)=0;
其中,厂(z)表示N元组z的频次,口是回退因子.显然,傻瓜平滑不满足概率的归一化,因此S(z)并不是一个概率值,但它与概率计算的结果是一致的.傻瓜平滑对于分布式环境是一种廉价的解决方法,虽然小规模数据上它的性能要落后于WB,KN等经典平滑算法,但数据规模的增加能够逐渐消弭这种差距.
MapReduce是Google提出的一种分布式并行表示为一个由键/值对组成的表,由用户指定一个函数Map把键/值对映射为中间键/值对,再通过函数的训练非常适合用MapReduce处理.以最初的词典词频.函数Map首先把词(作为键)及当前主机上的
后通过一个函数Shard决定把这组键值对发送给哪台主机,函数Shard保证把同一个键的键/值对发
MapReduce的词典生成算法的详细步骤.
算法3.基于MapReduce的词典生成算法.Map(string
key,string
value){/*key―
docid,ignored;value=document*/
array
words=Tokenize(value);
hash―map(string,int>histo;?
fori一1??#words
histoEwords[i]]++:
forit已rinhistf)
Emit(iter.first,iter.second);}
计算的编程模型Ll…,其基本思想是把需处理的数据Reduce把拥有相同中间键的值合并起来.语言模型生成为例,其目标是从语料中统计所有不同词及其语料中的频次信息(作为值)映射为中间键/值对,然送给相同的主机,函数Reduce接收到同一个键的
键/值对之后,将值累加起来.如下给出了基于
ShardForKey(stringkey,intnshards){
return
Hash(key)%nshards;)
Reduce(stringkey,iteratorvalues){/*key―
zvord;values=frequency*/sum=O;
foreach口invalues
sum+一ParseInt(口);Emit(AsString(sum)).)
基于以上信息计算语言模型时,如果采用傻瓜平滑,则一个主机上就拥有计算平滑概率的所有信息.如果采用WB,KN等平滑算法,则除了需要N元组本身的频次之外,还需要前后缀数量等额外信息,而且计算时需要与多个主机进行通信,实现的复杂度较高.
分布式语言模型查询和本地调用不同,它不执行同步查询.这是因为即使翻译一个句子,解码时也会执行成千上万次语言模型查询,对于分布式语言模型而言,这意味着成千上万次连接.为避免网络连接延时,需要把待请求的N元组累积起来放入一个队列,如果队列已满,则一次性请求一批数据,从而缩短响应时间.
理论上,分布式并行语言模型的处理能力可以随处理数据规模无限扩展,对于性能随数据量增长的应用而言,这是比较理想的解决方法.Brants用机器翻译系统进行了多组实验,以验证语言模型规模与系统性能的关系.训练语料包括4组:由LDC发布的阿拉伯一英语双语语料的英语部分(约2.37亿个词,简称target),由LDC发布的英语新闻语料
(约50亿个词,简称ldcnews),到2005年12月的Web新闻语料(约310亿个词,简称webnews),从网上采集的网页数据(约20000亿个词,简称Web).解码器是Google自己开发的基于短语的机器翻译系统,测试集是NIST2006阿拉伯语到英语的测试集.测试标准是BLEU值.
困惑度和N元组覆盖率是衡量语言模型质量的重要指标.困惑度越低,表明语言模型估计的分布与真实语料的分布越吻合.N元组的覆盖率越高,表明测试语料中更多的N元组在训练语料中出现
过,对平滑算法韵依赖就越低.对于不同语料,由于
其词汇集不同,不能直接比较困惑度.由图4不难看出,对于同一语料,其困惑度始终随数据规模增长而降低.通过不断累加语料,N元组的覆盖率也基本随数据规模的增加而线性增长,尤其在加入了Web语料之后,5元组的覆盖率达到了56%,这对于语言
计算机研究与发展2009,46(10)
模型的应用显然很有帮助.
扫p日,H邕彳
LMTrainingDataSizeinMillionTokens
Fig.4
Relationshipbetweendatasize,complexityand
N―gramcoverage.
数据规模与困惑度及N元组覆盖率的关系
图5给出了规模不断增加的语言模型(采用了傻瓜平滑)对机器翻译性能的影响,曲线上的数字表示随数据规模增加而提升的BLEU值,例如+0.56BP/×2表示N元组增加1倍,BLEU值增加0.56.实验结果表明,对于基于短语的机器翻译系统,其性能随语言模型数据规模的增加而增长,虽然总体上增幅趋缓,但在TB级规模的数据上仍然还保持增长.这表明通过扩大语料规模提升机器翻译性能仍然有一定潜力.但分布式语言模型在解码时增加了网络数据传输的开销,这需要在解码器中引入适当的处理机制,将大量零散的语言模型计算请求合并起来,从而导致解码算法的复杂度大大增加.
LMTrainingDataSizeinMillionTokem
Fig.5
Relationshipbetweentheperformanceanddata
size.
图5系统性能与数据规模的关系
语言模型是自然语言处理中非常重要的工熊
骆卫华等:面向大规模语料的语言模型研究的新进展
多年来,研究人员主要集中于语言模型理论尤其是平滑算法的研究.随着计算能力的提高以及可用语料的迅速增长,人们开始关注面向大规模语料的语言模型训练与使用的问题.由于系统资源是有限的,大规模语言模型的处理并不是在原有规模基础上的简单放大.目前,研究者从数据的表示和系统结构等多个角度着手探索这个问题,其中比较有代表性的工作包括基于数据分治、数据压缩和内存映射的一体化方法,基于随机存取模型的语言模型表示,以及基于分布式并行体系的训练与访问.这些方法相比以前的方法都有较大的改进,能够处理更多的语料,但也存在一些缺陷.基于数据分治、压缩和内存映射的一体化方法是一种比较直观的思路,集成到现有系统中比较简单.精简数据结构和量化技术能够压缩数据,但压缩率不高,而且会带来一定的性能损失.采用内存映射使得单机能够访问远大于可用内存的语言模型数据,但其速度大大低于直接内存访问.基于BF的语言模型提供了一种全新的思路,通过把语言模型表示为布隆过滤器,只需极小的空间就能够存储大规模数据,同时对任意N元组的查询算法的时间复杂度都是O(1),但这种方法会引入单向误识,对系统的整体性能会造成一定影响,查询速度较慢,而且也没有解决大规模语言模型的训练问题.分布式语言模型大大降低了语言模型的应用对单机系统的要求,提供了一种可扩展的架构,避免了数据的重复存储,但为了减少昂贵的网络连接开销,需要把语言模型的查询方式改为批处理,因此需要对现有的系统作较大的修改,而且通常需要高配置的服务器以保证较快的查询速度和较高的稳定性.
需要说明的是,虽然本文都是以机器翻译为例来说明新方法的实现和性能,但其作用并不局限于此.事实上,这些方法都具有一定的通用性,同样可以在信息检索、语音识别等领域使用,但在具体应用中还需要结合各个方法的优缺点来进行选择.
在机器翻译、信息检索、语音识别等应用中涉及到对语言模型的大量频繁访问,因此大规模语言模型研究的目的应该是设计一种占用存储空间小、查询速度快且可扩展的方法.如果把几种研究思路结合起来,将有助于更好地实现这一目标.例如,如果采用分布式并行体系,加人数据压缩,并结合有效的缓存策略,将有助于进一步降低语言模型应,用的系统资源要求.此外,一些语言模型的更复杂的问题在现在的研究中涉及的还不多,例如SRILM中实现了基于类的语言模型(class-basedlanguage
model)、句法
语言模型(syntactic
language
model),而这些在新
的研究中尚未涉及.此外对多个不同来源的语言模型进行融合,能够更好地估计概率,提高整个系统的性能,这些都将是下一步研究中值得关注的问题.
[1]Manning
C。Schotze
H.FoundationsofStatisticalNatural
LanguageProcessing[M].Cambridge。MA:MITPress,
[2]GoodmanJ.A
bitof
progress
inlanguage
modeling.Tech
MsR-TR一200l一72
Redmond,WA.
MicrosoftResearch,2001
Es]Och
F.TheGooglestatisticalmachinetranslationsystemfor
NISTMTevaluation[R].Gaithersburg,MD:
Nationsl
Institute
ofStandsrdandTechnology,2006
[4]Federico
M,Cettolo
M.Efficient
handling
N-gram
language
modelsforstatistical
machinetranslation[c]//Proc
ofthe2ndWorkshop
Statistical
MachineTranslation.
Stroudsburg,PA;AssociationforComputational
Linguistics,
2007:88-95
[5]FedericoM,BertoldiN.Howmany
bitsareneededtOstore
probabilities
phrase-based
translation[C]//Procof
Workshop
onStatistical
Machine
Translation.Stroudsburg,
P人:Associationfor
Computational
Linguistics,2006:94―
[6]7l'albot
I).()sborne
M.Randomised
language
modellingfor
statistical
machinetranslation[【?]//l'roc
ofthe
Annual
Meeting
Association
ofComputationalLinguistics.Stroudaburg,PA:Associationfor
Computational
Linguistics,
2007:512―519
[7]Talbot
D,OsborneM.Smoothed
Bloomfilter
language
models:Tera-scaleLMsONthe
cheap[c]/IProc
ofthe
Joint
Empirical
Methods
NaturalLanguageProcessing
Computational
NaturalLanguage
Learning.
Stroudsburg。PAiAssociationfor
Computationsl
I。inguistics,
2007:468―476
[8]Zhang
Y,HildebrandA,eta1.Distributedlanguagemodeling
N―best
re-ranking
It]/Proc
Empirical
Methods
NaturalLanguagcProcessing.
Stroudsburg,PA:Associationfor
Computational
Linguistics,
216―23
[9]Dean
J,Ghemawat
MapReduce:Simplified
dataprocessingon
large
clusters口].Communications
ACM。2008,51(1)z
107-113
[10]Brants
T,PopatA,eta1.LargeLanguage
models
inmachine
translation[c]//Proc
JointConf
Empirical
Methods
Natural
Language
Processingand
Computational
NaturalLanguageLearning.Stroudsburg.PA:Associationfor
Computational
Linguistics,2007:858―867
计算机研究与发展2009,46(10)
Weih咂,born
1977.An
assistant
Luo刘群,1966年生,博士,研究员,博士生导师,中国计算机
professorof
InstituteChinese
Computing
学会高级会员,主要研究方向方向为机器翻译、自然语言处理等.
Technology,the
Academy
Sciences.Hereceivedhismaster’sdegreefromTsinghuaUniversity
2005,he
in2002.Sincethe
Graduate
BaiShuo,bornprofessorof
1956.CurrentlyInstituteofChineseengineer
guest
PhDcandidateof
Computing
UniversityoftheChineseAcademyofSciences.Hisresearch
interests
include
information
Technology,theSciences
chief
Academyof
retrieval,topicShanghai
detectionandtracking,large-scaledataprocessing,etc.StockExchange.Hereceived
degreefromPekingUniversityininterestsincludeprocessing.Heis
network
security
hisdoctor’s
research
content
骆卫华,1977年生,博士研究生,助理研究员,主要研究方向为信息检索、话题检测与跟踪、大规模数据处理等.
1990.Hismainand
large-scale
memberofStandingCounciloftheChinese
deputy
director
member
Qua,born1966.Currently
professor
Information
Society
oftheInstituteofComputingTechnology,the
Chinese
CommitteeoftheSecuritiesAssociationofChina.
Academy
ofSciences.PhDhis
doctor’sin
2004.
白硕,1956年生,博士,客座教授,博士生导师,主要研究
supervisor.Hedegree
received
方向为网络安全、大规模内容处理等.
Pekinginclude
Universitymachine
Hismainresearchintereststranslation.
informationextractibnandnaturallanguageprocessing.Heis
senior
memberoftheChineseComputerFederation.an
editorialmember
Journal
ofofthethe
ofChineseInformation
Processing。aACI。2008,andSIGHAN2008.
member
Program
Program
Committee
Committee
member
ResearchBackground
I.anguagemodel(hereafterrefered
speechrecognition,etc.Empiricallyreducethecomplexityand
I。M)plays
keyroleinthemodelsofmachinetranslation,informationretrieval。
speaking,LMwithhigherorder
trained
moredata
covers
N―grams,andwill
improvetheoverallperformanceofthesystemswhich
component,especiallyfor
availablemonolingual
statisticalmachinetranslation.Therefore,researcherscorpora.However。trainingandwiththeorderof
requests
ready
totraintheirLM
moreandmore
oflarge-scale
I,Mis
trivialproblem.ThesizeofLMwillincreaseexponentially
thesizeof
trainingcorpus.For
limited
resources
ofthesystem,itis
loadalIN―gramsin
memoryand
access
them.Todealwiththe
problem,somepromisingmethods
proposedin
recent
years.Anadhocmethod
combinessomecompactdatastructure。datacompressionbasedpartly.However,thecompression
quantizationand
memorymapping.ItreducesthesizeofI。M
speedofN-grams.Anotherlossydata
satisfyinganditwillslowdownthe
represent
query
compressionbased
Bloomfilteris
effectiveway
LM.ItkeepstheinformationofLMinmuchsmaller
memory.However,errorsoffalsepositive
parallelresultin
theCOStandslow
requests
anotherproblemtobeconsidered.Adistributed
frameworkhas
great
goodscalability,hutthe
implementationisdifferentfromtraditionalstand-aloneapplications.Itwill
themethodsmentionedaboveprovides
modificationsthecurrent
implemenation.Thecombinationof
promisingsolutionandisworthinvestigation.OurworkissupportedbytheHi-TechResearchandDevelopmentProgramof
China―the
Program(2007AA012438).
面向大规模语料的语言模型研究新进展
作者:作者单位:
骆卫华, 刘群, 白硕, Luo Weihua, Liu Qun, Bai Shuo
骆卫华,Luo Weihua(中国科学院研究生院,北京,100049;中国科学院计算技术研究所智能信息处理重点实验室,北京,100190), 刘群,Liu Qun(中国科学院计算技术研究所智能信息处理重点实验室,北京,100190), 白硕,Bai Shuo(上海证券交易所,上海,200120)计算机研究与发展
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT)0次
刊名:英文刊名:年,卷(期):被引用次数:
参考文献(10条)
1.Manning C.Schütze H Foundations of Statistical Natural Language Processing 19992.Goodman J A bit of progress in language modeling.[Tech Rep:MSR-TR-01
3.Och F The Google statistical machine translation system for the 2006 NIST MT evaluation 20064.Federico M.Cettolo M Efficient handling of N-gram language models for statistical machinetranslation 2007
5.Federico M.Bertoldi N How many bits are needed to store probabilities for phrase-based translation 2006
6.Talbot D.Osborne M Randomised language modelling for statistical machine translation 20077.Talbot D.Osborne M Smoothed Bloom filter language models:Tera-scale LMs on the cheap 20078.Zhang Y.Hildebrand A Distributed language modeling for N-best list re-ranking 20069.Dean J.Ghemawat S MapReduce:Simplified data processing on large clusters .Brants T.Popat A Large Language models in machine translation 2007
相似文献(2条)
1.学位论文 韩咏 中文信息检索索引单元的研究 2006
随着Intemet在全世界的迅猛发展,各种信息资源越来越丰富。信息检索作为互联网的核心技术具有极大的商业价值;信息检索还直接影响到提供给用户什么样的信息;同时信息检索也是情报处理的重要环节。从这个意义来看,研究并掌握信息检索的核心技术,无疑具有十分重要的经济意义、社会意义和军事意义。
本文对中文信息检索中的索引策略进行了研究。由于中文文本没有用于切分单词的空格,这使得索引单元的研究成为中文信息检索的特有问题。本文比较的索引策略包括基于字的索引、基于词的索引和基于字的n元文法的索引。本文包括以下几个方面的内容:
1、汉语自动分词。汉语分词是以词为索引单元的信息检索不可缺少的一步。本文分析了汉语自动分词中的歧义现象,然后介绍了用于处理自然语言的歧义问题的语言模型,最后介绍了应用于语言模型的平滑算法。综合使用这些技术,使汉语自动分词获得了很高的准确率,满足了信息检索的需要。
2、信息检索系统实现问题,即信息检索系统的数据组织方式。对信息检索系统待处理的数据进行高效的组织是进行信息检索的必要前提。数据组织方式影响系统的检索速度和存储空间。这部分首先介绍了索引的组织方法,包括正向索引和倒排索引;然后在关键字的组织查找方式中介绍了两种常用的查找方法B-树和哈希表;随后是信息检索中的数据压缩方法:最后是信息检索系统数据组织的具体实现。本文根据实验数据的特点,恰当地选择了数据组织方法,满足了实验的要求。
3、中文信息检索中的索引策略。本文应用概率模型在TREC公开数据(TREC Mandarin)上比较了不同索引策略对中文信息检索的影响。本文首先介绍了信息检索中的概率模型,随后给出了待比较的检索策略:基于字索引、基于词的索引和字的二元文法索引。实验结果表明,以信息检索常用的平均精确率和R-精确率为评价指标,基于字的二元文法索引性能最优。以召回率与精确率对应表和文件数与精确率对应表为评价指标,基于字的二元文法性能最优或与最好的结果可比。
2.学位论文 黄清序 基于神经网络和最大熵原理的自适应算术编码方法 2004
通用无损数据编码是数据压缩领域的一个重要的分支,现有的无损数据编码方法大多是基于n-gram模型的,n-gram模型忽略了自然语言中的远距离约束和诸如词序冗余、语义冗余、句法冗余等冗余,为了找出并减少这些冗余,需要更有效的语言模型和更智能的算法.近几年的自然语言处理研究表明,最大熵原理是建立自然语言统计模型的一个很有效的方法.而在许多领域应用广泛的人工神经网络具有自适应和自学习的特点,成为数据编码方法的一个理想选择.传统的人工神经网络数据编码算法需要离线训练且编码速度慢,因此通常多用于专用有损编码领域如声音、图像编码等,在无损数据编码领域应用较少,针对这种现状,该文详细地研究了最大熵统计语言模型和神经网络算法各自的特点,在此基础上提出了一种基于神经网络和最大熵原理的算术编码方法,这是一种自适应的可在线学习的算法,并具有精简的网络结构.实验表明,这种算法在压缩率上优于传统的算法,在编码和解码速度上接近于传统的数据编码方法.
本文链接:http://d..cn/Periodical_jsjyjyfz.aspx
三亿文库包含各类专业文献、行业资料、中学教育、外语学习资料、文学作品欣赏、各类资格考试、应用写作文书、生活休闲娱乐、面向大规模语料的语言模型研究新进展_图文79等内容。 
 顾森在 文中介绍了一种基于大规模语料的新词发现算法。 对中文资料进行自然语言处理时, 我们会遇到很多其他语言不会有的困难, 例如分词――汉 语的词与词之间没...  统计语言模型有点像天气预报的方 法。用来估计概率参数的大规模语料库好比是一个地区历年积累起来的气象纪录,而用三 元模型来做天气预报,就像是根据前两天的天气...  大规模语料库提供的客观翔实 的语言证据来从事语言学...一个新学科的名称,而 仅仅反映了一个新的研究手段...通过大 规模语料库建立统计模型成为语言信息处理和...  检索报告(1243篇)(2) _教学研究_教育...基于大规模语料库的多引擎语言翻译模型的构建[J]. ...面向双语教学的平行语料库构建及应用[J]. 湖北经 ...  基于大规模语料库的对美汉语教学用词表的制定研究_教学反思/汇报_教学研究_教育专区。基于大规模语料库的对美汉语教学用词表的制定研究 摘要 本文探讨使用美国当代...  面向微博搜索的时间感知的混合语言模型_互联网_IT/计算机...大多数微博查询的大部分相关文档并没有出现在最新...论文通过在 TREC 新闻语料集上做实验表明,加入时间...  研究中的词汇主义;(3)语料库方法 和统计语言模型。...大规模真实文本处理的需求, 我们必须寻找可以从语料...、词性 标注、信息检索等应用领域中所取得的进展。...  内容简介:语言模型是描述句子是否符合语言语法的一种方法,通过对大规模语料库 的整理分析,构建一个有效而空间占用少的语言模型对机器翻译等课题的研究具有很 大帮助...  中文领域术语自动抽取方法进展研究_哲学_高等教育_...融合多统计特征的统计模型是目前主流的统计方法,选择...方法适用于大规模语料的特征,又融合了语言规则精确度...}

我要回帖

更多关于 word2vec训练语料 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信