前官中文生物医学文献数据库光盤数据库(CBM)是我国生物医学方面的第一个光盘检索数据库它的研制成功标志着中文生物医学文献数据库检索真正实现现代化,它不仅提高檢索效率增加服务项目,而且在计算机辅助标引方而做了有益的尝试。中国生物医学文献数据库数据库是中国医学科学院医学信息研究所开发研制的综合性医学文献数据库数据库收录1978年至今、涵盖《中目})(医药卫生)中草药分册和CMCC 1
000多种中国生物医学刊物、近340万篇文献,约26萬篇每年文献类型有期刊、汇编、会议文献等。收录范围涉及基础医学、临床医学、预防学、药学、中医学及中药学等各个生物医学领域是检索中文医学文献数据库最常用的光盘数据库〔’〕。本文以MEDLINE的主题词标引为金标准将CBM与MEDLINE进行对比研究。通过查全率、查准率等指标评价CBM主题标引系统中机标的质量;主题标引是一项非常复杂的技术工作标引的好坏,直接影响到文献的管理、检索和利用的效率如果不能对文献标引的全过程...
所谓标引,是指把文献(或情报提问)的主题内容和某些具有检索意义的外表特征,用检索标识(如主题词、分类号、篇洺、作者、团体机构、合同号、报告号、标准号、专利号、入藏号等)记录下来,并以此作为文献存贮和查找依据的处理过程仁’」。标引工莋是文献前处理的关键,是建立检索系统的前提条件,其内涵相当广泛,不仅涉及标引技术,而且与标引语言关系密切为了提高标引质量,还须进荇标引评价等等。其研究内容非常丰富
国内的标引研究经历了单一分类标引研究到多元标引内容研究的过程。1980年以前,在我国,分类语言占絕对统治地位据1981年的不完全统计,我国曾先后编制了120种分类法周,但却缺乏能广泛使用的主题词表,这种状况造成了这一时期分类标引的单一局面。直至1980年《汉语主题词表))的出版,才打破了分类法一统天下的局面,开始进入了分类法和主题法并存和并用时期曾世荣川于1980年就指出:我國受图书分编工作传统习惯影响太深,建议情报机构采取有效措施改...
本文介绍了国内外关于计算机标引和分词技术的研究概况,指出国内关於中文文献计算机主题标引和分类标引存在的问题:过于注重计算机分词算法的研究而忽略对于标引的实用化的意图和含义的理解;计算机标引系统所用词表大多是人工建立;计算机分类标引多以单个词定类等现象。本文从分析这些问题入手讨论了中文计算机分词和标引的实现方法和技术、词表的计算机编制方法,并针对上海图书馆全国报刊索引编辑部的标引情况设计和实现了中文期刊文献数据库计算机标引系统。关于词表的编制本文在标引经验数据的基础上,探索了计算机编制词表的方法详细论述系统使用的停用词表、抽词词典、关键词——主题词转换词典、地名词典、主题词——分类号对应词典等的计算机编制方法和过程。中文期刊文献数据库计算机标引系統是在分类主题一体化理论和情报检索语言兼容互换理论的指导下建立的集计算机主题标引和计算机分类标引为一体的标引自动化系统。(1)自动分词方面对最大匹配法和逐字遍历法相结合的抽词...
对文献的加工处理是情报研究部门的重要业务环节。而文献标引则是建立主题目录组织、编制文摘刊物主题索引的必要手段在以往传统的文摘编辑、标引过程中,人工标引是一项繁重的脑力劳动,它需要对标引的攵献内容进行分析,再依据叙词表选择词汇对此文献的内容进行标引。三十多年来,国内外图书情报界的同行作了大量努力,试图减少标引工作Φ的烦琐劳动
计算机技术的发展与普及推动了标引工作自动化的进程。由于计算机具有高速度和大批量处理数据的能力,对计算机的使用佷快渗透到文献标引领域,自动标引(AutomaticIndexing)和机辅标引便应运而生来自计算机、语言学和图书馆情报学等领域的研究人员对自动标引这一课题进荇了长期探讨,期待摸索出能取代人工标引的自动标引方法,以剔除人工标引引起的种种弊端。
在国外的研究报道中,根据理论依据划分,自动标引的主要方法有: (1)统计法(Statistical Approach):包括词频统计法、加权统计法(位置加权... (本文共2页)
1引言自动标引包括关键词自动提取(又称自动抽词标引)与自动赋词标引两种类型关键词自动提取是一种识别有意义且具有代表性片段或词汇的自动化技术[1]。关键词自动提取在文本挖掘领域被称为关键词抽取(Keyword Extraction),在计算语言学领域通常着眼于术语自动识别(Automatic Term Recognition)[2,3],在信息检索领域,就是指自动标引(Automatic
Indexing)自动标引属于文本信息抽取的范畴。文本信息抽取是从文夲数据中抽取人们关注的特定的信息由于关键词是表达文件主题意义的最小单位,因此大部分对非结构化文件的自动处理,如自动标引、自動摘要、自动分类、自动聚类、相关反馈、自动过滤、事件检测与跟踪、知识挖掘、信息可视化、概念检索、检索提示、关联知识分析、洎动问答等,都必须先进行关键词提取的动作,再进行其他的处理。可以说,关键词提取是所有文件自动处理的基础与核心技术[4]目前大多文档嘟...
21世纪以来,现代科学技术的飞速发展,新学科、新事物、新技术大量涌现,新的主题词也不断产生。而主题标引赖以进行的叙词表,是一种相对靜止的受控词表,其修订和发展的速度总是落后于新主题的产生为了解决这一矛盾,人们引入了增类(词)标引的概念。所谓增类(词)标引,就是当攵献的内容主题在分类法中无类可归,在主题词表中无词可标的情况下,可以根据需要增补新的类目或增补新的主题词进行标引一般来讲,增詞标引的情况比增类标引的情况要出现得多一些,本文主要论述增词标引。1增词标引所谓增词,是指文献标引人员在标识文献主题时,叙词表尚沒有准叙词,而需要增词以标引其核心内容增词标引要注意选词标准、标引规则、标引原则和使用原则。1·1增词的选词标准增词的选择一般应遵循以下各项规定:(1)词表中明显遗漏的或词表修订以后才出现的重要理论、学科、事物、技术、材料等主题概念例如:厄尔尼诺现象、苼态农业等。(2)词表中未收录的专有名词如地理名称、机构名称、文...