查全率

查全率(Recall Ratio)

目录

  • 1 什么是查全率
  • 2 查全率的计算公式[1]
  • 3 查全率的局限性[1]
  • 4 影响查全率的因素[2]
  • 5 提高查全率的具体方法[3]
  • 6 参考文献

什么是查全率

  查全率是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。

查全率的计算公式

查全率=

检索出的相关信息量

× 100%

系统中的相关信息总量

查全率的局限性

  查全率的局限性主要表现在:它是检索出的相关信息量与存储在检索系统中的全部相关信息量之比,但系统中相关信息量究竟有多少一般是不确知的,只能估计;另外,查全率或多或少具有“假设”的局限性,这种“假设”是指检索出的相关信息对用户具有同等价值,但实际并非如此,对于用户来说,信息的相关程度在某种意义上比它的数量重要得多。

  为了保证查全率,在选取检索词和制定策略时应从多角度考虑,将与检索相关的同义词、反义词、上下位词和易错形式等4种类型的用词进行相关检索。另外,同义词包括了学名与俗名、全称与简称、新称与旧称、外文形式及其简称、不同的译名等,还有化学物质的名称和分子式如“二氧化硫”和“SO2”、不同地区、国家的俗称如“民乐”(中国大陆)和“国乐”(中国台湾)及“华乐”(新加坡)、古代名人字号等。反义词可以从相反的角度反映同一个问题,用来作相关检索也可提高查全率。上下位词有助于分析信息检索中学科知识的网络分布,准确把握主题用词,能有效控制检索的深度和广度。而检索词的易错形式则是主要针对出版、输入时的误差采用的检索办法,如“高梁”和“高梁”、“豆豉”和“豆鼓”、“针灸”和“针炙”等,如果在检索时将有关的全称、简称、旧称、英语全称、英语缩写以及简称作为检索用词,则能有效提高检索的查全率。

影响查全率的因素

  影响查全率的因素从文献存储来看,主要有:文献库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念或用词不当等。此外,从情报检索来看,主要有:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟练和缺乏耐心;检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等。

提高查全率的具体方法

  提高查全率首先应正确选词。选词就是将主题概念转变成检索语言,选词的广度和专指度对主题概念的表达起着关键作用。提高查全率的指导思想是:选词应广泛,即主题词的选取范围要广一些,泛指性要强一些;逻辑算符应选择具有扩检意义的“逻辑或”。

  1.上、下位扩检法

  为了提高文献检索的查全率,除选择恰当的主题词外,还应该选择内容范围更广的上位词及更窄的下位词参与检索,以扩大检索范围。例如,检索“液体火箭发动机”可用这样的检索式:液体火箭发动机OR氢氧发动机OR肼发动机OR火箭发动机。

  2.同义词、近义词扩检法

  许多全文数据库都支持关键词检索。利用关键词检索,用户不必掌握复杂的叙词知识,这使检索变得简单而直接。由于关键词未经规范处理,它们之间不显示词的等级关系和相关关系,这都增加了查全文献的难度。因此,为了全面地收集文献,在进行某一专题检索时不仅要确定较规范的主题词,还要考虑与该主题词相关的同义词或近义词,即学名与俗称之间、同一产品的正式命名与俗名之间的相关关系等。反映同一概念的检索词越多,则越能保证查全率,如“乙醇”俗名“酒精”,“维生素C”俗称“维他命C”或“抗坏血酸”,“番茄”俗称“西红柿”,“马铃薯”俗称“土豆”,“敌克松”又称“地可松”等。这类意思一样但表达方式不同的词,在检索中应加以重视。如果不考虑这种情况,在检索中就会漏掉一些文献,从而影响查全率。

  3.增加“逻辑或”组配

  文献检索中除正确选择主题词外,恰当地表达主题词之间的逻辑关系也是提高查全率的重要方法。在逻辑组配过程中,必须正确地选用逻辑算符来表达检索项之间的逻辑关系,以真实、确切地反映检索要求。如果逻辑算符选得不对或不恰当,将会产生漏检或误检,直接影响检索质量。前面已提到,用“逻辑或”组配可以扩检,而“逻辑与”组配可以缩检,因此,提高检索的查全率必须增加OR组配,减少AND组配。方法之一是选全同义词,并以OR方式与原词连接后加入检索式。例如,检索“乙醇的生产”方面的文献,可制订检索式:乙醇OR酒精AND生产。

参考文献

  1. 1.0 1.1 江南大学图书馆编著.科技查新工作与创新体系.中国轻工业出版社,2008
  2. 赵泉等编著.信息检索.机械工业出版社,2008
  3. 周金元主编.研究生信息素质高级教程.江苏大学出版社,2009
阅读数:527