目录
|
全文数据库是指存储原始文献全文或其中主要部分的一种源数据库,简称全文库。收录文献以期刊论文、会议论文、学位论文、政府出版物、研究报告、法律条文和案例、商业信息、图书为主。如EBSCO全文数据库、中国人大报资料中心复印报刊资料全文数据库、维普的中文科技期刊数据库、万方的中国学位论文全文数据库、超星数字图书馆等。
按出版方式划分,全文数据库可分为两类:一类是与印刷型文献平行出版的全文库,另一类是纯电子出版物,无相应的印刷型文本。
按存贮内容划分,全文数据库有直接原文型和文摘型。前者直接存贮文献的正文,有时甚至还包括正文以外的其它信息,如脚注、参考文献目录、文摘等。文摘型就是原文经过压缩提炼,改写成若干篇一定长度的摘要。现在的全文数据库多为直接原文型。
按应用领域划分,目前主要有以下类型:
1、法律法规全文库或条例库
法律信息多年来一直是全文检索的领先者。众所周知,法律条文中的每句话甚至每个字都是很重要的。有的甚至可以说是一言九鼎,而实际生活中各种法律多如牛毛,手工查找非常困难,书目数据库又不能直接提供原文。所以,法律界对全文数据库的需求最为迫切。美国Mead数据中心的LEXIX系统和西部出版公司的WESTLAW系统,是美国的两个主要的商业性法律全文数据库检索系统。国内比较有影响的是《法律之星》和《中国法律法规数据库》。
2、新闻资料数据库
在商业性的信息检索系统中,也广泛提供报纸、新闻公报之类的材料。
3、杂志和参考书数据库
从1983年起,DIALOG信息检索服务公司和书目检索服务公司(BRS)开始将专业杂志和参考书增加到它们的服务中来。如BRS系统中的美国化学学会原始期刊数据库、DIALOG系统中的通俗期刊全文库。我国也出现厂这种检索方式,如清华大学出版的《中闷学术期刊(光盘版)》全文数据库。
4、商情全文库
如英国Datasolve公司的市场新闻和研究报告全文库,美国《哈佛商业评论》全文库。
5、医学文献全文库
如国际研究交流系统(1RCS)的医学杂志摘录库,BRS系统的急救医学文库(Critical Care Medical library)。
与其它数据库相比,全文数据库有许多特点,主要表现在:
(1)包含信息的原始性。库中信息基本上是未加工的原始文献,因而具有客观性。
(2)信息检索的彻底性。任何词、句、字皆可检索,还有可能看到某些边缘性信息。
(3)检索语言的自然性。可使用自然语言检索,并可使用布尔检索和位置检索,因而要涉及自然语言的理解。
(4)数据结构基本上是非结构化的,除了某些可规范的数据外,大量文本属于非结构化的,不便于关系数据库的处理。
(5)专业的全文数据库系统一般都采用“自动切词”技术。
(6)好的全文数据库还备有知识库,可具有推理能力和联想式检索。
(7)基本上是封闭性的,数据不需更新,具有较大的稳定性。
(8)全文数据库占用的存储空间非常庞大,系统开销大,如何提高检索速度是一大难题。