目录
|
多媒体文档数据库又称全息数据库,它有两层含义:第一,全息是全部信息的简称,表示非结构化数据库能存储各种信息;第二,它有物理学的“全息技术”的全息含义,表示可以处理全方位信息。
多媒体文档数据库是一种非结构化数据库,数据库的变长记录由若干不可重复和可重复的字段组成,每个字段又可以由若干不可重复和可重复的子字段组成;多媒体文档数据库通过倒排文档技术实现快速查询,借助字段和子字段定义及标识系统实现数据的存取和关联,借助规范文档实现规范化检索,以获得较高的查全率和查准率。
1、数据变长存储
数据变长存储体现在每个记录的字段个数和字段长度都是可变的。与关系数据库相比,它有两个优点:a.节省存储空间。,解决了关系数据库的数据超长处理的难题和浪费存储空间的问题;b.增加和删除一个字段只是记录内的一个操作,不需要修改数据库结构,系统扩充十分容易。
2、字段和子字段可重复
全息数据库中一个记录内允许有重复字段和子字段,而关系数据库是通过一对多的关系解决字段重复的问题,有多表操作带来的维护困难和效率不高等问题。
3、通过联接字段实现数据关联
在全息数据库中,有一种特殊的字段称为联接字段,它既可以将其所在记录与本数据库的其他记录或其他数据库的记录关联起来,也可以将本记录与外部文件(如图像文件)和对象相互联系。
4、检索灵活、高效、方便
全息数据库以处理海量数据库见长。关系数据库通过建立索引而实现快速检索,而全息数据库采用灵活高效的倒排文档技术,不仅能够实现复杂的逻辑组配检索的需求,而且还能进行全文任意词的单项及组配检索,检索速度快,且不受文献量的影响。
5、利于数据变换
全息数据库的标识系统使其具有良好的可交换性,不同的全息数据库管理系统可以方便地通过导出和导入接口按一定标准进行数据交换,实现资源共享。事实上,在图书馆和倒排处理领域,已有相应的国际标准、国家标准和行业标准,如图书馆界使用的机读目录MARC标准等。交换时以此为准,而不必再增加全息数据库系统的负担。
6、数据输出
由于全息数据库所存储的数据十分复杂,其输入要求也非同寻常,例如输出格式有表格式、标签式、卡片式、目录式、索引式、书本式等等。只有将定义输入格式的控制权交给用户,才能以不变应万变,满足各种用户的需求。
7、直接利用关系数据库的数据
尽管全息数据库与关系数据库有诸多不同,但全息数据库可根据用户需求对关系数据库建立倒排文档,以提供与全息数据库相同的检索功能。
全息数据库的整个操作是由全息数据库管理系统统一管理的。由于以上所述全息数据库的特点。可看出全息数据库管理系统的功能包括:对全息数据库结构的建立和维护、对倒排文档的建立与维护、记录的维护(包括追加、修改、删除等):数据输出、数据交换等基本功能及对Intemet网上web的全面支持的必备功能;可以直接挂接各种关系数据库并对其进行倒排。用户可不用编程即可将关系数据库上网发布,并可以快捷的响应速度按任意词实现全文检索。因此,全息数据库技术具有广泛的应用领域。其应用范围包括:图书、倒排资料、标准、专利、档案、报刊等多种非结构化和海量信息的机构,以及包括医院、政府机关、企事业单位、保险公司等各种类型的单位。可以说,全息数据库已经开始在一些难以处理的非结构化的复杂对象与海量数据领域充分施展它的才能了。