目录
|
网络信息挖掘就是利用数据挖掘技术,自动地从网络文档以及服务中发现和抽取信息的过程。它涉及到多个研究领域,除了密切相关的机器学习和自然语言处理领域以外,还有数据库、信息检索、人工智能等研究领域。或者可以理解为网络信息挖掘就是Web数据的挖掘,即利用数据挖掘技术从网站收集的数据中发现潜在的模式和关联,网络信息挖掘能够将Web数据转换变成有用的洞察力和智能,从而来描述站点和访问站点的人。网络信息挖掘可用于加强网站的导航功能、客户交互的个性化以及保证网站的可靠性。
网络信息挖掘是一个极其复杂的过程,它不同于传统的数据仓库技术平和简单的知识发现,它面对的海量信息不是全简单的结构化数据,而常常为半结构化的数据,如文本、图形、图像数据,甚至是异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。
网络信息挖掘大致分为4个步骤:
1.资源发现,即检索所需的网络文档。
2.信息选择和预处理,即从检索到的网络资源中自动挑选和预先处理得到专门的信息。
3.概括化,即从单个的Web站点以及多个站点之间发现普遍的模式。
4.分析,对挖掘出的模式进行确认。
根据挖掘对象的不同,网络信息挖掘可以分为为网络内容挖掘、网络结构挖掘以及网络用法挖掘三种类型。
1.网络内容挖掘
即从网络的内容/数据/文档中发现有用信息的过程。网络信息资源类型众多,从网络信息源的角度看,大量的网络信息资源可以直接从网上抓取、建立索引、实现检索服务,但是还有一些网络信息是“隐藏”的,如由用户的提问而动态生成的结果。或是存在DBMS中的数据,或是那些私人数据,它们无法被索引。从而无法提供对它们有效的检索方式;从资源形式看,网络信息内容是由文本、图像、音频、视频、元数据等形式的数据组成的,因此网络内容挖掘是一种多媒体数据挖掘形式。
2.网络结构挖掘
即挖掘Web潜在的链接结构模式。这种思想源于引文分析,即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。可以用于网页归类,并且可以由此获得有关不同网页间相似度及关联度的信息,有助于用户找到相关主题的权威站点。
3.网络用法挖掘
通过网络用法挖掘,可以了解用户的网络行为数据所具有的意义。网络内容挖掘、网络结构挖掘的对象是网上的原始数据,而网络用法挖掘则面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括:网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户提问式等等。运用网络用法挖掘技术能够从服务器以及浏览器端的日志记录中自动地发现隐藏在数据中的模式信息、了解系统的访问模式以及用户的行为模式,从而作出预测性分析。例如通过评价用户对某一信息资源所花的浏览时间,可以判断出用户对该资源感兴趣程度;对日志文件所收集到的域名数据,根据国家或域类型(.com,.edu,.gov)进行分类分析;应用聚类分析来识别用户的访问动机和访问趋势等。这项技术已经有效地运用在电子商务之中。众所周知,信息的收集、加工、分析或挖掘以及传播的过程并不是孤立的。
因此,在实际应用中,上述3类挖掘手段可以结合使用。它们的共同目标是充分利用多种网络信息资源,多角度、多层次地挖掘出支持不同商业决策需要的信息和知识。
网络信息挖掘在实际工作中具有重要的实践意义和广阔的应用前景,可以应用在科学研究、市场营销、金融投资、产品制造、教学管理及网络管理等方面。
网络信息挖掘在电子商务中的应用主要是了解客户,针对不同客户提供不同的产品,提供个性化服务,确定顾客消费的生命周期,制定相应的营销策略,分析潜在的目标市场,优化电子商务网站的经营模式;应用于电子政务中主要用于民情信息的挖掘分析,为政府重大政策出台提供决策支持,通过对网络各种经济资源的挖掘,确定未来经济的走势,从而制定出相应的政策,这样可以较大程度地提高政府信息化水平;网络信息挖掘作为一种开发利用网络资源的有力工具,在企业竞争情报系统的工作中发挥重要作用,通过对大量专利数据的分析归纳,发现权威站点和有重要价值的隐藏信息,并能监视和预测用户的访问习惯,通过对大量专利数据的分析归纳,挖掘出现有专利的模式和发展趋势,可以评价企业的竞争能;网络信息挖掘还可以应用于搜索引擎,网络上存在着大量重复的网页,通过网络信息挖掘技术判断出重复的网页,并屏蔽掉这些重复信息,消除了重复信息的查询结果界面更加有序且方便于用户;另外网络信息挖掘还可以应用于数字图书馆建设,主要应用于数字图书馆的信息资源建设、管理系统和个性化服务几个方面,通过采用网络信息挖掘技术,可以将网络上丰富的信息资源聚集到数字图书馆,通过挖掘、加工和处理涉及信息需求者行为的大量信息,确定需求群体或个体的兴趣及需求倾向等,为读者提供高水平的基于数字化、智能化、个性化的主动服务。