百科 > 管理 > 信息管理 > 信息技术 > 互联网

暗网

暗网(Deep Web；Hidden web)

什么是暗网

　　所谓的“暗网”，其英文原名叫作“Deep Web”，又称深层网络，它有泛指和特指两种层面的定义。

　　先说泛指，广泛意义上的“暗网”，指的是那些无法被搜索引擎收录内容的站点，也就是说，一切有着非公开访问机制的网站——比如Facebook，甚至一个注册才能进入的小型BBS——都属于“暗网”的一部分；另外，由于搜索引擎对于网站内容的抓取通常都是通过追溯超链接来完成，有着相当多的页面因为没有任何超链接的指向，也处于搜索引擎的盲区，故而它们也被纳入“暗网”的范畴。与“暗网”对应的，是“明网”，也称表层网络(Surface Web)，曾有学术机构统计过“暗网”与“明网”分别蕴含的数据比例，结果显示前者的数据存量百倍于后者，且增长速度更快。

　　真正敏感的，是特指意义上的“暗网”，也就是那些蓄意隐匿信息及身份，将在大多数国家都不合法的生意搬到网上正常经营，追求并捍卫无政府主义的立场。在美剧《纸牌屋》第二季中，女记者佐伊被男主角弗兰克谋杀，她的记者男友——或者说是炮友——卢卡斯为了调查已经当上副总统的弗兰克，通过一个名为Tor的工具访问“暗网”，寻找黑客帮忙挖掘弗兰克不为人知的秘密，这个过程就是在“暗网”中完成的。Netflix在拍摄这个桥段时，甚至邀请了真正的网络黑客格雷格·豪斯充当顾问，力求还原剧情的真实性。

暗网的来源和现状

　　Hidden Web最初由Dr．Jill Ellsworth于1994年提出，指那些没有被任何搜索引擎索引注册的网站：

　　“这些网站可能已经被合理地设计出来了，但是他们却没有被任何搜索引擎编列索引，以至于事实上没有人能找到他们。我可以这样对这些不可见的网站说，你们是隐藏了的。”

　　另外早期使用“不可见网络”这一术语的，是一家叫做“个人图书馆软件”公司的布鲁斯·芒特（产品开发总监）和马修·B·科尔（首席执行官和创建人），当他们公司在1996年12月推出和发行的一款软件时，他们对暗网工具的有过这样的一番描述：

　　不可见网络这一术语其实并不准确,它描述的只是那些在暗网中，可被搜索的数据库不被标准搜索引擎索引和查询的内容，而对于知道如何进入访问这些内容的人来说，它们又是相当可见的。

　　第一次使用暗网这一特定术语，是2001年伯格曼的研究当中。

　　从信息量来讲，与能够索引的数据相比，“暗网”更是要庞大得多。根据Bright Planet公司此前发布的一个名为《The Deep Web-Surfacing The Hidden Value》（深层次网络，隐藏的价值）白皮书中提供的数据，“暗网”包含100亿个不重复的表单，其包含的信息量是“非暗网”的40倍，有效高质内容总量至少是后者的1000倍到2000倍。更让人无所适从的是，Bright Planet发现，无数网站越来越像孤立的系统，似乎没有打算与别的网站共享信息，如此一来，“暗网”已经成为互联网新信息增长的最大来源，也就是说，互联网正在变得“越来越暗”。

　　当然，所谓“暗网”，并不是真正的“不可见”，对于知道如何访问这些内容的人来说，它们无疑是可见的。2001年，Christ Sherman、GaryPrice对Hidden Web定义为：虽然通过互联网可以获取，但普通搜索引擎由于受技术限制而不能或不作索引的那些文本页、文件或其它通常是高质量、权威的信息。根据对HiddenWeb的调查文献得到了如下有意义的发现：

　　(1)Hidden Web大约有307,000个站点，450,000个后台数据库和1,258,000个查询接口。它仍在迅速增长，从2000年到2004年，它增长了3～7倍。

　　(2)Hidden Web内容分布于多种不同的主题领域，电子商务是主要的驱动力量，但非商业领域相对占更大比重。

　　(3)当今的爬虫并非完全爬行不到Hidden Web后台数据库内，一些主要的搜索引擎已经覆盖Hidden Web大约三分之一的内容。然而，在覆盖率上当前搜索引擎存在技术上的本质缺陷。

　　(4)Hidden Web中的后台数据库大多是结构化的，其中结构化的是非结构化的3．4倍之多。

　　(5)虽然一些Hidden Web目录服务已经开始索引Web数据库，但是它们的覆盖率比较小，仅为0．2%～15．6%。

　　(6)Web数据库往往位于站点浅层，多达94%的Web数据库可以在站点前3层发现。

暗网的分类

　　它分为两种：

　　一种是技术的原因，很多网站本身不规范、或者说互联网本身缺少统一规则，导致了搜索引擎的爬虫无法识别这些网站内容并抓取，这不是搜索引擎自身就能解决的问题，而是有赖整个网络结构的规范化，百度的“阿拉丁计划”、谷歌的“云计算”就是要从根本解决这一问题。

　　另一个原因则是很多网站根本就不愿意被搜索引擎抓取，比如考虑到版权保护内容、个人隐私内容等等，很多网站都在屏蔽百度、比如视频网站优酷曾经也宣布屏蔽百度一样，这更不是搜索引擎能解决的问题了。如果他们能被搜索引擎抓取到，就属于违法了。

　　数据显示，能够搜索到的数据仅占全部信息量的千分之二。而对暗网的发掘能扩大搜索数据库，使人们能够在搜索引擎上搜索到更多的网页、信息。

　　几乎任何有抱负的通用搜索引擎都有一个共同的梦想：整合人类所有信息，并让大家用最便捷的方式各取所需。

　　对此，百度说：“让人们最便捷地获取信息，找到所求”；谷歌说：“整合全球信息，使人人皆可访问并从中受益”。这两者表达的实际上是同一个愿景。

　　然而，这注定是一项不可能完成的任务。据科学家估测，人类信息大概只有0.2%实现了web化，并且这个比例很可能在持续降低。更甚的是，即便在已经Web化的信息中，搜索引擎的蜘蛛能抓取到的和不能抓取到的比例为1:500。

阅读数：361