TDT

TDT(Topic Detection and Tracking,话题检测与跟踪)

目录

  • 1 TDT概述
  • 2 TDT应用背景
  • 3 TDT的发展历程
  • 4 TDT的研究内容
  • 5 TDT的实现方法

TDT概述

  TDT(Topic Detection and Tracking,话题检测与跟踪)起源于早期面向事件的检测与跟踪Event Detection and Tracking,简写为EDT)是近年提出的一项信息处理技术,这项技术旨在帮助人们应对日益严重的互联网信息爆炸问题,对新闻媒体信息流进行新话题的自动识别和已知话题的持续跟踪。与EDT不同,TDT检测与跟踪的对象从特定时间和地点发生的事件扩展为具备更多相关性外延的话题,相应的理论与应用研究也同时从传统对于事件的识别跨越到包含突发事件及其后续相关报道的话题检测与跟踪。

  自从1996年以来,该领域进行了多次大规模评测,为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信息检索数据挖掘信息抽取等自然语言处理技术具有很多共性,并且面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究热点。

TDT应用背景

  随着信息传播手段的进步,尤其是互联网这一新媒体的出现,我们已经摆脱了信息贫乏的桎梏,进入一个信息极度丰富的社会。在目前信息爆炸的情况下,信息的来源已不再是问题,而如何快捷准确的获取感兴趣的信息才是人们关注的主要问题。目前的各种信息检索、过滤、提取技术都是围绕这个目的展开的。由于网络信息数量太大,与一个话题相关的信息往往孤立地分散在很多不同的地方并且出现在不同的时间,仅仅通过这些孤立的信息,人们对某些事件难以做到全面的把握。一般的检索工具都是基于关键词的,返回的信息冗余度过高,很多不相关的信息仅仅是因为含有指定的关键词就被作为结果返回了,因此人们迫切地希望拥有一种工具,能够自动把相关话题的信息汇总供人查阅。话题检测与跟踪(Topic Detection and Tracking,以下简称TDT)技术就是在这种情况下应运而生的。通过话题发现与跟踪,人们可以将这些分散的信息有效地汇集并组织起来,从而帮助用户发现事件的各种因素之间的相互关系,从整体上了解一个事件的全部细节以及与该事件与其它事件之间的关系。目前此方面的研究已经引起了人们的普遍兴趣。

  TDT技术可以用来监控各种语言信息源,在新话题出现时发出警告,在信息安全金融证券、行业调研等领域都有广阔的应用前景。此外,它还可以用来跟踪某个话题的来龙去脉,进行历史性质的研究。

TDT的发展历程

  话题检测与跟踪是一项旨在依据事件对语言文本信息流进行组织、利用的研究,也是为应对信息过载问题而提出的一项应用研究。

  TDT的概念最早产生于1996年,当时美国国防高级研究计划署(DARPA)根据自己的需求,提出要开发一种新技术,能在没有人工干预的情况下自动判断新闻数据流的主题。1997年,研究者开始对这项技术进行初步研究,并做了一些基础工作(包括建立了一个针对TDT研究的预研语料库)。当时的研究内容包括寻找内在主题一致的片断,即给出一段连续的数据流(文本或语音),让系统判断两个事件之间的分界,而且能自动判断新事件的出现以及旧事件的再现。从1998年开始,在DARPA支持下,美国国家标准技术研究所(NIST)每年都要举办话题检测与跟踪国际会议,并进行相应的系统评测。2002秋季召开了TDT的第五次会议(即TDT 2002)。这个系列评测会议作为DARPA支持的TIDES(Translingual Information Detection, Extraction and Summarization,跨语言信息检测、抽取和总结)项目下的两个系列会议(另一个是文本检索会议TREC)之一,越来越受到人们的重视。参加该评测的机构包括著名的大学、公司和研究所,如IBM Watson研究中心、BBN公司卡耐基-梅隆大学马萨诸塞大学宾州大学马里兰大学、龙系统公司等。国内这方面的研究开展得要晚一些,1999年国立台湾大学参加了TDT话题检测任务的评测,香港中文大学参加了TDT 2000的某些子任务的评测。最近北京大学中科院计算所的研究人员也开始进行这方面的跟踪和研究。

  TDT会议采用的语料是由会议组织者提供并由语言数据联盟(Linguistic Data Consortium,以下简称LDC)对外发布的TDT系列语料,目前已公开的训练和测试语料包括TDT预研语料(TDT Pilot Corpus)、TDT2和TDT3,这些语料都人工标注了若干话题作为标准答案。TDT2和TDT3收录的报道总量多达11万6千篇,从而很大程度上避免数据稀疏问题的影响,同时也能很好地验证算法的有效性。总的来看,TDT系列评测会议呈现两大趋势:一是努力提高信息来源的广泛性,不仅包括互联网上的文本数据,还包括来自广播、电视的语音数据;二是强调多语言的特性。从1999年开始,TDT会议引入了对汉语话题的评测,2002年又计划增加阿拉伯语的测试集。

  可以看到,话题检测与跟踪和信息抽取研究一样,其建立与发展是以评测驱动的方式进行的。这种评测研究的方法具有以下一些特点:明确的形式化的研究任务、公开的训练与测试数据、公开的评测比较。它将研究置于公共的研究平台上,使得研究之间的比较更加客观,从而让研究者认清各种技术的优劣,起到正确引导研究发展方向的目的。

TDT的研究内容

  与一般的信息检索或者信息过滤不同,TDT所关心的话题不是一个大的领域(如美国的对华政策)或者某一类事件(如恐怖活动),而是一个很具体的“事件(Event)”,如美国911事件、江泽民访美等等。为了区别于语言学上的概念,TDT评测会议对“话题”进行了定义:所谓话题(Topic),就是一个核心事件或活动以及与之直接相关的事件或活动。而一个事件(Event)通常由某些原因、条件引起,发生在特定时间、地点,涉及某些对象(人或物),并可能伴随某些必然结果。通常情况下,可以简单地认为话题就是若干对某事件相关报道的集合。“话题检测与跟踪”则定义为“在新闻专线(Newswire)和广播新闻等来源的数据流中自动发现主题并把主题相关的内容联系在一起的技术 ” 。例如,“俄克拉荷马城爆炸案”这个主题包括1995年美国联邦大楼被炸、悼念仪式、州和美国联邦政府的一系列调查、对Timothy McVeigh的指控等等。这个定义和其它与话题有关的研究不同,那些研究主要处理信息分类问题,比如任何与爆炸有关的事件。处理分类问题需要专门的分类体系,注解起来效率低而且主观色彩浓厚。TDT与其它研究不同之处还在于它强调新事件的发现,希望找出不在人们意料之中的或没有人知道如何去查询的事件。

  NIST为TDT研究设立了五项基础性的研究任务,包括面向新闻广播类报道的切分任务;面向已知话题的跟踪任务;面向未知话题的检测任务;对未知话题首次相关报道的检测任务和报道间相关性的检测任务。

  1、报道切分任务

  报道切分(Story Segmentation Task,简称SST)的主要任务是将原始数据流切分成具有完整结构和统一主题的报道。比如,一段新闻广播包括对股市行情、体育赛事和人物明星的分类报道,SST要求系统能够模拟人对新闻报道的识别,将这段新闻广播切分成不同话题的报道。SST面向的数据流主要是新闻广播,因此切分的方式可以分为两类:一类是直接针对音频信号进行切分;另一类则将音频信号翻录为文本形式的信息流进行切分。

  2、话题跟踪任务

  话题跟踪(Topic Tracking Task,简称TT)的主要任务是跟踪已知话题的后续报道。其中,已知话题没有明确的描述,而是通过若干篇先验的相关报道隐含地给定。通常话题跟踪开始之前,NIST为每一个待测话题提供1至4篇相关报道对其进行描述。同时NIST还为话题提供了相应的训练语料,从而辅助跟踪系统训练和更新话题模型。在此基础上,TTT逐一判断后续数据流中每一篇报道与话题的相关性并收集相关报道,从而实现跟踪功能。

  3、话题检测任务

  话题检测(Topic Detection Task,简称TD)的主要任务是检测和组织系统预先未知的话题,TD的特点在于系统欠缺话题的先验知识。因此,TD系统必须在对所有话题毫不了解的情况下构造话题的检测模型,并且该模型不能独立于某一个话题特例。换言之,TD系统必须预先设计一个善于检测和识别所有话题的检测模型,并根据这一模型检测陆续到达的报道流,从中鉴别最新的话题;同时还需要根据已经识别到的话题,收集后续与其相关的报道。

  4、首次报道检测任务

  在话题检测任务中,最新话题的识别都要从检测出该话题的第一篇报道开始,首次报道检测任务(First-Story Detection Task,简称FSD)就是面向这种应用产生的。FSD的主要任务是从具有时间顺序的报道流中自动锁定未知话题出现的第一篇相关报道。大体上,FSD与TD面向的问题基本类似,但是FSD输出的是一篇报道,而TD输出的是一类相关于某一话题的报道集合,此外,FSD与早期TDT Pilot中的在线检测任务(On-line detection)也具备同样的共性。

  5、关联检测任务

  关联检测(Link Detection Task,简称LDT)的主要任务是裁决两篇报道是否论述同一个话题。与TD类似,对于每一篇报道,不具备事先经过验证的话题作为参照,每对参加关联检测的报道都没有先验知识辅助系统进行评判。因此,LDT系统必须预先设计不独立于特定报道对的检测模型,在没有明确话题作为参照的情况下,自主地分析报道论述的话题,并通过对比报道对的话题模型裁决其相关性。LDT研究可以广泛地作为TDT中其它各项任务的辅助研究,比如TD与TT等等。

  随着话题检测与跟踪研究的逐步深入与发展,历次NIST举行的TDT评测都对该领域内的各项子课题提出了新的设想与方向,因此相应的评测任务也随之有所更改。比如,TDT2004撤销了报道切分任务(SST),其原因不仅在于评测语料TDT5中没有包含广播类新闻报道,同时也由于应用中的大部分实例片断本身具备了良好的可区分性。此外,TDT2004将首次报道检测任务(FSD)转换成新事件检测任务(New Events Detection,简称NED)。虽然TDT2004对NED与FSD给与了相同的定义,但本文将这两者定义为目的不同但相互依存的任务。FSD与NED的区别在于前者注重鉴别事件初次报道的时空位置,后者除此之外还需要检测更多相关于事件的报道并进行汇总。此外,TDT2004首次提出了有指导的自适应话题跟踪(Adaptive topic tracking,简称ATT)和层次话题检测(Hierarchical topic detection,简称HTD)概念。

TDT的实现方法

  构造一个实用化的TDT系统是进行TDT研究的主要目的之一,也是检验现有方法优劣的基础。从参评的数量来看,话题发现和话题跟踪两个子任务最受关注。因此我们介绍的实现方法也以这两个任务为主。总体而言,要实现话题发现与跟踪功能,需要解决以下主要问题:

  (1)话题/报道的模型化

  (2)话题-报道相似度的计算

  (3)聚类策略

  (4)分类策略(阈值选择策略)

  显然,对这种相关性必须做一个界定,不能任由集合无限扩大。为此,TDT会议组织者在构造TDT语料时,对挑选出来的每个话题都定义了相关性判定规则。

阅读数:226