作者:吴桐桐,王贵涛,赵锦铭,刘昭然,漆桂林,李元放
论文发表:EMNLP2022
(资料图片)
论文下载:https://arxiv.org/abs/2210.08759
文章来源:知乎@漆桂林
01
背景介绍
随着大数据时代的到来,互联网中每天都会产生海量的信息,且模态多样化。多数的信息为半结构或非结构数据,没有办法被直接被计算机系统利用。因此,如何低成本地抽取出有效的信息变得越来越重要。信息抽取旨在从大规模半结构或非结构的自然语言文本中抽取出结构化信息。关系抽取是信息抽取的重要子任务,目的是从文本中抽取实体之间存在的各类关系类别,构成“实体-关系-实体”的三元组结构化形式,是自然语言处理领域的重要研究方向 [1] 。
语音是日常生活中交流的主要媒介,同时,语音是一种富含信息的信号载体,它承载了语义、说话人、情绪、语种、方言等诸多信息。语音信息抽取类似于人类语言学习的思路,采用机器学习手段,让机器通过“聆听”大量的语音数据,并从语音数据中学习蕴含其中的规律。
图 1 包含关系信息的语音来源
尽管近年来关系抽取是一项探索性很强的任务,但大多数研究都是在文本数据集上进行的,而非语音数据。然而,如图1所示,语音里面同样包含了大量的关系信息可以用来抽取,如面试、新闻、聊天、演讲等等。经典方法抽取内容是先对语音进行转录,然后根据转录后的文本进行关系抽取,从语音到文本,再从文本到知识图谱,可是这种方法会在中间的文本过程引入额外的误差。 我们首次提出一个端到端的方法,把前面的工作囊括起来,直接使用语音进行关系抽取。 这样可以减少过程中的误差,并提高关系抽取的效果。如图2所示。因此,面向语音数据的端到端式关系抽取具有重要的研究意义。
图 2 传统基于文本的关系抽取、管线方法关系抽取和端到端式语音关系抽取的比较
--
02
相关工作
1. 关系抽取
关系抽取是信息抽取重要的子任务之一,关系抽取的目的是从文本中抽取实体之间存在的各类关系类别,构成“实体-关系-实体”的三元组结构化形式,是构建知识图谱,知识问答等系统重要的一部分。随着计算机计算能力的增加,基于机器学习的关系抽取方法达到了很好的效果,机器学习方法也成为了信息抽取中广泛应用的方法。机器学习可以看作映射,输入为标注语料,输出为期望结果,在人工标注数据集的基础上训练模型分类器,使得模型学习不同关系类型语句的特征。
关系抽取任务通常遵循管道处理,称为管线方法,将关系抽取任务拆分为命名实体识别和关系分类两个子任务,先进行实体识别,然后在实体识别完成的基础上抽取实体之间关系 。管线方法通常无法捕获实体和关系类型之间的联合特征,命名实体识别的误差会累计到接下来的关系分类模型之中。因此又有将命名实体识别和关系分类结合起来的联合抽取方法,2019年,Nguyen [2] 提出了实体和关系的联合抽取模型,缓解了误差累计的问题,实现了当时最佳的性能。实体和关系联合抽取的方法基于神经网络的端到端模型,与管线方法相比,联合学习方法能够捕获实体和关系之间的联合特征。
2. 语音识别
传统语音识别模型建立在似然和概率的理论基础之上,多数采用隐马尔科夫高斯混合模型 [3] ,在语音预处理阶段需要对语音信号进行抽样组合,并使用线性预测的分析方法以预测信号。由于不同性别,不同的年龄,不同语言的人的发音不同,导致语音信息抽取十分复杂,传统语音识别难以适应这些不同场景。由于特征之间存在关联,随着深度学习的出现,模型可以将连续帧的语音特征组合后进行训练,使语音识别的准确率大幅提高。
语音领域有多种任务,基础任务是语音识别,可以将语音转化为词向量。在此基础上可以进行更多种语音相关的任务:
语音识别+翻译:将语音转化为文本 语音识别+意图分类:可以对语音的内容进行分类 语音识别+槽填充:把连续序列中每个词赋予相应的语义类别标签基于语音的任务没有关系抽取,而基于关系抽取的任务又只关注从文本到实体和关系,没有考虑文本的其他来源,因此会在语音转文本的过程中引入额外的误差。
--
03
语音关系抽取
我们将语音关系抽取定义为一个联合实体和关系抽取任务,它将一段语音作为输入,并生成一组形式为<实体1,关系,实体2>的关系三元组作为输出。
输入: Speech Instance (.wav)
输出: “[
例子:" Big Bang " physicist Andrew Lange dead at 52 .
—>“[< Andrew Lange, person title, physicist >, < Andrew Lange, person age, 52 >]”
1. 任务难点
面向语音数据的端到端式关系抽取的关键问题就是让计算机学会通过输入语音数据,输出正确的实体和相应的关系。
难点一:长度限制 。基于文本的深度学习模型往往有有限的最大输入长度,如BERT的最大长度是512,而语音数据的向量很长,每秒一般有16000帧,几秒的语音向量长度能轻易达到十万级别。如何抽取语音特征,缩短向量长度是需要解决的问题。
难点二:跨模态对齐 。模态指数据的存在形式,如文本、图像、音频、视频等等。由于语音和文本是两个不同的模态,语音的词向量和文本的词向量的表示往往并不相同,如何将两者相结合是一个难点。
2. 数据集构建
由于没有现成的关系抽取语音数据集,本文从现有的文本关系抽取语料库中合成语音数据。
语音合成分为两个步骤,为文本转频谱和频谱转语音。 本文两个步骤均使用预训练模型。文本转频谱的步骤本文选择3个不同的预训练模型,分别是Glow-TTS,Speedy-Speech-WN和Tacotron2-DCA,频谱转语音的步骤本文选择2个不同的预训练模型,分别是Multiband-MelGAN和WaveGrad,将这五个模型排列组合,并人工比较生成的语音效果,如图3所示。最终使用的模型是文本转频谱模型Tacotron2-DCA和声学模型MultiBand-MelGAN,声音效果最为自然。
图 3 语音合成中不同预训练模型的选择
3. 语音关系抽取方法
(1)管线方法
管线方法是将语音数据先翻译为文本,然后利用文本进行关系抽取。 语音识别模型本文选择了Wav2Vec 2.0 [4] 的预训练模型“wav2vec2-large-960h-lv60-self”处理语音,并使用T5的预训练模型“t5-small-wav2vec2-grammar-fixer”处理生成的文字,添加标点并改变大小写。
关系抽取本文选择了文本端到端关系抽取模型SpERT [5] 。训练文本关系抽取模型需要有标注的训练集,SpERT需要的是实体和其在文本中对应的跨度信息,关系和其对应的实体。由于翻译后的文本可能会出现单词数量的变动,导致原来的跨度信息并没有标注到真实的实体,因此这里采用了相似度匹配算法来重新标记数据集。
(2)端到端方法
仿照Gerard等人 [7] 提出的机器翻译模型的框架,我们构建了一个端到端式语音到文本模型SpeechRE,由两个预训练模型和长度适配器组成,如图4所示。
模型的输入是语音数据,输出含有关系信息的线性化序列。我们的方法结合了Wav2Vec 2.0编码器和BART [6] 解码器。当结合这两个模型时,在目标句子长度和编码器输出之间存在长度差异。为此,有必要使用一个耦合模块来缩短编码器输出,即长度适配器。
图 4 语音关系抽取模型结构示意图
--
04
实验
1. 数据集
在合成的语音关系抽取数据集上进行了实验,包括适用于基于文本关系抽取的基准数据集CoNLL04和TACRED数据集。
(1)CoNLL04
CoNLL04数据集由《华尔街日报》和美联社的新闻文章组成。CoNLL04定义了4种实体类型,包括位置(Loc)、组织(Org)、人(Peop)和其他(Other),以及5种关系类别,即坐落在(Locate_In)、基于组织的在(OrgBased_In)、住在(Live_In)、杀死(Kill)和工作在(Work_For)。CoNLL04 数据集的数据划分如表1所示。
(2)TACRED
TACRED是一个大规模的关系抽取数据集,其中包含106264个示例,这些示例来自年度TAC知识库群体(TAC KBP)挑战中使用的语料库的新闻线和Web文本。TACRED中的示例涵盖TAC KBP挑战中使用的41种关系类型,如果没有建立定义的关系,则标记为no_relation,其中79.5%的示例被标记为no_relation。这些示例是通过组合来自人工注释创建的。除去no_relation,TACRED数据集的划分如表2所示。
表 2 TACRED数据集数据划分
2. 评估指标
由于实体需要严格匹配,一个字母的错误或差异导致实体匹配失败,进而降低三元组的结果。因此,本文选取了命名实体识别和实体关系分类进行评估。并采用适用于关系抽取的常见指标,针对精确率、召回率以及F1值来进行分析。
3. 实验结果
(1)各方法的实验结果对比
Text+SpERT:使用原始文本和SpERT模型进行实验。
ASR+SpERT:使用语音翻译将语音翻译成文本再用SpERT进行实验。
SpeechRE:使用端到端式语音关系抽取模型SpeechRE进行实验。
表 3 CoNLL04数据集实验结果
表 4 TACRED数据集实验结果
如表 3 和表 4 所示,使用语音作为数据的模型和文本的差距较大。分析发现,主要是由于命名实体识别的效果较差,这也是我们所预期到的现象。关系抽取任务一般都有自己相应的领域,因此会有许多领域内的实体需要进行抽取,而这些实体往往都是不易翻译的单词,如人名和地名,这些会导致命名实体识别的效果很差,进而影响关系抽取的效果。
在CoNLL04数据集上,我们提出的模型效果已经超过了管线方法。 然而,在TACRED数据集上,离管线方法还有一定的差距,分析原因如下:
TACRED数据集包含37000条左右的训练数据,总时长80小时以上。可是,TACRED数据集有80%左右的数据标记为没有关系,除此之外拥有41个不同的关系,并且各个关系的数量差别较大,有的关系数量过多,有很多关系的数量很少,形成长尾分布,如图5所示。长尾关系对模型来说是巨大的挑战,语音模型对数据更为敏感。并且,经过对CONLL04数据集的分析发现,很多同义句都有相同的实体和关系,这也降低了语音关系抽取的难度。
图 5 TACRED关系分布
(2)不同数据量的模型效果对比
提高模型的数据量意味着数据增强,然而,语音领域里的数据增强和关系抽取不太相同。翻译任务的数据增强方法往往是直接加数据,然而关系抽取有自己的领域,如果两个数据集的领域不相同,很容易让模型变得混乱。
由于CoNLL04数据集本身数据较少,不适合做实验,这里选择了TACRED数据集关系数量最多的五个关系进行实验,分别划分了20%,40%,60%,80%的数据量和原数据集进行对比。每次采样均在上一次采样的基础上进行,保证了训练数据的一致性。
由于命名实体识别效果普遍较差,这里展示的是关系分类的 F1值结果,仅仅统计关系是否分类准确,可以看出模型是否学习到了文本中蕴含的关系信息。
图 6 TACRED前五个关系不同数据量关系分类F1值趋势
如图 6 所示实验结果表明,数据量的增强对文本没有明显影响,而对语音模型有着明显的提升。这是基于语音的模型和基于文本模型的差别,语音模型需要大量的训练数据支撑,为了获得更多的训练数据,可以采用数据增强的方法。虽然目前在TACRED上本文提出的模型结果不如管线方法,但是可以推测,在数据量足够多的情况下,端到端式语音关系抽取模型的表现会优于管线式语音关系抽取方法。
(3)错例分析
我们对模型预测错误的情况进行分析。分析中发现经常会出现大写小不同和人名的完整度不同,人物的名字是最难识别准确的实体,尤其容易出错。除了实体预测错误,另一种预测错误的情况是预测结果不在文本之中。以下是一个例子:
原文本:"Another segment shows the famous sequence of Lyndon B. Johnson being sworn in as president; still another the television footage of Jack Ruby shooting Oswald."
正确三元组:
预测三元组:
可以看出,出现的问题是模型预测出了语音中没有提到的实体或关系。这里文中讲的杰克·鲁比刺杀肯尼迪遇刺案嫌犯李·哈维·奥斯瓦尔德,可是预测的三元组确是李·哈维·奥斯瓦尔德刺杀了肯尼迪。虽然预测结果并没有在文中提到肯尼迪,但两者确实有所关联。
经过分析,可能是由神经网络记忆导致的。分为以下几种情况:
神经网络的记忆力很强。神经网络记住了训练集中的实例,在生成时找不到生成的映射关系,因此直接生成出现过的实例。这种情况的原因可能是训练数据量太小,而模型太强,模型没学习到怎么抽取,但是学习了怎么背题。这种情况在生成模型格外容易遇到。
神经网络在“开小差”。虽然模型生成三元组的现实情况是对的,但是没有在训练集出现过。比如文本在讨论美国白宫,预测是美国总统是拜登。这种情况的原因是模型可能在预训练里遇到过类似的语句,而在生成序列时模型可能在“开小差”,回想起了之前学过的东西。在生成式模型中,基于文本的生成模型可以在文本中选词复制,避免生成文本中没有出现的单词,但是语音信息没有相应的文本,因此语音模型更容易“开小差”。这种情况多来自于跨模态模型。
--
05
总结与展望
1. 工作总结
传统的面向语音的关系抽取一般需要通过语音识别技术将语音数据转录为文本,然后进行基于文本的关系抽取,这一流程可能会引起误差累积问题。
为了解决上述问题,我们提出了一种端到端式语音关系抽取方法 ,经过实验,我们提出的方法在CoNLL04数据集上已经超过了管线方法。虽然在TACRED数据集上离管线方法还有一定差距,但是经过分析,在增加数据量的情况下,我们提出的模型仍有望超过管线方法。
2. 工作展望
这个工作是对于语音关系抽取任务的首次探索,在目前模型的效果上,后续工作有很大的提升空间。 未来将会在我们提出的端到端式语音关系抽取模型的基础上作出以下改进和探索:
进行远程监督。 基于这样一个假设:如果两个实体在知识库中存在某种关系,则包含该两个实体的非结构化句子均能表示出这种关系。因此,对于一个关系的两个实体,在网络中寻找拥有对应两个实体的文本,可以认为文本中含有相同的关系,直接将文本和三元组添加到训练集中,这样做的好处是可以快速拥有大量示例。
语音多样性。 目前使用的语音数据由人工合成,生成的语音声音较为一致。可以在生成语音的时候生成不同性别不同年龄的声音,或者使用真实语音数据并通过获得伪标签的形式加入进来。
结合语音和文本进行关系抽取。 使用多模态学习的方法,设计一个编码器,让模型既能接受文本也能接受语音,还可以同时接受文本+语音。
从我们的工作还可以引申出很多其他的工作,包括但不限于:
怎么从语音中抽取事件,以及联合抽取事件和关系。 在参考文 [8] ,有关于从语音中做槽填充的工作,可以考虑扩展我们的方法到槽填充。 如何结合文本和语音两个模态到数据做关系抽取和实体识别? 如何从视频中结合图像、文本、语音做关系抽取?参考文献:
[1] 刘辉,江千军,桂前进,张祺,王梓豫,王磊,王京景.实体关系抽取技术研究进展综述[J].计算机应用研究,2020,37(S2):1-5.
[2] Nguyen D Q, Verspoor K. End-to-end neural relation extraction using deep biaffine attention[C]. European Conference on Information Retrieval. Springer, Cham, 2019: 729-738.
[3] Rodríguez E, Ruíz B, García-Crespo Á, et al. Speech/speaker recognition using a HMM/GMM hybrid model[C]. International Conference on Audio-and Video-Based Biometric Person Authentication. Springer, Berlin, Heidelberg, 1997: 227-234.
[4] Baevski A, Zhou Y, Mohamed A, et al. wav2vec 2.0: A framework for self-supervised learning of speech representations[J]. Advances in Neural Information Processing Systems, 2020, 33: 12449-12460.
[5] Eberts M, Ulges A. Span-Based Joint Entity and Relation Extraction with Transformer Pre-Training[M]. ECAI 2020. IOS Press, 2020: 2006-2013.
[6] Lewis M, Liu Y, Goyal N, et al. Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension[J]. arXiv preprint arXiv:1910.13461, 2019.
[7] Gállego G I, Tsiamas I, Escolano C, et al. End-to-End Speech Translation with Pre-trained Models and Adapters: UPC at IWSLT 2021[J]. arXiv preprint arXiv:2105.04512, 2021.
[8] Wang P, Su Y, Zhou X, et.al. Speech2Slot: A Limited Generation Framework with Boundary Detection for Slot Filling from Speech. INTERSPEECH 2022: 2748-2752.
今天的分享就到这里,谢谢大家。
关于我们
DataFun: 专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章800+,百万+阅读,15万+精准粉丝。