导读 大家好,我是腾讯 AI Lab 的蒋海云,今天给大家介绍一下我们在智能写作助手的工作。今天的报告分为四个部分,前两部分介绍 AI 智能写作助手的相关系统;后两部分介绍 AI 写作中比较重要的文本改写功能涉及到的两个关键技术。
(资料图片)
全文目录如下:
1. 文本理解系统 TexSmart 介绍
2. 智能写作助手 Effidit(文涌)系统介绍
3. 多级可控的无监督文本改写方法
4. 文本改写评测思考和一种新的指标
分享嘉宾|蒋海云 博士 腾讯 AI Lab 高级研究员
编辑整理|田育珍 猿辅导
出品社区|DataFun
01
文本理解系统 TexSmart 介绍
先介绍一下文本写作助手用到的一些理解的模块,即:TexSmart。
文本理解系统在智能写作中,提供了基础的语言理解的能力,像:文本图谱、文本理解和文本匹配。文本图类似知识图谱,可以对常见的文本关系进行查询。
在理解系统之上,是今天重点介绍的智能写作助手。目前助手包含: 文本纠错、文本补全、文本润色、例句推荐、云输入法和文涌学术版。
1. TexSmart 是什么
TexSmart 是自然语言理解的工具与服务,可以对中文和英文两种语言的文本进行词法、句法和语义分析。功能分为三部分:
文本理解: 分词、词性标注、命名实体识别(NER)、语义联想、句法分析、语义角色标注、文本分类和关键词提取; 文本匹配: 语义相似度匹配,衡量句子的相似度; 文本图谱: 常用文本关系的知识查询。2. TexSmart Demo
分词和标注就是给一个句子,对句子进行分词并标注词性。TexSmart 提供了不同粒度的命名实体识别。 粗粒度 就是我们常见的十几种类别,如:时间、地点等。 细粒度 包含 1000 多种类别。
文本分类大概有十几种。句法分析大家也都比较熟,这里就不做赘述。
系统还支持 语义角色标注 和 文本匹配 。
文本图谱包含五类,比如:相似词、上位词、下位词、同义词和反义词。 同义词 是语义完全一致的,比如:刘德华的同义词是华仔。 相似词 是指同类别下其它比较类似的词,比如:刘德华的相似词是周润发、周星驰。 上位词 是知识图谱常用到的实体类型(type),比如:刘德华的类型是演员、艺人。 右边 是另一个维度可视化的结果。
3. TexSmart 的特色
接下来介绍一下,TexSmart 和传统的文本理解相比的几大特色。
首先 ,TexSmart 支持上千种细粒度 NER(细粒度命名实体识别),且各个类型之间具有层级结构,最深可达到七层。
其次 ,TexSmart 增强的语音理解功能,即:上下文相关的语义联想。比如,NER 识别出刘德华后,可以推荐刘德华相似的词,这个和文本理解中有部分是类似的。
最后 ,TexSmart 是为了多维度应用需求而设计。在设计时,使用了多种算法,兼容了学术界和工业界的不同需求:对运行速度要求比较高的用户,我们设计了比较浅层的像模型,比如:CRF、DNN;对精度要求比较高的用户,我们设计了基于 BERT 相关的模型。
TexSmart 支持 1000 多种类别。
TexSmart 支持语义联想,对句子中给定的实体,预测与其相关联的实体集合。
TexSmart 兼顾了学术界和工业界多种不同的需求。
这里介绍一下 TexSmart 的设计理念和实现方法:
针对不同的人群, 设计了不同的模型和算法 ,从精度和速度两个维度出发, 设计了精度高和速度快的模型。 利用无标注数据训练模型 ,这会使模型不在特定数据拟合,可以覆盖更多的数据,模型的鲁棒性更好。 通过增量式收集无标注数据,周期性更新模型。--
02
智能写作助手 Effidit 介绍
接下来介绍一下智能写作助手,英文叫 Effidit,中文叫文涌。
Effidit 主要功能包括:文本纠错、文本补全、文本润色、例句推荐、云输入法和文涌学术版。
文本纠错 包含:删除类、插入类和替换类纠错功能。 文本补全 包含:短语补全,根据前缀生成短语;句子补全-检索;句子补全-生成,根据前缀句子续写。 文本润色 包含:短语润色,将词替换为更高级的词;句子改写;句子扩写,将短句添加修饰成分使句子的表达更丰满。 例句推荐 包括:关键词句子检索,关键词句子生成。 云输入法 包括:中英文输入法。 文涌学术版 包括:跨语言例句检索、语义增强的论文检索。1. 文本纠错
文本纠错包含删除类、插入类和替换类纠错功能。
删除类:文本多了一个字,需要进行删除; 插入类:文本中少了一个字,需要添加文字; 替换类:文本中有错别字,需要进行替换。左下的图 针对这三类分别举了三个例子。第一个是多了一个“要”;第二个是少了一个“到”;第三个是错别字“旧”改为“就”。 右侧 是我们的评测集,我们内部做了一个比较客观的评测,可以看到 Effidit 在同类产品中还是占很大优势的。
英文纠错是我们的特色功能,纠错是可解释的。比如, 左下图 需要纠错,在 右下图 除了进行了纠错,还补充了纠错的原因。
2. 文本补全
英文本补全有两种:一种是 后缀补全 ,一种是 结合前后语境的句中补全 。这里举几个例子。
用户输入“那个大汉被打得”,给用户推荐“落花流水”和“措手不及”; 用户输入“成都市区”,帮用户补全对应区,如:“武侯”、“高新”; 用户输入“堡基地建设”,帮用户补全“德特里克”、“美国德特里克”。英文补全其实就是句子续写。比如:用户输入“那个大汉被打得“,上面是检索得到的结果,下面是句子生成的结果。可以看到,生成的效果还是不错的。
在句子补全的基础上,系统还支持 风格化 。目前定义了科幻、军事、武侠、官场四种风格。 用户可以在网页中选择风格,系统会根据前缀生成对应风格的续写。
3. 文本润色
文本润色的短语润色是 在用户选中句子中的词后,智能推荐更加贴合语境的相似候选词,使整个句子表达更加精准生动。
句子改写是不改变句子原始语义的情况下,使句子更好。我们还引入 句子扩写 ,即不改变句子语义的情况下,对句子舔砖加瓦,使句子表达更加丰满。
4. 超级网典
我们还提供了超级网典功能,可以 满足用户对某种特定的词汇查询 。用户输入春天,我们可以给用户推荐描述春天的词汇,如:生机勃勃、繁花似锦。针对英文场景,系统还提供了相关词、近义词和相似词。此外,系统还支持双语的词典,用户输入“优点和缺点”,可以看到英文条件下的相关词、近义词和相似词。
除了词级别的推荐,还支持 句子级别的推荐 。用户输入关键词,检索现有文章中的例子作为例句;同时,还可以将关键词按顺序智能补全,作为完整句子。
5. 云输入法
云输入法可以为用户提供更加丰富及精准的候选结果,更高效的输入效率,同时还提供了英文输入法。
6. 文涌学术版
学术版的文涌对写论文很有帮助。有些英文不太好的用户,输入“重要的进展”,就可以看到对应的英文表达,以及论文的出处。同时,还支持 论文检索 。比如,输入一个算法的术语,可以查询到对应的论文。
--
03
多级可控的无监督文本改写方法
智能写作助手是多模块组成的很复杂的系统,里面涉及到的关键技术非常多。由于时间关系,主要介绍一下文本改写模块的部分关键技术。
文本改写 就是输入一段话,输出和输入时语义相关的内容,但表达会有所不同。人类改写过程可以分为不同的层次:
全局语义 :通读一遍,理解文本的语义信息; 局部词汇 :大脑会决定某些词汇是不能做修改的,比如:人名、地名等关键信息。比如,某个内容是说刘德华的,刘德华就不能变成张学友; 整体风格 ,在改写的时候,如果有可以参考的范例,可以从中得到一些文字编辑或句式重构的启发。我们的工作也将从这三个层级展开。
在无监督场景下,MCPG 可以在三个层级(全局语义、局部词汇和整体风格)上进行控制,生成更加可控的复述结果。
左边的 a 图 考虑不给示意样本,只考虑全局语义和局部词汇。比如,输入一句话,通过语义解码器可以获得句子的向量表示。并通过特定的方法,把对应的不可修改的关键词显示标记出来。可以设计一个输入是 Embedding 以及一些关键词的解码器。
如果直接把解码得到的内容送入生成器 Generate,生成的内容和原始的句子是一样的。我们发现,对 Semantic 的向量进行 dropout 是一个很有效的方式。通过 dropout,可以使丰富性变强。
我们会发现,p 和输入的内容很像,p 改写的句子是 q。告诉模型 p 和 q 的信息,在训练的时候做到生成的句子和 q 很像。
全局语义控制 可以通过 dropout 扰动的语义编码向量 控制全局语音以及输出的多样性。如果 dropout 是 0.05 或 0.01 时,生成的句子和原始句子很像,几乎没什么变化;当 dropout 很大时,原始向量扰动比较大,但对语义的消耗也会比较大。
局部词汇控制 是通过 关键词 控制事实性变量在复述文本中不发生变化。其中,关键词通过 NER 工具获得。
整体风格的控制,主要是通过 转化向量 控制输出的。比如,给定一个输入,我们会告诉模型,和输入相近句子的情况,希望模型也可以类似改写。
上图 是模型的结果。
可以看到 dropout 对模型的影响还是蛮大的 :当 dropout 很大时,生成的句子和原始句子之间的相似度会直线下降。
平行语料是指基于输入句子后,从多大的空间检索模型输入语料。 可以看到: 语料空间大,和输入语料相同的概率就越大;如果候选集很小,则检索出来的结果也会更不接近。
上图 是使用随机关键词对 MCPG-basic 模型性能的影响。
--
04
文本改写评测思考和一种新的指标
接下来介绍一下文本评测的思考,以及改写评测新指标。
目前大家做改写,主要是从模型的角度出发,通过现有经典的指标,如:BLEU、Metric衡量。很少有人思考使用这些指标衡量文本改写的合理性。
这里把文本改写的两个维度列出来:
语义相似度 ,改写需要保留原句的语义; 多样性 ,改写需要有明显的多样性(词级别、语法级别)。刚才提到,现有研究工作中,绝大部分的工作都是致力于提出更加大的模型。这些模型随着时间推移,效果也越来越好。
以往观点把文本改写(Paraphrase)当做单语机器翻译,所以评估的指标都是借用机器翻译的指标,如:Rough、BLEU。但实际上,改写任务和机器翻译任务有着本质区别。 文本改写内容的多样性是至关重要的,而在机器翻译任务中不是必须的。机器翻译主要保证翻译的内容和原本的内容的相似度,但不关注内容的多样性。
如何去改善文本改写的评估方法呢?
经过一系列的实验,我们得出了两条反直觉的发现:
绝大多数以往常用的指标在文本改写中表现欠佳。 我们将评测的结果和人工评价的标准进行比对,当差异比较大时,就说明常用指标对于文本改写不适用。 模型在处理时会有 reference。 reference-free 是直接通过输入的句子去判断生成的句子的质量;reference-based是通过 reference 判断生成句子的质量。我们发现, reference-free 的指标好于 reference-based 指标。根据这两个发现,我们探究出其背后的原因:
Reference-free 和 reference-based 的指标取决于数据集中 I 类和 II 类(接下来提及)数据的比例。 以往常用的指标忽略了多样性的测量。接下来介绍一下 实验设置 。假设输入的句子是 X 和对应的 reference R,我们的目标是评测候选输入 C 的质量。对于每个指标 M,可以有 reference-based 和 reference-free。
在 reference-based 中,候选集输入 C 的质量是和 reference 比较的。在 reference-free 中,候选集输入 C 的质量是和 X 进行比较的。测评使用了 Twitter-Para 和 BQ-Para 两个数据集。通过 Metric 分数 和 人类标注分数的相关系数进行评价 。
红色的数据表示 ,大部分 reference-free 的效果比 reference-based 好。另外,机器评分和人工评分的一致性比较低。这个图就得到我们刚说到结论:
大多数常用指标和人类评估并不一致。 在 Twitter-Para 上,BLUE-4 甚至显示出与人类注释的负相关关系。 另外,对于大多数指标, 其 reference-free 的变体比 reference-based 更符合人类评估。我们通过数据观察发现一个现象, 当候选 C 和 R 距离很远,reference-free 更好;当 C 和 R 很近,此时 reference-based 更好。 我们也因此将数据分为 I 类和 II 类。
我们做了一个实验,数据表明: 对于候选 C 来说,如果 C 和 R 的距离明显大于 C 和输入 X 的距离,那么 reference-based 的度量会优于 reference-free 的度量。
这个是 实验的结果。
现有文本改写的质量主要考虑语义相似度和多样性。 以往指标主要考虑相似度,很少考虑多样性。
实验结果表明,所有指标的相关分数都是负的。这说明, 对文本改写的评价指标在描述多样性上表现较差。但多样性对文本改写是非常重要的。
因此,我们提出了新的指标 ParaScore。整个得分分为 相似度 Sim 和 多样性 DS 两部分。
这里还有个变体版本,当 C 跟 X 比较近时退化为 reference-free 版本;当 C 跟 R 比较接近时,则为 reference-based 版本。同时,引入 DS,来提升模型多样性。
在两个数据集上,Pearson 和 Spearman 系数的一致性就好了很多。但这些评测指标还是有很大研究空间的。
消融实验结果表明, ParaScore 的设计对 ParaScore 的有效性至关重要。
这个是相关系统的链接,上面是系统的微信群,下面是我的微信,欢迎大家多多交流。
今天的分享就到这里,谢谢大家。
|分享嘉宾|
蒋海云 博士|腾讯AI Lab 高级研究员
蒋海云, 2020 年博士毕业于复旦大学数据科学方向,主要研究包括知识图谱、文本理解,文本生成等,在 ACL、EMNLP、IJCAI、AAAI、ICDE 等会议发表论文27篇。
|《数据智能知识地图》下载|
上下滑动⬆️⬇️,查看《数据智能知识地图》 预训练模块 ,完整版请 关注公众号“大话数智 ” 下载
点击链接查看详情,并快速下载:https://sourl.cn/yfnYpN
|DataFun新媒体矩阵|
|关于DataFun|
专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章900+,百万+阅读,16万+精准粉丝。