文本生成前沿综述
冯骁骋
哈尔滨⼯业⼤学
2018.10
CCL 2018 Technical Review
哈尔滨工业大学
社会计算与信息检索研究中心
文本生成
文本生成就是指期待未来有一天计算机能够像人类一样会表达,能够撰写出
高质量的自然语言文本。
文本-文本
疲劳驾驶
疲劳驾驶
疲劳驾驶
疲劳驾驶
疲劳驾驶
疲劳驾驶
疲劳驾驶
数据-文本
疲劳驾驶
疲劳驾驶
疲劳驾驶
疲劳驾驶
疲劳驾驶
疲劳驾驶
疲劳驾驶
图像-文本
疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶
l文本到文本的生成主要指对
给定文本进行理解、变换和
丰富从而获得新文本的技术
l数据到文本的生成指根据
给定的数值数据生成相关
文本
l图像到文本的生成是指根
据给定的图像生成描述该
图像内容的自然语言文本
哈尔滨工业大学
社会计算与信息检索研究中心
文本生成论文分布
2018
2017
2016
0
20
40
60
80
100
120
自动文摘 文本复述 风格迁移 数据描述 图像描述 诗歌生成 生成相关
统计结果覆盖:ACL, EMNLP , NAACL, COLING, AAAI , IJCAI , NIPS ,
Other
20%
Neural
Network
80%
哈尔滨工业大学
社会计算与信息检索研究中心
文本生成模型
❖基于神经网络的生成模型
拷贝机制
➢Encoder-Decoder
➢注意力机制
➢拷贝机制
❖与任务结合更紧密
文本/表格
/图像
Encoder
Decoder
文本
语义表示
注意力机制
Bahdanau et al., Neural Machine Translation By Jointly Learning To Align And Translate. ICLR 2015
Gu et al., Incorporating Copying Mechanism in Sequence-to-Sequence Learning. ACL 2016
哈尔滨工业大学
社会计算与信息检索研究中心
文本生成发展趋势
❖趋势一:生成和抽取相结合
❖趋势二:融合任务相关的背景知识
❖趋势三:学习语言的不同风格表达
❖趋势四:借鉴人类写作模式
CCL 2018 Technical Review
哈尔滨工业大学
社会计算与信息检索研究中心
文本生成发展趋势
❖趋势一:生成和抽取相结合
❖趋势二:融合任务相关的背景知识
❖趋势三:学习语言的不同风格表达
❖趋势四:借鉴人类写作模式
CCL 2018 Technical Review
哈尔滨工业大学
社会计算与信息检索研究中心
趋势一:生成和抽取相结合
❖典型任务:自动文摘
❖主要问题:
➢抽取式方法:多样性差,不连贯
➢生成式方法:不稳定、难以解释
❖解决方案:抽取+生成
➢联合学习、模型互补
CCL 2018 Technical Review
哈尔滨工业大学
社会计算与信息检索研究中心
趋势一:生成和抽取相结合
❖抽取+生成
观察
d1
d2
d3
d4
文档句子
RL Agent
抽取器
策略梯度
更新
奖励
动作(抽取句子)
djt
生成器
St
g(djt)
人工摘要
生成的句子
Chen and Bansal, Fast Abstractive Summarization with Reinforce-Selected Sentence Rewriting, ACL 2018)
哈尔滨工业大学
社会计算与信息检索研究中心