人工智能学院举办AI+系列前沿讲座—“现代自然语言生成的挑战和趋势”

  2022年4月29日,由于疫情原因,讲座嘉宾黄民烈老师未能到场,因此通过线上远程的形式为同学们开展了《现代自然语言生成的挑战和趋势》讲座。黄老师从背景、基础概念与模型思想、挑战等三个方面简要介绍了自然语言生成的相关知识,在最后黄老师深入讲述了自然语言生成领域的一些重要研究问题。

  黄民烈是清华大学长聘副教授,国家杰出青年基金获得者。他目前担任清华大学计算机系智能技术与系统实验室副主任、中文信息学会自然语言生成与智能写作专委会副主任、CCF学术工作委员会主任助理,主要研究方向为自然语言生成、对话系统、阅读理解等。黄民烈曾获得中国人工智能学会吴文俊人工智能科技进步奖一等奖(第一完成人),中文信息学会汉王青年创新奖,阿里巴巴创新合作研究奖。他发表国际顶级会议或期刊论文超过100篇,获得专利授权10余项,5次获得国际主流会议的最佳论文或提名(IJCAI、ACL、SIGDIAL等),著有国内第一本关于自然语言生成的著作《现代自然语言生成》。研发对话系统平台ConvLab和ConvLab2,中文开放域对话预训练模型CDial-GPT(首个开源中文对话模型)和EVA。当前他担任顶级期刊TNNLS、TACL、CL编委,并10余次担任ACL/EMNLP的领域主席。

150954 531555 1

  讲座开始,黄民烈老师简要讲述了自然语言生成的基本概念与设定,包括文本到文本、数据到文本、语义到文本、图像/视频到文本等四个设定,并通过任务类型、完备性、开放性、创造性等方面简要概述了自然语言生成中的常用任务,包括机器翻译、文本总结、改写、故事生成等。

  然后,黄民烈老师对自然语言生成的算法发展过程进行了一个简要的介绍:最初主要利用统计模型建模,通过估计序列的概率和结合最大似然估计法来求解。但这种方法无参数、模型容量低、模型过大且计算复杂度高。于是从2003年开始利用神经网络估计,从RNN到transformer,解决了注意力机制递归和不支持并行的问题。最后,黄老师还简要介绍了一些主流的预训练模型,包括GPT、MASS、UniLM、BART、T5等,并分别概括了其主要适用的预训练任务和预训练语料。

150954 403887 2

  在NLG模型中,由于概率分布过大过宽,因此需要从分布里进行采样。对此,黄老师还介绍了一些采样方法,包括beam search、top-k sampling、top-p sampling。同时,黄老师还详细阐述了目前自然语言生成领域的一些挑战:语法、信息、忠实度以及连贯性。NLG模型经常出现重复、自我加强、虚假信息、语义冲突、连词错误、场景不符、常识错误等问题,这些都是亟待解决的。

150954 445116 3

  最后,黄老师对于自然语言生成领域中的一些前沿研究问题进行了介绍。对于grounded语言生成,黄老师从研究问题、模型算法、评价指标、挑战等方面进行了概述,其重点在于如何构建知识图谱,将文本与真实物理世界中的信息进行很好的关联。对于长文本生成,目前主要研究多为公式、散文和诗歌的生成,如何建模大空间依赖,如何减低计算复杂度也是这个领域需要重点考虑的问题。除此之外,黄老师还重点介绍了语言生成模型的评价指标。为了应对关于模型、数据集、质量的偏移问题,评价指标的设计是十分重要的,其可以分为与参考答案比较和无参考答案(无监督)两种类型,黄老师分别介绍了这两种类型的一些主流设计,包括bert score、bleurt、union、ctrleval等指标。

  本场讲座中,同学们学习到了现代自然语言生成的相关背景、模型算法、重要研究方向等知识,同时也对于未来自然语言生成模型的挑战和展望有了大致的了解。期间,还有两位同学对于知识图谱的构建,模型中出现的虚假信息、常识错误如何解决等方面对黄老师提出了问题,对此,黄老师也进行了详细的解答。最后,在同学们的热烈掌声中,黄民烈老师结束了本次精彩的讲座。

150954 684524 4