NLGIW 2022技术评测论坛即将举行

专委首页 >> 技术评测

NLGIW 2022技术评测论坛即将举行

第一届自然语言生成与智能写作大会（NLGIW 2022）将于2022年4月22-23日在线召开，承办单位为苏州大学（智源社区提供线上会议支持）。自然语言生成与智能写作大会（NLGIW）是中国中文信息学会（CIPSC）自然语言生成与智能写作专业委员会主办的学术年会。NLGIW会议聚焦自然语言生成与智能写作及其应用技术，是自然语言生成领域最重要的学术会议之一。会议聚集自然语言生成领域海内外顶尖的学者与专家，共同探讨自然语言生成技术的趋势、挑战以及应用。

NLGIW 2022特别设立技术评测论坛等，发布文本生成一致性、图像描述生成评价方法、基于大纲的条件故事生成、中文句法错误检测四大技术评测任务与2021赛况。

NLGIW2022技术评测论坛

时间：4月23日（六）16:30-18:00

1. 文本生成一致性

本任务使用三个任务数据集测试参赛系统的生成能力，包括文案生成、摘要生成和问题生成：（1）文案生成根据结构化的商品信息生成合适的广告文案；（2）摘要生成是为输入文档生成简洁且包含关键信息的简洁文本；（3）问题生成则是根据给定段落以及答案生成适合的问题。显然，这三个任务对生成结果的事实一致性均有较高要求。

精彩报告：

● 评测综述与成绩发布（刘家辰百度）

● 报告一：基于领域预训练的事实一致性生成（刘辉腾讯）

摘要：本次前言事实一致性生成比赛中，我们采用预训练+领域预训练+微调的三阶段训练模式大幅度提高了文本生成的效果并且极大限度保持生成文本的事实一致性。同时，我们也使用对抗训练、模型融合等方法进一步提高模型效果，最终取到了该评测的第一名。

● 报告二：基于预训练语言模型和数据增强的文本生成系统（龚恒哈尔滨工业大学）

摘要：在“千言：面向事实一致性的生成评测比赛”中，我们选用同时兼顾了自然语言理解和自然语言生成两类任务的预训练语言模型进行微调，在大幅提升生成文本流畅性的同时保持较好的事实一致性。另外，我们通过数据增强的方法，进一步提升文本生成的总体效果。

2. 基于大纲的条件故事生成

故事生成是指给机器⼀些故事相关的信息，让机器生成一个故事。然而一般的故事生成任务，给定的输⼊信息很少，导致输出可以⼗分多样，造成了自动评价的困难性。因此本任务给定了一个无序的情节序列作为输⼊，要求机器能够合理地利用这些情节，产生一个自然、流畅、有趣味性的长故事。

本任务增大了输⼊的信息量，从而很好地缩减了输出的空间，不仅给自动评价提供了便利，⽽且也能更好地检验模型生成的可控性，同时还对模型进⾏情节规划的能力提出了更高的要求。数据来源于从⽹上爬取的中文故事，情节序列利⽤ RAKE算法从故事中抽取得到，每个故事⾄多抽取8个情节，每个情节不超过8个词。

精彩报告：

● 评测综述与成绩发布（关健清华大学）

● 报告一：基于模型融合和数据增强的条件大纲故事生成（廖泽明广西大学）

摘要：条件大纲故事生成任务是给定故事大纲，然后根据故事大纲生成完整的一段故事，该任务需要完整的利用到全部大纲词汇，本次汇报紧紧围绕如何生成包含全部大纲的故事为主题做。

● 报告二：基于数据增强和任务解构的条件故事生成（钟蔚弘哈尔滨工业大学）

摘要：在给定故事大纲的情况下，模型如何围绕故事大纲生成一段内容流畅、相关性强、一致性高的故事，是十分值得探究的问题。我们在本次评测中，通过数据增强和任务解构的方法，促进了了模型对于任务形式的学习理解，同时将一步生成转化为多步生成，进一步降低了生成难度，提高了生成过程的可控性。在评测任务上的结果，也进一步验证了我们方法的有效性。

● 报告三：Transfer and Denoising Learning For Story Generation （李宾湖南大学）

摘要：In this paper, we proposed a transfer denoising-based method to the story generation. Specifically, we design a rake-training method to bridge the gap between pre-training tasks and downstream tasks. We introduce child-tuning methods to learn task-relevant knowledge, and denoising learning is used to obtain a complete and logically fluid story. Finally, we conduct extensive experiments on the evaluation dataset for outline-based story generation, and the experimental results show that our proposed method outperforms other competitive baselines in all evaluation metrics, which proves the effectiveness of our method.

3. 图像描述生成评价方法

提出面向图像描述生成任务的评测方法，利用该方法对自动生成的图像描述进行打分，并使自动评测结果尽量接近于人工评测结果。数据集（数据截取自公开数据集）：数据集包括以下三部分内容：（1）自动生成的图像描述文本集合；（2）人工撰写的图像描述文本集合；（3）文本集（1）的人工评分集。

精彩报告：

● 图像描述自动生成技术、数据与测试（李琳青海师范大学）

4. 中文句法错误检测

作文错误自动批改是对外汉语教学走向智能化过程中的重要环节。汉语中介语作文错误自动批改技术评测（Chinese grammatical error diagnosis，CGED）是目前对汉语作为第二语言自动批改领域持续时间最长的技术评测。

我们将汉语水平考试（HSK）原始数据中精细的错误分类归并为四类：字符串冗余（R）、字符串缺失（M）、字符串错误（S）和语序错误（W）。评测任务要求参加评测的系统输入中介语句子（群），其中包含有一个或多个错误的错误。参赛系统应判断该输入是否包含错误，并识别错误类型，标记出其在句子中的位置和范围。

精彩报告：

● 评测综述与成绩发布（饶高琦北京语言大学）

● 报告一：Suda&Alibaba at CGED-7: Ensembles of Error Detection and Correction Models for Chinese Grammatical Error Diagnosis(E2DC)（李嘉诚苏州大学）

摘要：在本次CGED-7评测中，我们采用了两类模型，即基于序列标注的语法检错模型和基于序列到编辑的语法纠错模型。我们也尝试了不同的数据增强策略来缓解训练语料不足的问题。对于检错子任务，我们利用ERRANT将额外的语法纠错数据(错误-正确平行句对)转换为语法检错模型的训练数据；对于纠错子任务，我们采用基于规则和基于反向翻译的数据增强策略生成大量的伪训练数据。实验结果表明，我们提出的数据增强策略，均能提升模型的性能。最终我们的系统在识别、定位、纠正层取得了最高的F1值。

● 报告二：高精确率导向的中文句法错误诊断系统（方美媛有道）

摘要：本报告主要分享网易有道在第七届中文句法错误诊断技术评测（CGED-7）中提交的由错误检测框架、错误修正框架和后处理模块组成的中文句法错误诊断系统。该系统利用了最前沿的模型架构和NLP技术，并采用一系列的技术方案提高了系统的精确率。最终，该系统取得了定位层和修正层F1值第二，识别层F1值第三的成绩。同时，在识别层、定位层和修正层中排名前十五的提交结果中，本系统的精确率最高。

NLGIW2022评测任务征集开始

自然语言生成与智能写作大会将继续组织技术评测。现诚挚地向相关领域的学者、研究机构及企业征集评测任务方案。方案中应详细描述任务内容、评价标准、评测数据的准备情况及大致赛程，通过邮件发送至 raogaoqi At blcu.edu.cn 并抄送 nlgiw2021 At 163.com。评测任务包括而不限于以下主题：自然语言生成基础任务（人机对话、自动问答、自动文摘、图片/视频描述）、智能写作相关任务（文案生成、新闻写作、自动作文、作文批改、作文评分、文本校对）

主审：杨沐昀

本期责任编辑：冯骁骋

本期图文：饶高琦

本期编辑：冯晨