专委首页 >> 技术评测

第一届全国自然语言生成与智能写作技术评测顺利收官

  2022年4月23日第一届全国自然语言生成与智能写作技术评测技术论坛在第一届自然语言生成与智能写作大会(NLGIW 2022)上举行,本届会议的技术评测论坛上顺利收官。专委会主任哈尔滨工业大学赵铁军教授宣布第二届技术评测筹备工作正式启动。

  本届评测论坛供发布四项面向技术前沿和领域落地的任务,包括面向事实一致性的生成评测、基于大纲的条件故事生成、图像描述生成评价方法评测与中文句法错误检测技术评测四项内容。评测主席由北京语言大学荀恩东教授和饶高琦博士担任。大会评测论坛由饶高琦博士主持。各任务主席发布了评测正式成绩,进行了评测总结,并邀请优秀队伍进行了技术分享。

共同评测主席饶高琦博士主持评测论坛

  任务一文本生成一致性技术评测由清华大学、哈尔滨工业大学(深圳)和百度共同组织,任务主席为百度主任架构师肖欣延。百度刘家辰在论坛上做了该任务的评测总结。该任务使用三个任务数据集测试参赛系统的生成能力,包括文案生成、摘要生成和问题生成。

百度刘家辰老师综述任务一内容并发布成绩

  评测任务冠军为来自腾讯的“对对对”团队。刘辉代表团队介绍了基于领域预训练的事实一致性生成解决方案。该团队采用预训练+领域预训练+微调的三阶段训练模式大幅度提高了文本生成的效果并且极大限度保持生成文本的事实一致性。同时,也使用对抗训练、模型融合等方法进一步提高模型效果,最终取到了该评测的第一名。

  来自哈尔滨工业大学的“策马奔腾”队的龚恒博士带来了《基于预训练语言模型和数据增强的文本生成系统》。该团队选用同时兼顾了自然语言理解和自然语言生成两类任务的预训练语言模型进行微调,在大幅提升生成文本流畅性的同时保持较好的事实一致性。另外,团队也通过数据增强的方法,进一步提升文本生成的总体效果。

  本届评测任务二为基于大纲的条件故事生成,由清华大学组织,任务主席为黄民烈副教授。关健博士发布了评测成绩并做综述。该任务旨在让机器生成故事。然而一般的故事生成任务,给定的输⼊信息很少,导致输出可以较为多样,造成了自动评价的困难性。因此本任务给定了一个无序的情节序列作为输⼊,要求机器能够合理地利用这些情节,产生一个自然、流畅、有趣味性的长故事。

清华大学关健博士做任务二综述并发布成绩

  来自任务冠军团队的广西大学廖泽明博士汇报了《基于模型融合和数据增强的条件大纲故事生成》,介绍了团队结合了数据增强、数据预处理和模型融合的方法,在现有模型基础上取得了一定的提升效果。

  随后,哈尔滨工业大学的钟蔚弘博士介绍了开放资源赛道冠军解决方案和主赛道亚军技术方案,报告题目为《基于数据增强和任务解构的条件故事生成》。来自湖南大学的李宾博士介绍了其在开放资源赛道并列冠军技术方案,报告题目问《Transfer and Denoising Learning For Story Generation》。

  青海师范大学和中央民族大学联合组织了本届大会的任务三图像描述生成评价方法。青海师范大学李琳副教授综述了图像描述自动生成技术、数据与测试。该评测要求团队提出面向图像描述生成任务的评测方法,利用该方法对自动生成的图像描述进行打分,并使自动评测结果尽量接近于人工评测结果。

青海师范大学李琳副教授综述评测任务三

  本届大会任务四为第七届中文句法错误检测(Chinese grammatical error diagnosis,CGED-7),由北京语言大学饶高琦博士组织。该评测是目前对汉语作为第二语言自动批改领域持续时间最长的技术评测。相较以往,今年的评测成绩有了较大提高。在错误定位和错误修正两个较受关注的赛道上,S&A和YYDS两支队伍均获得冠军和亚军。

北京语言大学饶高琦博士综述评测任务四并发布成绩

  苏州大学李嘉诚博士代表团队作报告Suda&Alibaba at CGED-7: Ensembles of Error Detection and Correction Models for Chinese Grammatical Error Diagnosis(E2DC),介绍了苏州大学和阿里巴巴联队在综合评价指标上刷新纪录的技术方案:基于序列标注的语法检错模型和基于序列到编辑的语法纠错模型。来自网易有道的方美媛博士则以《高精确率导向的中文句法错误诊断系统》为题介绍了亚军团队的独特工作,深入讲解了深耕精确率并创造新高的方法。

  本次评测论坛的评测总结和大部分技术报告将陆续在自然语言生成与智能写作专委会网站(http://nlg.cipsc.org.cn/evaluation.html)公布。

  目前第二届全国自然语言生成与智能写作技术评测已启动筹备工作。专委会主任赵铁军教授在本次大会闭幕式上宣布了2023年度评测计划,欢迎广大同行积极参与新一轮评测活动。专委会诚挚地向相关领域的学者、研究机构及企业征集评测任务方案。评测任务包括而不限于以下主题:自然语言生成基础任务(人机对话、自动问答、自动文摘、图片/视频描述)、智能写作相关任务(文案生成、新闻写作、自动作文、作文批改、作文评分、文本校对)。方案中应详细描述任务内容、评价标准、评测数据的准备情况及大致赛程,请有意设置任务的主体通过邮件发送评测方案至评测联系人饶高琦博士( raogaoqi At blcu.edu.cn)并抄送专委会(nlgiw2023 At 163.com)。