研究成果
学术活动 > 活动详情
2020语言与智能技术竞赛
活动时间 2020年3月10日-5月20日

3月10日,2020语言与智能技术竞赛正式启动,面向全球开发者开启报名通道。本届竞赛由中国中文信息学会(CIPS)和中国计算机学会(CCF)联合主办,百度公司、中国中文信息学会评测工作委员会和中国计算机学会中文信息技术专委会联合承办。

本届竞赛将在第五届“语言与智能高峰论坛”举办技术交流和颁奖,获胜团队将分享总额35万人民币的奖金。届时,国内外学术界、工业界知名专家学者,也将面向社会公众介绍国内外语言与智能及相关领域的发展趋势和创新成果。

一、任务设置

竞赛共设置5项任务。

序号 任务名称 任务简介
1 机器阅读理解 阅读给定文本后回答和阅读内容相关的问题
2 面向推荐的对话 主动且自然地将对话从非推荐对话引导到推荐对话
3 语义解析 将用户输入的问题转成可与数据库操作的编程语言
4 关系抽取 从文本中抽取实体、属性、关系等知识信息
5 事件抽取 从文本中抽取事件并识别事件类型和对应论元信息

1)机器阅读理解:

随着NLP相关技术的进步,当前的阅读理解模型已经能够在一些测试集上取得较好的效果。然而在实际应用中,表现出的鲁棒性仍然较差,这大大限制了当前技术在实际场景中的落地。因此,本次竞赛中的机器阅读理解任务,将重点关注阅读理解模型在真实应用场景中的鲁棒性。为此构建了DuReaderrobust数据集,用于考察模型在多个维度上的鲁棒性,包括模型的过敏感性、过稳定性以及泛化能力。数据集中的样本均来自于实际的应用场景,难度大,考察点丰富,覆盖了真实应用中诸多难以解决的问题。

2)面向推荐的对话:

真实世界的人机交互会同时涉及到多种类型的对话,如何自然的融合多类型对话是一个重要的挑战。为了应对这个挑战,本次竞赛提出了一个新的任务—多类型对话中的面向推荐的对话,期望机器能够主动且自然地将对话从非推荐对话(比如“问答”)引导到推荐对话,然后基于收集到的用户兴趣及用户实时反馈通过多次交互完成最终的推荐目标。任务还将提供对话类型多样、领域多样、融合用户profile信息的对话逻辑数据集,贴近真实的应用场景。

3)语义解析:

该任务旨在使得机器能自动将用户输入的自然语言问题(Text)转化成数据库可操作的编程语言(如SQL),降低结构化数据使用的门槛和成本。当前的中文Text-to-SQL数据集的数据库基本都是由单表构成的,问题模式比较简单,仅覆盖部分实际应用中存在的问题。本次竞赛将首次发布DuSQL数据集,包含覆盖164个领域的200个数据库,覆盖了匹配、计算、推理等实际应用中常见的问题形式,每个问题关联一个数据库中一或多张表格。该数据集更贴近真实应用场景,对模型解决领域无关性、问题无关性、计算推理问题的能力提出了更高的挑战。

4)关系抽取:

关系抽取是从自然语言文本中抽取实体及其之间关系的信息技术。本次竞赛在2019年竞赛的信息抽取任务基础上进行了两处升级:一是在简单SPO关系的基础上增加了复杂关系类型,用以刻画现实世界中广泛存在的复杂关系;二是引入百度贴吧口语化表达语料,其文本语义自由度更高,更贴近日常口语表达习惯,使关系抽取评测任务具有更大的挑战性和实战应用价值。

5)事件抽取:

事件抽取是从自然语言文本中抽取事件并识别其事件类型和事件论元的信息技术。该任务是自然语言理解领域一项重要且富有挑战性的工作。本次竞赛我们将对外发布当前业界最大规模的中文事件抽取数据集,其中包含65个事件类型和1.7万个具有事件信息的句子。希望通过此次竞赛及开放的大规模中文数据集,助力事件抽取技术的进一步发展。

二、奖项设置

竞赛的每个任务都将分别评出一等奖1名,二等奖1名,三等奖1名,优胜奖2名,主办方中国中文信息学会(CIPS)和中国计算机学会(CCF)将为获奖者提供荣誉证书认证,百度公司将为获奖者提供奖金和参会交流赞助。

一等奖:30000元+荣誉证书

二等奖:20000元+荣誉证书

三等奖:10000元+荣誉证书

优胜奖:5000元+荣誉证书

三、时间安排

2020/3/10:启动竞赛报名,发放样例数据

2020/3/31:发放全部训练数据和第一批测试数据,开放评测入口和在线排行榜

2020/5/12:报名截止

2020/5/13:发放最终测试数据

2020/5/20:系统结果提交截止

2020/5/30:公布竞赛结果,接收系统报告和论文

2020/6/30:论文提交截止日期

2020/7:在“语言与智能高峰论坛”上交流和颁奖

如有任何问题,可联系竞赛组委会邮箱 lic2020@126.com 或微信添加“Licbot”咨询竞赛小助手。搜索关注“百度NLP”公众号,赛事详情不容错过。

“竞赛小助手”微信号

“百度NLP”公众号