核心技术

多年来,为了支持丰富多样的内外部业务,我们在词法分析、词义相似度等自然语言处理基础技术上有着深厚的储备。同时随着多年的实践积累,我们在语言理解、阅读理解、语言生成、对话、翻译等应用方向上也沉淀了充足的经验和实力。

问答系统

问答系统是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题,更好的满足人们快速、准确地获取信息的需求。多年来,百度NLP在问答系统方面持续进行着相关技术深耕和应用落地,积累了问题分析、问答匹配、排序聚合、阅读理解、问题扩展等核心问答技术,并提出了在不同应用场景下的完整技术解决方案。目前,相关问答技术和解决方案已经在百度搜索、小度智能音箱、智能客服等多个产品中深度应用,为亿万用户提供高质量问答服务。

开源技术 - DuReader中文问答阅读理解基线系统 了解详情

DuReader开源阅读理解系统是面向DuReader数据集的基线系统。该系统基于PaddleFluid深度学习框架开发,采用了基于循环神经网络以及注意力机制的经典模型BiDAF。特别在中国计算机学会、中国中文信息学会和百度公司联合举办的2018机器阅读理解技术竞赛中,有超过80%的参赛选手都采用该系统进行二次开发。该系统是目前使用最为广泛的中文问答阅读理解开源系统。

开源数据 - DuReader中文问答阅读理解数据集 了解详情

DuReader是一个面向真实应用的、开放域的、最大规模的中文问答阅读理解数据集。与以前的阅读理解数据集相比,DuReader的优势是(1)数据来源真实:DuReader的问题是百度搜索中用户提出的真实问题,文档来自于百度搜索和百度知道,并且答案都是人工标注的。(2)问题类型丰富:DuReader提供了更加丰富的问题类型标注,每个问题的类型标注属于两个维度:第一个维度包括了实体类、描述类和是非类,第二个维度包括了事实类和观点类。(3)数据规模大:DuReader包含了30万问题,72万答案和150万文档,它是迄今为止最大的中文阅读理解数据集。基于DuReader的2018机器阅读理解技术竞赛获得了学术界和工业界的高度关注,共有1062个队伍报名,累计提交结果1489次。评测期间,最好系统的性能大幅提高,Rouge-L值从35.92提高至63.62,推动了中文阅读理解技术的整体发展。