核心技术
语义计算

将以深度学习和概率图模型为代表的机器学习技术和文本任务深度融合,充分利用互联网大数据对语义表示计算的指引作用,研发了包含语义表示Ernie、语义匹配SimNet、语义解析、多模态语义计算在内的多项领先技术。语义计算系列技术可覆盖长短文本及多模态场景,已在搜索、推荐、度秘、广告等一系列应用中发挥重要作用。

开源技术 - AnyQ问答系统 了解详情

AnyQ(ANswer Your Questions) 开源项目主要包含面向FAQ集合的问答系统框架、文本语义匹配工具SimNet。问答系统框架采用了配置化、插件化的设计,各功能均通过插件形式加入,当前共开放了20+种插件。开发者可以使用AnyQ系统快速构建和定制适用于特定业务场景的FAQ问答系统,并加速迭代和升级。SimNet是百度自然语言处理部于2013年自主研发的语义匹配框架,该框架在百度各产品上广泛应用,主要包括BOW、CNN、RNN、MM-DNN等核心网络结构形式,同时基于该框架也集成了学术界主流的语义匹配模型,如MatchPyramid、MV-LSTM、K-NRM等模型。SimNet使用PaddleFluid和Tensorflow实现,可方便实现模型扩展。使用SimNet构建出的模型可以便捷的加入AnyQ系统中,增强AnyQ系统的语义匹配能力。

开源技术 - 语义表示模型ERNIE 了解详情

ERNIE(Enhanced Representation through kNowledge IntEgration)是百度提出知识增强的语义表示模型。ERNIE在语言推断、语义相似度、命名实体识别、情感分析、问答匹配等自然语言处理(NLP)各类中文任务上的验证显示,模型效果全面超越 BERT。ERNIE通过建模海量数据中的词、实体及实体关系,学习真实世界的语义知识。相较于BERT学习原始语言信号,ERNIE直接对先验语义知识单元进行建模,增强了模型语义表示能力。ERNIE 模型本身保持基于字特征输入建模,使得模型在应用时不需要依赖其他信息,具备更强的通用性和可扩展性。同时,ERNIE 的训练语料引入了多源数据知识。除了百科类文章建模,还对新闻资讯类、论坛对话类数据进行学习。此外,ERNIE 对实体概念知识的学习以及训练语料的扩展,也增强了模型语义表示能力。