百度NLP一直致力于开源生态的建设。作为百度最核心的技术部门之一,我们所研发的技术不仅在学术上保持前沿进展,而且在百度的生产环境和产品应用中经过了大规模验证,具有重大的实用价值。我们希望通过开源工作的贡献,将百度的先进技术经验反馈给行业,帮助提升行业整体能力,助力百度整体AI技术生态建设。
LAC
LAC全称Lexical Analysis of Chinese,是百度自然语言处理部研发的一款联合的词法分析工具,实现中文分词、词性标注、专名识别等功能。
查看代码- 效果领先
通过大规模语料自动标注和联合模型训练,整体效果业内领先
- 效率高
优化模型参数与性能,简化编译流程,性能提升约2倍
- 定制灵活
实现简单可控的干预机制,能够精准匹配用户词典对模型进行干预。
DDParser
DDParser是百度自然语言处理部基于大规模标注数据研发的依存句法分析工具。其训练数据不仅覆盖了多种输入形式的数据,如键盘输入query、语音输入query等,还覆盖了多种场景的数据,如新闻、论坛等。该工具易用性高,支持一键安装及预测。
查看代码- 效果领先
基于大规模标注数据训练模型,效果业内领先。
- 易于理解
标注关系简单易理解,适合快速学习及使用。
- 高易用性
易用性高,支持一键式安装及预测。
Senta
Senta是百度NLP研发的情感分析工具集,该工具支持三类经典的情感分析任务,句子级情感分类,评价对象级情感分类、观点抽取。2020年,百度在Senta中开源了基于SKEP(Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis)的情感预训练代码和中英情感预训练模型(该模型在14项中英情感分析典型任务上全面超越SOTA,相关工作已经被ACL 2020录用)。
查看代码- 算法领先
集成情感预训练模型SKEP,在14个中英文情感分析典型任务上超越SOTA。
- 定制能力强
提供三类情感分析任务的定制化训练接口,持续提升模型效果。
- 调用便捷
集成一键式安装工具,只需几行代码即可实现情感预训练和预测功能。
Familia
Familia开源项目包含文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型:Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding(TWE)。 支持用户以“拿来即用”的方式进行文本分类、文本聚类、个性化推荐等多种场景的调研和应用。
查看代码- 高扩展性
Familia能够在大数据上分布式训练上亿参数量的模型。
- 高效性
Familia 每个训练节点每秒能够采样上万篇文档进行训练。
- 开箱即用
提供了在若干领域上训练的业界常用LDA模型, 并支持语义匹配和主题推断功能。