核心技术
NLP基础算法

NLP基础算法致力于研究分词、词性标注、专名识别、词向量化、词重要性、词紧密度、词相似度、句相似度、句通顺度、句法分析以及语义分析等面向中文文本的基础技术。依托于百度的大数据积累和深度学习技术,NLP基础算法不断打磨,支持了公司内外部诸多产品。

词法分析 了解详情

百度词法分析向用户提供分词、词性标注、命名实体识别三大功能。该服务能够识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体,百度词法分析的算法效果大幅领先已公开的主流中文词法分析模型。

词向量表示 了解详情

词向量计算是通过训练的方法,将语言词表中的词映射成一个长度固定的向量。词表中所有的词向量构成一个向量空间,每一个词都是这个词向量空间中的一个点,利用这种方法,实现文本的可计算。

词义相似度 了解详情

本技术用于计算两个给定词语的语义相似度,基于自然语言中的分布假设,即越是经常共同出现的词之间的相似度越高。词义相似度是自然语言处理中的重要基础技术,是专名挖掘、query改写等常用技术的基础之一。

依存句法分析 了解详情

利用句子中词与词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系),并用树状结构来表示整句的的结构(如主谓宾、定状补等)。

DNN语言模型 了解详情

语言模型是通过计算给定词组成的句子的概率,从而判断所组成的句子是否符合客观语言表达习惯,通常用于机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等。

短文本相似度 了解详情

短文本相似度计算服务能够提供不同短文本之间相似度的计算,输出的相似度是一个介于0到1之间的实数值,越大则相似度越高。相似度数值建议在一组数据中进行整体比对选用,输出数值越大,则代表语义相似程度相对越高。

开源技术 - 中文词法分析LAC 了解详情

LAC是一个联合的词法分析模型,整体性地完成中文分词、词性标注、专名识别任务。LAC既可以认为是Lexical Analysis of Chinese的首字母缩写,也可以认为是LAC Analyzes Chinese的递归缩写。LAC基于一个堆叠的双向GRU结构,在长文本上准确复刻了百度AI开放平台上的词法分析算法。效果方面,分词、词性、专名识别的整体准确率95.5%;单独评估专名识别任务,F值87.1%(准确90.3,召回85.4%),总体略优于开放平台版本。在效果优化的基础上,LAC的模型简洁高效,内存开销不到100M,而速度则比百度AI开放平台提高了57%。