词法分析

提供分词、词性标注、命名实体识别三大功能。

  • 有效利用海量数据,粒度更灵活
  • 用户定制

中文DNN词向量

通过词语向量化实现文本的可计算,帮您快速完成语义挖掘、相似度计算等。

  • 准度高

中文DNN语言模型

判断一句话是否符合语言表达习惯,帮助您实现文本分析、纠错等应用。

  • 准度高
  • 泛化能力强

短文本相似度计算

提供短文本的语义相似度计算,可用于文本的检索、推荐等场景。

  • 实现语义级匹配
  • 深度学习技术

评论观点抽取

自动抽取和分析评论观点,帮助您实现舆情分析、用户理解。

  • 准确率高
  • 垂类丰富
  • 维度多样

词法分析

百度词法分析服务的输入是一串自然语言文本,系统首先识别出文本串中的基本词汇(分词),然后对这些词汇进行重组并标注组合后词汇的词性,并在此基础上进一步识别出命名实体,包括人名、地名(含地址)、机构名,以及时间日期词。

功能介绍

词法分析提供分词、词性标注、命名实体识别三大功能。分词是将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列的过程。词性标注(Part-of-Speech tagging 或POS tagging)是指为自然语言文本中的每个词汇赋予一个词性的过程。命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别自然语言文本中具有特定意义的实体,主要包括人名、地名、机构名、时间日期,等等。

技术特色

  • 粒度更灵活

    分词输出混排粒度和基本词粒度,用户可以根据自己的应用场景选择对应的粒度。同时,词性标注结合了字模型与词模型的优势,拥有进一步优化分词粒度的功能,从而既保证了基本词汇的原子性,又保证了大粒度词汇,尤其是领域新词、专有名词的有效识别。

  • 海量数据的有效利用

    词性标注通过互联网用户行为挖掘海量训练样本,提高了算法在复杂多变的应用场景下的效果稳定性和适配性。命名实体识别引入了百亿级的远距离监督学习与点击反馈,强化了先验语义模型,结合传统规则、字典、序列标注模型,在上下文较少时仍能基于先验得到较好处理效果。

  • 用户定制

    可根据用户需求,自主干预和定制分词效果,自由定制专名实体类目,打造个性化的分词和专名识别系统(暂未开放)。

中文DNN词向量

依托全网海量优质数据和深度神经网络技术,通过词语向量化实现文本的可计算,帮助您快速完成语义挖掘、相似度计算等应用。

功能介绍

词向量的基本思想是通过训练的方法,将某种语言词表中的词映射成一个长度固定的向量。词表中所有的词向量构成一个向量空间,每一个词都是这个词向量空间中的一个点。语义、语法上相近的两个词,在词向量空间中的距离比较相近。词向量模型可以被视作为一个预训练好的模型,作为其他应用的模型初始化参数,也可以直接用于计算两个词的相似度。

技术特色

  • 准度高

    基于深度学习技术和超大规模的网页数据进行训练,使得模型具备较高的准确度。

中文DNN语言模型

判断一句话是否符合语言表达习惯,帮助您实现文本分析、纠错等多语义应用。

功能介绍

语言模型主要用于计算所给定词组成的句子的概率,判断所组成的句子是否符合客观语言表达习惯。计算一个句子的概率对于自然语言处理任务而言意义重大,语言模型通常用于计算器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等。本模块的输入是一个中文句子,输出的是该句经过切词后,每个词在本句中的概率,这组概率值越高说明句子越通顺。

技术特色

  • 准度高

    基于超大规模的网页数据进行训练,使得模型具备较高的准确度。

  • 泛化能力强

    基于词向量技术和深度学习技术,可以解决传统方法中的数据稀疏问题和维度灾难问题,模型泛化能力强,效果优于传统的基于统计的语言模型。

短文本相似度计算

依托全网海量优质数据和深度神经网络技术,为您提供高精度的短文本相似度服务,帮助快速实现推荐、检索、排序等应用。

功能介绍

中文短文本是指篇幅很短的文本片段(不超过30个汉字),典型的短文本包括网页标题、用户查询、新闻标题等。短文本相似度计算是信息检索、查询推荐等任务的关键一步,比如在信息检索中,用户查询和网页标题之间的相似度是搜索结果排序的重要基础特征。

技术特色

  • 算法效果好

    基于百度搜索用户反馈数据进行训练,用户反馈数据为相似度计算提供了海量的指导信息,模型效果优于已公开的主流算法

  • 实现语义级匹配

    基于词向量技术,解决关键词匹配失败的问题,可以有效得到同义词、近义词之间的相似度,泛化能力好

  • 深度学习技术

    在海量数据下,基于深度神经网络,对从单次语义到短文本语义的组合过程进行建模,模型更强大,表达效果更好

评论观点抽取

自动抽取和分析评论观点,帮助您实现舆情分析、用户理解,支持产品优化和营销决策。

功能介绍

评论观点抽取服务能够对给定产品(包括商品或服务)的用户评论文本,自动分析评论关注点和评论观点,并输出评论观点标签及评论观点极性。目前支持多类产品用户评论的观点抽取,包括美食、酒店、汽车、景点等。实现特定产品全部评论的评论观点挖掘,帮助商家进行产品分析,辅助用户进行消费决策。

技术特色

  • 准确率高

    采用先进的自然语言处理和深度学习技术,基于语义实现评论观点分析,观点标签抽取和极性分析准确率高,已实际用于多个产品中

  • 垂类丰富

    支持美食、酒店、汽车、景点、KTV……等多类产品的评论观点抽取,覆盖了互联网主流商品评论

  • 维度多样

    基于大数据挖掘自动获得用户评论的关注点,关注点维度多样、刻画精细