百度中文分词算法,你知道几个?(一)
优采云 发布时间: 2021-06-08 00:53百度中文分词算法,你知道几个?(一)
百度中文分词算法:指搜索引擎为了更好地识别用户需求,快速为用户提供需求信息而使用的算法。
搜索引擎每单位时间要处理PB级的页面数据,所以搜索引擎有中文词典。例如,百度现在有大约 9 万个中文单词,搜索引擎可以分析数千亿个页面,并根据中文单词数据库对其进行分类。
百度分词基本有三种方法
1、基于理解:傻瓜式匹配,小于等于3个汉字,百度不做分词,比如搜索“大学堂”。
2、据统计:百度把一个词放红的原因:一个红字通常是关键词。当你搜索“学习”这个词时,百度认为它也将“学习”视为一个关键词,所以“学习”这个词出现了红色。这就是百度分词:基于统计的分词。
3、基于字符串匹配(百度的词法切分:前向最大词法切分)
最大和最小(最大匹配:匹配到没有要匹配的单词;最小匹配:匹配到单词时停止匹配,然后从另一个单词开始匹配) 例如:百度搜索“湖南大学堂屋顶”,百度的We把分词算法当成一个黑盒子。我们使用一些输入关键词,根据百度的输出结果来确定百度的分词算法。正反(前进:从前到后匹配;反向:从后到前匹配)(湖南大学堂屋顶) 前进法:湖南大学堂屋顶(刘强地法) 前进法:刘强地法。逆除法:法大地刘强。在这个词中,“地球”不是一个词。
另外,分词原理:百度有专有词汇(这是分不开的)比如显赫人物(比如*敏*感*词*)、明星(比如刘德华)搜索了大量的词(比如: 很难买到票)。
当然,这些只是百度中文分词原理的一部分,并不完全正确。因为百度的算法是不可能泄露的,如果商业秘密让你知道,岂不是因为百度多了N个。