百度搜索引擎优化原理(什么是百度中文分词算法?百度分词基本有三种分法)
优采云 发布时间: 2022-02-26 22:04百度搜索引擎优化原理(什么是百度中文分词算法?百度分词基本有三种分法)
百度中文分词算法:指搜索引擎为了更好地识别用户需求,快速为用户提供所需信息而使用的算法。
搜索引擎需要在单位时间内处理一个PB级的页面数据量,所以搜索引擎有一个中文词库。比如百度现在大约有9万个中文单词,所以搜索引擎可以分析上千亿个页面,按照中文词库进行分类。
百度分词基本上有3种方法
1、基于理解:傻瓜式匹配,小于等于3个汉字百度不会切词,比如搜索“大学堂”。
2、据统计:百度将一个词标记为红色的原因:红色标记的词一般是一个关键词。当你搜索“学习”这个词时,百度也认为自己是“学习”。有一个关键词,所以“学习”这个词出现红色,是百度的分词方法:基于统计分词。
3、 基于字符串匹配(百度的分词方式:前向最大词法切分)
最大最小(最大匹配:匹配到没有词匹配;最小匹配:匹配到一个词就停止匹配,从另一个词开始匹配) 例如:百度搜索“湖南大学屋顶”,一种分词算法百度的我们把它当成一个黑匣子。我们使用一些输入关键词根据百度的输出来确定百度的分词算法。正反(正:从前向后;反:从后到前)(湖南大学礼堂屋顶) 正向劈法:湖南大学礼堂屋顶(刘强奇法) 正向劈法:刘强地法。逆师法:刘强,法土。在这个词中,“地球”不是一个词。
另外,分词原理:百度有专有词库(密不可分),如杰出人物(如:*敏*感*词*)、明星(如:刘德华)、检索量大的词(如:票难买)。
当然,这些只是百度中文分词原理的一部分,并不全是正确的。因为百度的算法是不可能泄露的,如果你知道商业机密,那么百度就有N多。