SEO科技网更新日期：2021-4-19预处理

优采云发布时间: 2021-07-26 01:52

　　第十节：搜索引擎工作原理的预处理

　　来源：SEO技术网上传：SEO技术网更新日期：2021-4-19

　　第十节：搜索引擎工作原理的预处理

　　预处理

　　由于搜索引擎数据库中有很多网页，用户搜索后，索引计算量过大，短时间内很难返回搜索结果，所以必须对页面进行预处理。

　　(1）提取文本

　　搜索引擎预处理首先要做的是去除HTML文件中的标签和程序，提取网页文本内容进行排名处理。

　　（2）中文分词

　　中文单词之间没有分隔符，一个句子中的所有单词和单词都连接在一起。因此，搜索引擎首先要区分哪些字符构成一个词，哪些字符本身就是一个词。

　　中文分词有两种方法，即基于词典匹配的分词和基于统计的分词。

　　（3）停止这个词

　　停用词是指在网页内容中频繁出现但对内容没有影响的词，因为它们对页面内容没有实质性影响。搜索引擎会在索引页面之前删除这些停用词。

　　(4）消除噪音

　　(5）去重

　　搜索引擎不喜欢重复的内容，所以在索引之前，识别内容并删除重复的内容。这个过程可以称为“重复数据删除”。

　　(6）forward 索引

　　经过文本提取、分词、去噪、去重后，搜索引擎可以提取关键词，按照分词程序划分关键词，将页面转化为关键词的集合，其中每个关键词词频、格式、位置等权重信息都有记录。

　　(7）倒排索引

　　如果搜索引擎只能索引转发，排名程序需要扫描索引库中的所有文件，然后进行排名计算，这样计算量不能满足实时返回排名结果的要求，所以搜索引擎需要重构正向索引数据库作为引导索引，将文件到关键词的映射转换为关键词到文件的映射。

　　(8）link 关系计算

　　当前的搜索引擎收录在网页之间流动的信息。搜索引擎抓取页面内容后，必须弄清楚页面上有哪些页面，使用了哪些链接。

　　由于页面和链接数量众多，计算链接关系和权重需要很长时间。

　　(9）特殊文件处理

　　除了 HTML 文件，搜索引擎通常可以抓取和索引多种基于文本的文件类型，例如 PDF、Word、WPS、XLS、PPT、TXT 文件等。

0

2021-07-26

搜索引擎优化原理

0 个评论

要回复文章请先登录或注册