网站内容搜索( SEO材料中“预处理”也被简称为“索引”)

优采云 发布时间: 2021-12-10 05:20

  网站内容搜索(

SEO材料中“预处理”也被简称为“索引”)

  

  预处理

  在*一些SEO材料中,“预处理”也称为“索引”,因为索引是预处理的主要步骤。

  搜索引擎蜘蛛抓取的原创页面不能直接用于查询排名处理。搜索引擎数据库中的页面数在万亿以上。用户输入搜索词后,排名程序会实时分析这么多页面的相关性。计算量太大,*两秒内返回排名结果。因此,必须对抓取到的页面进行预处理,为后续的查询排名做准备。像爬行和爬行*一样,预处理是在后台提前完成的,用户在搜索时不会感觉到这个过程。

  检测和删除复制内容通常在预处理过程中进行,但现在蜘蛛在爬取和抓取文件时也会进行一定程度的复制内容检测。当在网站上遇到大量转发或抄袭,权重极低的内容时,很可能无法继续爬取。这就是为什么有的站长在日志文件中发现了蜘蛛,但页面一直没有收录的原因。

  1.提取文本

  当前的搜索引擎仍然基于文本内容。蜘蛛抓取的页面中的HTML代码除了用户在浏览器上可以看到的可见文本外,还收录了大量的HTML格式标签、JavaScript程序等无法用于排名的内容。搜索引擎预处理首先要做的是去除HTML文件中的标签和程序,提取网页的文本内容,用于排名处理。

  今天愚人节

  去掉 HTML 代码后,剩下的用于排名的文本就只有这行 * 行:

  今天愚人节

  除了可见文本,搜索引擎还会提取一些收录文本信息的特殊代码,例如Meta标签中的文本、图片的替代文本、Flash文件的替代文本、链接锚文本等。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线