【培训】搜索引擎的工作原理是什么?如何处理?
优采云 发布时间: 2021-05-23 20:36【培训】搜索引擎的工作原理是什么?如何处理?
一、搜索引擎如何工作
第一步:爬行
根据网站的URL链接来抓取与该链接相对应的页面,机器人将模拟抓取,并且蜘蛛程序着重抓取网站页面的文本内容。优化网站时应避免使用蜘蛛陷阱(蜘蛛陷阱):图片,闪光灯等)
根据链接爬网,我们需要在优化时注意URL的级别。 URL的级别越短越好,级别越短,越容易被抓取。因此,当我们优化网站时,我们需要将URL层次结构转变为树形结构
主页等效于树干
首页网址级别
列页面等效于分支
内容页面等同于叶子
首页网址级别:
在前台网站上,单击主页以查看主页URL后面是否有index.html
打开后台生成时,选择动态浏览以删除index.html
列页面网址:
优化时,我们需要删除/ a,还需要注意列名的URL字母或拼音,以与当前列名保持一致
内容页面级别:
我们需要删除今年,月份和日期显示的表单
删除网站后,必须将它们全部生成一次。删除后,内容URL级别将变为三个级别。
主页URL /列目录名称/内容文章名称URL
注意:并非所有网站都必须设置为三个深度级别,小网站通常设置为三个深度级别,大网站通常可以设置为五个深度级别
我们修改了此URL级别,并缩短了URL级别,以使搜索引擎蜘蛛更轻松地更好地抓取我们的网站内容。
第2步:存储
蜘蛛将爬网的内容存储在原创数据库中
第3步:预处理
1、提取文字
在已爬网页面中删除标记代码,并保留文本内容
2、中文分词处理
将提取的文本拆分为许多关键词
3、重复数据删除处理(删除重复数据)
比较与切词相对应的页面。如果找到大量相似的页面内容,搜索引擎将其切断。为了删除完全窃的页面,我们需要在以后创建内容时对网站进行优化。最好使用原创的方法制作内容
4、停止文字处理
停词:诸如地面,啊等等之类的词。
我们需要创建内容。如果原创找不到内容,请伪原创修改内容,但是修改的强度必须很大,而不仅仅是几个单词。
我不想修改正文内容,至少要修改标题(标题必须为原创)
当您需要发布内容时,请在百度搜索下获取即将发布的标题。如果您在搜索结果中写的标题是完全红色的,则不建议使用此标题。 文章的标题不应尽可能地完全红色。
5、计算页面关键词与内容之间的匹配程度和相关性(是否在关键词周围创建文章的内容)计算页面关键词的密度,该页面中的关键词控制得最好在2%-8%之间
6、计算页面的链接关系,计算页面的导出链接和导入链接之间的关系。
导入链接:指从另一个网站到自己的网站链接
导出链接:指您的站点指向其他人的链接网站称为导出链接。
页面导入的链接越多,页面的信任值越高,权重越高,排名越好。页面上的导出链接过多会影响排名,因此,当我们进行优化时,我们应该添加更多的导入链接,而减少导出的链接。
导入链接:我不完全了解数量,我们需要查看导入链接来自哪个平台。
被索引(书籍目录)的7、将通过收录的内容放置在索引库中。实际上,我们使用site命令查询的收录的值是从索引库中释放的结果。
注意:搜索引擎对新网站的影响为期一个月(评估期)。在评估期间,即使您网站写了很多内容,收录也不会全部发布。
第四步,显示排名
网站内的二、 URL优化
1、什么是网址?
url是指统一资源定位符,通常称为URL链接
2、网址优化的注意事项
网站的首选域名优化:这是一个标准域名,一个标准url
标准URL指的是可以由搜索引擎收录索引的域名。让搜索引擎仅收录个域名,然后在该域名后面输入列域名和内容域名。
URL前面带有3w且没有3w的URL对应的页面是相同的,这对于我们的网民来说也是相同的。但是对于搜索引擎来说,这是两个不同的域名。它无法确定哪个URL是您的标准URL。如果不清楚,它将同时收录两个不同的域。 URL对应的页面和两个未使用的URL对应的页面是相同的。这将导致网站的内容被重复收录。重复收录两个相同的首页将导致该首页的权重除以这两个不同的URL。它不利于体重的积累。因此,我们需要为网站进行301永久重定向,以避免分散页面的重量。
摘要:搜索引擎的工作原理分为以下几步:第一步:抓取第二步:存储第三步:预处理第四步:显示排名