搜索引擎优化入门与(,欢迎访问搜索引擎工作原理收录流程(图)欢迎)
优采云 发布时间: 2022-03-09 15:22搜索引擎优化入门与(,欢迎访问搜索引擎工作原理收录流程(图)欢迎)
,欢迎访问
搜索引擎如何工作
收录进程
1、提交 URL 是一种被动且耗时的行为。
2、建立外链,外链的数量、质量和相关性控制着入口时间,是主动的。
页面收录方法
收录页面使用的策略是从互联网上过滤掉相对重要的信息。
如果采用相同的爬取策略,在同一个站点爬取页面资源效率更高,那么在网站上停留的时间会更长,收录的页面数自然会是更多的。
广度优先。
优点:首先抓取重要页面。
应对策略:在较浅的页面上设计重要信息。
深度优先。
优势:页面需求长尾,抓取更多冷门和隐藏页面,满足更多用户需求。
应对策略:重要信息放置在多个级别的页面上。
用户提交。
优点:大大提高了 收录 页面效率、数量和 收录 页面质量。
如何避免重复收录(重复页面,重复内容)
网站 中的重复信息:转载内容、镜像内容。
重复信息的影响:占用硬盘,延长用户搜索时间
权重:原创>转载>镜像(几乎完全忽略)
转载页面
对划分为N个区域页的多个M个区域进行比较。如果 M>A(某个阈值),则它们相互复制。
通过比较最后修改时间、页面权重等因素来判断哪个是原创。
镜像页面
比较分成 N 个区域的多个页面。如果 N 个区域的内容完全相同,则认为这些页面是彼此的镜像页面。
判断 原创 与转载相同。
镜子网站
狭义镜像网站指的是完全相同的内容网站。
原因:1、多个域名或IP指向同一个服务器的同一个物理目录;
2、整个网站 内容被复制到使用不同域名或IP 的服务器上。
识别来源网站是通过判断这些网站的首页与该首页直接链接的页面是否互为镜像页。然后结合多个因素(如网站权重值、建立时间等)进行识别。
镜像 网站收录 很少的页面,甚至不是 收录 页面。
如何维护页面
使搜索引擎适应 网站 的不断变化和遗漏。
定期爬行
所有 收录 页面的定期维护。
页面权重的重新分配也与页面维护同步。
适合页面少、内容更新慢的网站。
缺点:由于维护周期较长,无法及时将更新期间页面的变化反映给用户。
增量爬行
定期监控已爬取的页面,实现页面的更新和维护。(不切实际)
基于80/20规则,搜索引擎只在一些重要页面网站中定期监控一些重要页面,并且可以在网站中获取相对重要的信息。
优点:重要页面的内容更新会及时发现新内容、新链接,删除不存在的信息。
分类定位抓斗
根据页面的类别或性质,制定相应更新周期的页面监控方法。
新闻信息周期比资源下载周期短。
大型门户网站更新内容比小型门户快。
优点:大大提高了页面爬取的灵活性和实时性。
补充:结合各种爬取方式爬取页面。
页面存储
搜索引擎在爬取页面的过程中能否获得更多有价值的信息,将直接影响搜索引擎的工作效率和排名结果的质量。因此,搜索引擎除了存储原创页面外,还会附加一系列信息(如文件类型、文件大小、最后修改时间、rul、ip地址、爬取时间等),然后将这些作为开展某项工作的依据。
网页分析
对原创页面进行一系列的分析处理,满足用户信息查询的习惯。建立关键词索引和反向索引,并分配权重。
网络索引
为了提高页面检索效率,对页面URL进行索引。
网页分析
文本信息提取
过滤非文本信息(HTML 标签、JS 标签、PHP 标签)。
分词/分词
通过对过滤后的正文内容进行切分(这种行为是分词/分词),形成一个匹配用户查询条件的基于关键字的信息列表。
分词算法:1、字符串匹配分词
2、统计分词。
3、关键字索引。记录关键字所在的网页编号、关键字编号、关键字出现的次数、关键字在文档中的位置信息。
4、关键字重组。使用关键字创建与多个网页对应的方向索引。
页面排序
页面相关性
1、关键字匹配
缺点:容易被 网站 所有者操纵。还需要结合关键词密度、关键词分布、关键词权重标签来确定。
2、关键字密度
关键字密度是关键字频率与页面上总字数的比率。不同的密度对应不同的密度值。
3、关键字分布
对应关键词位置有不同的分布值。
4、关键字权重标签
链接权重
入度和出度,以及它们的权重分布。
1、内部链接
2、外部链接
3、默认权重分配
用户行为
点击率
关键字查询
查询流程
用户行为
1、搜索。统计词汇的流行度并发现新词汇。
2、点击
3、缓存机制。缓存查询次数最多的前 20% 的关键字。