搜索引擎优化试题(SEO优化之seo搜索引擎优化方法)
优采云 发布时间: 2021-09-03 10:06搜索引擎优化试题(SEO优化之seo搜索引擎优化方法)
一、seo 搜索引擎优化。
一)SEO 的六个链接:
1、关键词Analysis(也叫关键词positioning)
这是 SEO 中最重要的部分。 关键词 分析包括:
①关键词关注金额分析
②竞争对手分析
③关键词和网站相关性分析
④关键词layout
⑤关键词rank 预测
2、网站架构分析
网站匹配搜索引擎爬虫偏好的结构有利于SEO。 网站架构分析包括:
①移除网站bad 架构设计
②实现树状目录结构
③网站导航和链接优化
3、网站目录和页面优化
SEO不仅仅是让网站homepage在搜索引擎中排名靠前,更重要的是让网站的每一页都带来流量。
4、内容发布和链接放置。
搜索引擎喜欢定期更新网站内容,所以合理安排网站内容的发布时间是SEO的重要技术之一。链接布局将整个网站有机连接起来,让搜索引擎了解每个网页和关键词的重要性。实现的参考是第一点的关键词 布局。友情链接之战也在此时开始。
5、与搜索引擎对话
看SEO对搜索引擎的影响,通过site:你的域名知道收录和网站的更新状态。为了更好的实现与搜索引擎的对话,推荐使用Google网站Administrator Tools。
6、网站流量分析
网站流量分析从SEO结果中指导下一步的SEO策略,对网站的用户体验优化也有指导意义。流量分析工具推荐使用谷歌流量分析。
二)搜索引擎的组成:
1、网络爬虫系统:
--检测系统:蜘蛛。
蜘蛛在互联网上爬行时检测到网站的网址。
--下载系统
使用下载系统将URL所指向的页面下载到搜索引擎的服务器,然后将页面交给数据分析系统。
2、数据分析系统
--数据分析系统:当数据分析系统从网络爬虫系统获取到下载的页面后,首先进行数据分析,去除不相关的文字或网站repetitive内容。
--数据处理系统:
进行页面文字处理,然后判断处理后的页面内容是否符合收录标准。发送到存储系统,但不会删除。
3、存储数据系统
保存收录的页面,然后定期检查保存的页面是否有更新。
4、缓存系统
存储搜索引擎认为具有高价值的内容。用户搜索某个关键词时,经常看到收录有几千万,但搜索引擎显示只有1000条,也就是说缓存系统上只有1000条,用户最快可以找到他们想要的东西。
5、展示系统
用户搜索返回到显示器的信息。
三)search engine收录原理(流程简单):
1、找到网站的网址并下载页面。
2、判断页面质量是否符合收录标准,如果是,则收录页面,否则删除。
3、判断收录页面是否更新,更新页面快照。
四)search engine收录页面详细流程(网络爬虫基本工作流程)
①蜘蛛在互联网上爬行,遇到一个网址。
②根据网站权重和相关性提取URL并插入到URL队列中。
③为 URL 解析 DNS。
④如果无法解析DNS,则将URL添加到URL队列中。如果解释成功,进入下一步。
⑤分析网址内容。
蜘蛛首先查找你的网站robots文件,根据你的网站robots规则判断是否抓取你的页面。
如果robots文件不存在,会返回404错误。搜索引擎将继续抓取您的网站 内容。
⑥ 判断网页是否符合收录标准,如果不符合,则将该网址加入到网址队列中。如果符合收录标准,下载网页内容。
⑦当搜索引擎获取到下载的网页内容后,会提取页面上的网址,并继续将该网址加入到网址队列中。然后把页面数据放到进一步分析中。
⑧ 判断网页内容是否符合收录标准。如果符合收录标准,则将页面提交到数据库并存储在云数据存储硬盘中。如果不符合条件,则删除。
⑨当用户搜索某个关键词时,为了减少查询时间,搜索引擎会将部分相关性较高的内容放到临时缓存中。
⑩浏览器只向用户展示部分缓存。
⑪对于存储在硬盘中的页面,搜索引擎会定期根据网站的权重判断该页面是否更新,是否达到标准放入缓存区。如果搜索引擎在判断是否有更新时发现网站页面被删除,或者该网页不符合收录的条件,也会被删除。
参考文献:
搜索引擎优化的原理是什么
SEO从业者必须了解搜索引擎的工作原理
二、网络爬虫。
一)从爬虫的角度划分互联网
互联网上的所有网页都可以分为五个部分:
1、已下载但未过期的网页
2、downloaded 过期网页
抓取的网页实际上是互联网内容的镜像和备份。互联网是动态变化的,互联网上的一些内容已经发生了变化。此时,抓取的网页已过期。
3、待下载页面
URL 队列中要抓取的那些页面
4、所有页面
没有被抓取,也不在待抓取的URL队列中,但可以通过分析抓取的页面或待抓取的URL对应的页面来获取该URL,认为是已知网站页面。
5、unknowable 网页
爬虫无法直接抓取下载。
二)爬虫的爬取策略
1、深度优先策略
深度优先遍历策略是指网络爬虫会从起始页开始,逐个跟踪每一个链接,处理完这一行后再转移到下一个起始页,继续跟踪链接。以下图为例,经过的路径:A-F-G E-H-I B C D.
2、广度优先遍历策略
广度优先遍历策略的基本思想是将新下载的网页中找到的链接直接插入到待抓取的URL队列的末尾。即网络爬虫会先抓取起始网页中链接的所有网页,然后选择其中一个链接的网页,继续抓取该网页中链接的所有网页。以上图为例,遍历路径:A-B-C-D-E-F G H I
3、Backlink 号码策略
反向链接数是指从其他网页链接到某个网页的数量。反向链接的数量表示网页内容被他人推荐的程度。因此,很多时候搜索引擎的爬取系统都会使用这个指标来评估网页的重要性,从而决定不同网页的爬取顺序。
在真实的网络环境中,由于广告链接、作弊链接的存在,反向链接数不能完全等于重要程度。因此,搜索引擎往往考虑一些可靠的反向链接数。
4、Partial PageRank 策略
部分PageRank算法借鉴了PageRank算法的思想:对于下载的网页,连同要爬取的URL队列中的URL,组成一个网页集,计算每个页面的PageRank值,经过计算,要爬取的URL队列中的URL按照PageRank值的大小排列,按这个顺序爬取页面。
如果每次抓取一个页面,就重新计算PageRank值,一种折中方案是:每抓取K个页面后,重新计算一次PageRank值。但是这种情况还会有一个问题:对于已经下载下来的页面中分析出的链接,也就是我们之前提到的未知网页那一部分,暂时是没有PageRank值的。为了解决这个问题,会给这些页面一个临时的PageRank值:将这个网页所有入链传递进来的PageRank值进行汇总,这样就形成了该未知页面的PageRank值,从而参与排序。
5、OPIC 策略
该算法实际上对页面的重要性进行评分。在算法开始之前,给所有页面相同的初始*敏*感*词*(cash)。下载某个页面P后,将P的*敏*感*词*分配给所有从P分析的链接,并清除P的*敏*感*词*。待抓取的 URL 队列中的所有页面均按*敏*感*词*数量排序。
6、大站优先战略
所有需要爬取的 URL 队列中的网页都按照它们所属的 网站 进行分类。 网站有大量页面需要下载,优先下载。因此,这种策略被称为大站优先策略。
参考文献:
网络爬虫的基本原理(一)