java抓取网页数据(SEO初学必读:搜索引擎的排名原理解析的原理图解)
优采云 发布时间: 2021-12-31 22:17java抓取网页数据(SEO初学必读:搜索引擎的排名原理解析的原理图解)
SEO初学者必读:搜索引擎排名原理分析
搜索引擎排名原理*敏*感*词*
一、什么是搜索引擎
百度、360、谷歌、搜搜、必应、雅虎等都是搜索引擎的具体表现形式。具体解释可以去百度,这里不再赘述。
二、什么是搜索引擎蜘蛛
搜索引擎蜘蛛是一种搜索引擎程序,是一套信息抓取系统程序。
常见的蜘蛛有百度蜘蛛、Gllglebot、360Spider、搜狗新闻蜘蛛等
三、什么是SEO
Seo 指的是搜索引擎优化,也称为 网站 优化。
搜索引擎优化并不容易。在数百万甚至数千万的竞争者中,我们的目标不是进入前百,而是力争前十,甚至第一。这对于seo初学者来说可能是一个梦想,但在seo的核心,我们的目标是让这个梦想成真。
四、什么是关键词?
关键词 是指参与排名的每一个词组。
从某种意义上说,seo优化也是关键词排名优化。 关键词优化的直接体现就是网站标题的排名(由关键词组成);从另一方面来说,每个标题的排名就是标题所收录的页面的排名。
理论上,每个页面都有参与排名的机会。所以网站排名的最小单位就是页面。
五、搜索引擎爬取收录原理(四个过程)
1、抢
2、过滤
3、存储索引库
4、显示排序
搜索引擎抓取收录流程图
蜘蛛爬取——网站页面——存放在临时索引库中——排名状态(从索引库中检索)
评论:
临时索引库不存储蜘蛛爬取的所有网站页面,
他会根据蜘蛛抓取的页面质量进行过滤,过滤掉一些质量较差的页面,
质量好的页面按页面质量排序,
最后是我们看到的排名情况
有人可能会问为什么我的网站没有收录
主要原因之一是网站的页面质量差,被搜索引擎过滤掉,所以不被百度接受收录。
(一)搜索引擎抓取:
1、爬虫SPider通过网页中的超链接,在互联网上发现和采集网页信息
2、如何抓取蜘蛛
1)深度爬取(垂直抓取,先爬取某列的内容页,然后换列,同样的方式爬取)
2)宽爬(横向爬取,先爬取各个版块,再爬取各个版块页面下方的内容页)
3、不利于蜘蛛识别的内容
js代码、iframe框架代码机制、图片(添加alt属性辅助识别)、flash(视频前后添加文字辅助搜索引擎识别)、登录后可获取的页面信息、嵌套表、等
网站结构:首页——栏目页——内容详情页
(二)搜索引擎过滤
过滤低质量的内容页面
什么是低质量内容页面?
1、采集,内容价值低
2、文字内容不正确
3、没有丰富的内容
(三)搜索引擎存储索引库
过滤蜘蛛爬取的内容后,将内容存入临时数据索引库。
(四)搜索引擎显示排名
存储索引库的内容按照质量排序,然后调用显示给用户。
1、搜索者根据用户输入的查询快速检索索引库中的文档关键词,评估文档与查询的相关性,对输出结果进行排序,并进行比较查询结果显示给用户。
2、当我们在搜索引擎上只看到一个结果时,根据各种算法对搜索进行排序,将十个质量最好的结果放在第一页
seo 优化的日常注意事项:
1、不要随意删除或移动已经收录的页面位置
2、显示结果需要一定的时间(2个月内是正常的)
3、内容丰富
4、吸引蜘蛛(主动提交给搜索引擎,外链)
5、跟踪蜘蛛,网站IIS 日志