搜索引擎优化师( 2-1搜索引擎的发展、现状和趋势发展发展历程)
优采云 发布时间: 2021-10-04 09:26搜索引擎优化师(
2-1搜索引擎的发展、现状和趋势发展发展历程)
2-1 搜索引擎的发展、现状和趋势
发展路径:
第一代:分类目录时代。1994年4月,美国斯坦福大学的两名博士生杨志远和大卫·菲洛共同创立了雅虎。
第二代:文本检索时代,搜索引擎查询信息通过用户输入的查询信息提交给服务器,服务器通过查询向用户返回一些相关度高的信息,如Alta Vista;
第三代:综合分析时代。外链的形式和今天的网站基本一致。当时,外链代表了一种推荐。通过每个网站的推荐链接数来判断一个网站的受欢迎程度和重要性。然后搜索引擎结合网页内容的重要性和相似性来提高用户搜索的信息质量。该模型的第一个用户是谷歌,并取得了巨大的成功;
起源:谷歌和百度现在是一种搜索引擎。1990年,加拿大麦吉尔大学计算机学院师生开发了Archie。那时万维网还没有出现,人们使用FTP来共享和交流资源。Archie 可以定期采集和分析FTP 服务器上的文件名信息,并提供查找每个FTP 主机中的文件。用户必须输入准确的文件名进行搜索,Archie 会告诉用户哪个 FTP 服务器可以下载该文件。Archie采集的信息资源虽然不是网页(HTML文件),但它和搜索引擎的基本工作方式是一样的:自动采集信息资源,建立索引,提供检索服务,所以被认为是搜索的鼻祖引擎;
2018年8月,谷歌全球市场份额为92.12%,位居榜首。百度排名第四,市场份额1.17%;
2018年8月,百度国内市场份额为77.88%,位居榜首。360搜索排名第二,市场份额8.18%;
第四代:以用户为中心的时代,当输入相同的查询请求关键词时,用户背后可能会有不同的查询需求。如果输入是“Apple”,你是要找 iPhone 还是水果?即使是同一个用户,和关键词一样,也会因为时间和场合的不同,返回不同的结果。各大搜索引擎都在致力于解决相同的问题:如何从用户输入的短关键词中获取,确定用户的真实查询请求。移动互联网搜索的必然使命是提供精准的个性化搜索;
畅想未来:
未来的搜索引擎应该能够回答任何问题。使用搜索引擎时,用户不必考虑先搜索什么,然后再搜索什么。用户不需要学习如何搜索,而应该像向好友提问一样。搜索应该更像对话,更容易、更自然,而不是有固定的搜索方法。
结合人工智能(AI),人工智能可以处理复杂的任务,分析一系列用户习惯、用户数据和用户行为,并根据位置、时间、个人爱好、需求等上下文优化个人推荐和建议。瓶颈,从而确保搜索结果匹配的相关性迅速增加。比如你想买房,它会根据你的经济状况、周边学校要求、娱乐需求、工作喜好等因素,带你到你理想的房子,让你不用四处张望.
第五代:生活生态的搜索时代,也就是万物互联的互联网+时代,搜索空间更广阔,搜索无处不在,比如远程看孩子、老人,或者寻找走失的孩子,包括厘米精度的 GPS 定位。比如你去一个陌生的地方,找厕所,找警察,你甚至可能会找东西,比如饭什么时候煮,餐厅给你打电话等等;
百度,全球最大的中文搜索引擎,于2000年1月在北京中关村成立。公司名称来源于宋词“千百度找他”,“熊掌”图标的创意由此而来来自“猎人巡逻熊掌”的刺激,与李彦宏的“解析搜索技术”非常相似,构成了百度的搜索理念。它最终成为百度的图标形象。从最初的不到10人,百度于2001年10月22日正式发布百度搜索引擎。到2015年,拥有近5万名员工,现已成为中国搜索市场的佼佼者;
2-2 搜索引擎排名的原理和流程
搜索引擎从用户搜索到最终搜索结果显示的步骤为(以百度为例):
对于爬虫,百度不知道你的网站,你怎么排名?所以要让百度知道你,首先要经过爬虫这一步;
过滤,过滤掉低质量的页面内容;
索引,只有符合条件的页面才会被存储;
处理,处理搜索词,如中文特定分词,去除停用词,判断是否开始整合搜索,判断是否有拼写错误或错别字。
排名,向用户展示优质页面;
2-2-1排名原则的蜘蛛
蜘蛛:
l 搜索引擎发送的用于在互联网上寻找新网页并对其进行抓取的程序称为蜘蛛。它从一个已知的数据库开始,像普通用户的浏览器一样访问这些网页,并跟踪网页中的链接以访问更多的网页,这个过程称为爬行;l 蜘蛛对站点的遍历爬取策略分为深度优先和广度优先。
根据爬取目标和范围,可分为
批量爬虫:清除爬取目标和范围,到达停止;
增量爬虫:针对网页不断更新的状态,爬虫需要及时响应。一般商用发动机一般都属于这种类型;
垂直爬虫:只针对特定领域的爬虫,按主题过滤;
2-2-2 爬取排序原则
百度官方蜘蛛爬取过程中的策略
1、 抓取友好性。同一站点在一段时间内的爬取频率和流量是不同的,即错开不断调整正常用户访问高峰,避免被抓到过大影响。网站正常用户访问行为。
2、常用抓取返回码,如503,404,403,301等;
3、 多个URL重定向的识别,如http 30x、meta refresh redirect和js重定向,Canonical标签也可以看作是变相的重定向;
4、 抢优先级分配,如深度优先遍历策略、广度优先遍历策略、pr优先策略、反链策略、大站优先策略等;
5、 重复URL过滤,包括URL规范化识别,例如一个URL收录大量无效参数但实际上是同一个页面;
6、暗网数据采集,搜索引擎暂时无法抓取的数据,如存在于网络数据库中,或由于网络环境,网站不符合规范,或孤岛等抓到了,比如百度的“阿拉丁”项目;
7、抓取反作弊,抓取过程中经常会遇到所谓的抓取黑洞或者大量低质量页面的烦恼,这就需要抓取系统也设计一个完整的抓取反作弊系统. 如分析url特征,分析页面大小和内容,分析爬取规模对应的站点规模等;
蜘蛛感兴趣的页面有 3 种类型:
1.一个从未被爬过的新页面。
2.已被抓取但内容已更改的页面。
3.已被抓取但现在已被删除的页面。
蜘蛛不能/不喜欢爬行的内容:
1.页面被机器人拦截;
2.图片、视频、flash中的内容;
3.js,iframe框架,表格嵌套;
4.蜘蛛被服务器拦截;
5.孤岛页面(无任何导入链接);
6. 登录后可以获得的内容;
2-2-3 排序原则的过滤
四种近似重复页面:
l1. 完全重复页面:内容和版面格式没有区别;
l2. 重复内容页面:内容相同,但布局格式不同;
l3. 布局重复页面:部分重要内容相同,布局格式相同;
l4.有些重复的页面有些重要的内容是一样的,但是布局格式不同;
低质量内容页面:
Ø1.多个URL地址指向同一个网页和镜像站点,比如有www和没有www同时解析为一个网站;
Ø2.网页内容重复或接近重复,如采集的内容,文字不正确或垃圾邮件;
Ø 没有丰富的内容,如纯图片页面或搜索引擎无法识别的页面内容;
过滤-如何处理重复文档:
ü1. 删除低质量内容
ü2. 高质量重复文档先分组展示(高重复性表示欢迎)
2-2-4 排名原则索引
l1. 用户查询时得到的结果不及时。它们排列在搜索引擎的缓存区。在处理用户查询请求时,他们会根据词典对请求进行切分。每一个关键词对应的URL排名都会先计算出来并存入索引数据库中。这就是倒排索引,即以文档的关键词为索引,以文档为索引对象(与普通书籍类似,索引为关键词,页面为该书是索引目标);
l 如果页面被剪成单词p={p1, p2, p3,..., pn},会在索引库中反映如右图(仅供理解,并非如此)
l 索引更新策略:通过完全重构策略、重新合并策略、原位更新策略、混合策略等,不断更新索引;
处理:
l1.分析用户的搜索意图,看是导航性、信息性还是交易性,从而提供准确的搜索结果。假设用户在搜索时可能没有想到合适的搜索词,或者关键词输入错误,这时候就需要帮助用户明确搜索意图(相关搜索,查询纠错)。
l2.提取关键词,代码去噪只留下文本,去除公共区域等非文本关键词,去除“的”和“在”等停用词,然后通过分词系统 将这篇文章分成一个分词列表存入数据库,并与其URL一一对应;
l3. 内容检索,通过布尔模型、向量空间模型、概率模型、语言模型、机器学习排名等检索模型计算网页与查询的相关性;
l 4.链接分析,通过分析计算得到的分数来评价网页的重要性。
补充知识:
1.重要信息分析,利用网页代码(如H标签、强标签)、关键词密度、内链锚文本等分析本网页最重要的词组;Ø网页重要性分析,通过指向该页面的外链锚文本传递的权重值,结合“重要信息分析”,为该页面确定一个权重值,建立关键词@中的每一个关键词 > 设置本页的 p 排名因子的可能性。
2-2-6 排序原理的查询/排序
查询服务:
l1. 根据查询方式用关键词切词。首先将用户搜索到的关键词划分为关键词的序列,暂时用q表示,然后将用户搜索到的关键词q划分为q={q1,q2 , q3 ,..., qn}。然后根据用户的查询方式,比如所有单词是否连在一起或者中间是否有空格,并根据q中关键词的不同词性,确定每个单词在q中的显示查询结果。占有的重要性。
l2. 对搜索结果进行排序。我们有搜索词集q,q-index库中每一个关键词对应的URL排名,也根据用户的查询方式和部分查询结果计算每一个关键词在查询结果中的显示语音上面的占有率很重要,那么只需要一点点综合排序算法,搜索结果就出来了。
l3. 只需将上述搜索结果和文档摘要展示给用户即可;
通过常见现象猜测百度的算法:
在搜索的时候,经常会发现百度显示在用户搜索词的周围。有时候词条比较长,或者多翻几页,会看到一些结果,因为目标页面本身并不完全收录搜索词,但是在百度上,页面上的红字只是一部分搜索词。是否可以理解为,当搜索词没有完全收录时,百度会优先考虑在分词结果中百度认为更重要的词?Ø 有时页面上会出现多次搜索词出现时,只显示搜索结果页面的一部分,而且通常是连续的,可以理解为百度会优先显示该部分页面它考虑的是搜索词中最重要的部分?
2-3 百度蜘蛛3.0
百度蜘蛛3.0对seo的影响:
l1. 爬取建库比较快,所以应该缩短优化周期,包括更新、微调、改版等。之前改版用了3个月,现在可能调整1月。
l2. 死链接处理更及时。优化时应及时发现死链接(包括错误页面、被黑页面、无内容页面等),并提交百度站长工具及时删除,防止死链接断电。
l3.关注优质原创内容,给予保护和排名优先展示权,因此我们应主动更新优质原创内容并积极提交。
l 主动提交4.的链接有以下四种方式,可以根据自己的情况选择;
2016年6月,百度官方宣布Spider从2.0升级为3.0。此次升级,是将目前的离线全计算系统改造为全时增量计算系统。实时调度系统,万亿级数据实时读写,90%网页可读写,速度提升80%!Ø这说明搜索更注重时效性。比如主动提交的数据平均爬取时间比爬虫的发现时间早4个小时,而且提交的收录也很快,这样页面更新速度就快了,可能不会马上做. 好排名,但如果你不做任何改变,一旦发现它会更及时地更新。毕竟,
2-4 常用搜索引擎的高级命令
l 双引号(英文):搜索词完全匹配,如["software"],结果必须收录software;
l 减号:减号后面不收录单词,前面有空格,后面没有,如[Software-Jiangsu];
lInurl:用于搜索url中出现查询词的页面,如[inurl:dingjianseo];
intitle:搜索到的页面标题收录关键词,如[intitle:software];
allinurl:页面URL收录多组关键词,如[allinurl:dingjianseo seo];
allintitle:页面标题收录多组关键词,如[allintitle:你好江苏];
文件类型:搜索特定文件格式。比如[filetype:pdf seo]就是一个收录seo的pdf文件;
Site/Domain:搜索类似的收录域名和外部链接,如site:;
高级搜索命令可以组合使用,如intitle:software inurl:dingjianseo;
内容为《常州江东》原创文章,本站可能不是首次发表,原文地址: