搜索引擎优化 知乎( 搜索引擎是如何工作的读书笔记:用户中心一代推荐关系)
优采云 发布时间: 2021-09-12 14:12搜索引擎优化 知乎(
搜索引擎是如何工作的读书笔记:用户中心一代推荐关系)
搜索引擎的工作原理
阅读笔记1:“这是一个搜索引擎”
第一:什么是搜索引擎?搜索引擎是一个庞大而复杂的计算机程序,它通过互联网采集信息,对其进行组织和处理,以提供用户查询服务(如百度、谷歌、好搜、搜狗等)
第二:搜索引擎的重要性!包括阿里巴巴集团旗下的电商平台,eBay,亚马逊都可以说是搜索引擎,但对于整个互联网来说,都是现场的,都在为用户提供有价值的信息。
第三:搜索引擎发展史!
史前时代:编目时代
采集和组织网页的纯手动方法。雅虎和hao123是这个时代的代表作品,所以这类网页一般都是网站,质量更高;此外,hao123 还用作搜索引擎的*敏*感*词*站点。开始爬取网络上的信息,然后我们就可以利用这个来让我们的网站离*敏*感*词*站尽可能近,这样网站就可以尽可能多地暴露在网络爬虫面前。
第一代:文本检索生成
网页的文本相关性,例如布尔模型、向量空间模型和概率模型用于确定查询关键字的相关性。早些年,这也是关键词对网站行列的堆叠如此有效的原因。什么是关键词密度等等,现在通过实践发现关键词如果出现就ok了。至于是否刻意安排密度等,对于排名提升来说已经不是那么重要了。
第二代:链接分析生成
Web 链接表示推荐关系。一个网站被引用的次数越多,这个网站对搜索引擎的重要性就越大,相当于投票成为领导者。成为leader之后,那你一定要改变相对于别人的某个部分,这很重要,这就是为什么和群软件有这么多联系的原因。比如那个bug群发邮件在当时就非常有名。当然,现在链接还是很重要的,尤其是高质量的外链。
第三代:以用户为中心的一代
用户中心代我理解搜索引擎会根据网站的流量动态调整网站的关键词排名,比如点击率、停留时间、pv、uv、ip等,以及前3项作为基础排名根据数据,我们往往不是针对原创,而是针对解决用户需求;这一时期的软件以数百种强奸装置为首,非常受欢迎。今天百度的clicker还是很给力的,不推荐; SEO应该以输出更多更好的内容和更丰富的内容呈现形式为基础,为用户和搜索引擎提供有价值的内容。
阅读笔记2:《搜索引擎原理_技术与系统》
一、搜索引擎检索及要求
1.对搜索引擎的基本要求:毫秒级快速响应,匹配相关结果。
2、搜索引擎:大型网络应用软件,分布式计算,高效索引和存储技术。 (搜索引擎大部分时间使用高效的索引和存储技术,而不是每天都在与 SEO 对抗)。
3.搜索引擎的目的:为用户提供相关网页或其他信息(知识、新闻、视频...)。
4.匹配:收录某种形式的搜索词的网页或其他信息。而要生成一个列表,也就是排序,我们最关心的。
5、用户输入简单不规则:简单意味着抽象,抽象意味着更多可能性(例如:苹果、手机、*敏*感*词*)搜索结果丰富多样。
6.为什么搜索引擎会提供相关搜索和下拉框?
7.用户行为:直到您找到它,才再次读取所有内容。基本上,用户的查询不会超过2页,所以搜索引擎应该在2页上展示尽可能多的可能性。
二、网络采集
1、[免费]数据(实时或预先采集):预先采集。
2、Spider(岗位职责):Spider是一种下载网页的小程序。
3.调度(提高效率):控制蜘蛛抓取的内容、抓取页面的频率等。
4.定期采集还是增量采集:搜索引擎是否定期采集,即大更新,增量采集是根据每个网站的更新速度。
5.搜索引擎更新周期(一个月?15天?)
6.*敏*感*词*站点(中心页面):搜索引擎首先从*敏*感*词*站点开始抓取。*敏*感*词*站有大量网站指向高质量的网站,例如“好123”网址。
7、深度优先/广度优先:深度优先是首页-栏目页面-内容页面,沿着链接爬取内容到深度;广度优先是先抓取栏目页,再抓取内容页。
8.搜索引擎使用的爬取机制:robots规则,在根目录添加robots.txt文件。
9.搜索引擎更新机制(更新快照):让搜索引擎认为是原创或伪原创加速更新。
10、sitemap(网站Map):添加好东西收录适合网站资料很棒,收录少的网站,网站map会让蜘蛛找一大堆一个页面上的网址,作用是吸引蜘蛛深度捕捉。
11、实时更新(搜索引擎/自有数据库):搜索引擎无法保证,所以有时网站的标题和摘要会发生变化,但不会实时显示。
三、网页预处理
网页预处理的一般流程:
1.提取关键词(去除噪声):噪声是网页中不重要的部分,与网站主题无关,例如广告,通常由框架和JS调用。
2.切词去除停用词:例如停用词是情态词,基本上是网上出现的词。
3.消除镜像网页(一模一样):镜像网页与两个页面完全一样,所以设置伪静态后,必须使用robots文件禁用动态网址,同时可以防止蜘蛛黑洞。
4.转贴(额外的一些编辑,称为近似镜像页面):搜索引擎会过滤掉这些(垃圾页面),如转贴、抄袭、采集等不利于SEO优化。
5.链接分析(记录链接位置、相关性、锚文本):定义有效链接:标准a标签;会计算此链接与当前页面的相关性,如果不相关,则很容易归类为噪声部分。
6、网页重要性计算(用的越多越重要):引用越多越重要,即外链(因素之一)。
7、索引创建:前排索引(page to 关键词)倒排索引(关键词 to page)。
四、查询界面
预处理后得到的网页表达形式:
1、原页面、url、标题;你看不到的:文档号,关键词集合和权重位置信息(词法位置),其他一些指标 原来的网页是你的网页打不开,但是一个snapshot可以打开,这个是原创页面
2、网页的重要性:引用了多少个小网页
3、网页分类(导航、需求、信息):导航分类查询:比如不记得网址,就这样去官方网站搜索,比如“QQ下载”就是需求类型;信息比如搜索“SEO”是什么意思”...
4、查询词处理(切词、获取分类、排序) 搜索引擎可以进行切词,然后结合关键词同时出现用户搜索需求页面。
5、全文索引(不限于标题)。
6、pr算法。
7、文档摘要(动态摘要)。