读书笔记：搜索引擎的发展史，你知道吗？

优采云发布时间: 2021-04-29 18:10

　　读书笔记：搜索引擎的发展史，你知道吗？

　　阅读笔记1：“这是一个搜索引擎”

　　首先：什么是搜索引擎？搜索引擎是一个庞大而复杂的计算机程序，它通过Internet采集信息，对其进行组织和处理以提供用户查询服务（例如百度，谷歌，好搜，搜狗等）。

　　第二：搜索引擎的重要性！包括阿里巴巴集团，eBay和Amazon旗下的电子商务平台都可以说是搜索引擎，但是对于整个Internet来说，它们都是现场的，它们都为用户提供了有价值的信息。

　　第三：搜索引擎的发展历史！

　　史前时代：目录时代

　　采集和整理网页的纯手工方法。 Yahoo和hao123是这个时代的代表作品，因此这些类型的网页通常质量更高；通过扩展，hao123还用作搜索引擎的*敏*感*词*站点。开始从Internet爬网信息，然后我们可以使用它使网站尽可能靠近*敏*感*词*站点，使网站尽可能暴露于Web爬网程序。

　　第一代：文本检索生成

　　使用网页的文本相关性，例如布尔模型，向量空间模型和概率模型来确定查询关键词的相关性。在早期，这是关键词相对网站排名如此有效的原因。关键词等的密度是多少？现在，通过练习，发现关键词似乎不错。至于是否有意安排密度等，对于排名的提高并不那么重要。

　　第二代：链接分析生成

　　Web链接表示推荐关系。引用网站的次数越多，网站对于搜索引擎的重要性就越大，这相当于投票作为领导者。成为领导者后，必须将“相对”更改为其他部分的某个部分，这一点很重要，这就是为什么与组软件的连接如此之多的原因。例如，错误组邮件在当时非常有名。当然，链接现在仍然非常重要，尤其是高质量的外部链接。

　　第三代：以用户为中心

　　用户中心生成我了解搜索引擎会根据网站的访问量（例如点击率，停留时间，pv，uv，ip等）动态调整网站的关键字排名。前3个项用作基本排名根据数据，我们通常不针对原创，而是针对解决用户需求；在数百种强奸设备的引导下，这一时期的软件非常受欢迎。今天，百度的点击器仍然很强大，不建议使用； SEO应基于输出更多更好的内容和更丰富的内容表示形式，并为用户和搜索引擎提供有价值的内容。

　　阅读说明2：“搜索引擎原理_技术和系统”

　　首先，搜索引擎的检索和要求

　　1。搜索引擎的基本要求：毫秒级快速响应并匹配相关结果。

　　2，搜索引擎：大型网络应用软件，分布式计算，高效的索引和存储技术。（搜索引擎大多数时候都使用高效的索引和存储技术，而不是每天都在使用SEO。）

　　3。搜索引擎的目的：向用户提供相关的网页或其他信息（知识，新闻，视频...）。

　　4。匹配：收录某种形式的搜索字词的网页或其他信息。为了生成列表（即排序），我们最关心的是

　　。

　　5，用户输入既简单又不规则：简单意味着抽象，抽象意味着更多的可能性（例如：苹果，手机，*敏*感*词*），搜索结果丰富多样。

　　6。为什么搜索引擎提供相关的搜索和下拉框？

　　7。用户行为：在找到它之前，不会再次读取所有内容。基本上，用户的查询不会超过2页，因此搜索引擎应该在2页上显示尽可能多的可能性。

　　第二，网络采集

　　1，[免费]数据（实时或预先采集）：预先采集。

　　2，蜘蛛程序（负责任的工作）：蜘蛛程序是一个下载网页的小程序。

　　3。计划（提高效率）：控制抓取工具，抓取页面的频率等。

　　4。定期采集或增量采集：搜索引擎是否定期采集（即大更新），增量采集取决于每个网站的更新速度。

　　5。搜索引擎更新周期（一个月？15天？）

　　6。*敏*感*词*网站（中心页面）：搜索引擎首先从*敏*感*词*网站开始爬网。*敏*感*词*站点具有大量指向高质量网站网站的站点，例如“ hao123” URL。

　　7，深度优先/深度优先：深度优先是首页-列页面内容页面，沿着链接到深度爬行内容；广度首先是首先获取列页面，然后获取内容页面。

　　8。搜索引擎使用的爬网机制是：漫游器规则，将robots.txt文件添加到根目录中。

　　9。搜索引擎更新机制（更新快照）：让搜索引擎认为加快更新速度是原创或伪原创。

　　10，站点地图（网站地图）：添加收录好东西，适合网站信息大，收录少网站，网站地图允许蜘蛛在上找到大量URL一页，其作用是吸引蜘蛛进行深入捕获。

　　11，实时更新（搜索引擎/自己的数据库）：搜索引擎无法保证，因此网站的标题和摘要有时会更改，但不会实时显示。

　　三，网页预处理

　　网页预处理的一般过程：

　　1，关键词的提取（消除噪音）：噪音是网页的不重要部分，与网站的主题无关，例如广告，通常由框架和JS调用

　　2。切词并删除停用词：例如，停用词是情态词，基本上是出现在Internet上的词。

　　3。消除镜像网页（完全相同）：镜像网页与两个页面完全相同，因此设置伪静态后，必须使用robots文件禁用动态URL，同时，它可以防止蜘蛛黑洞。

　　4。重新发布（额外的少量编辑，称为近似镜像页面）：搜索引擎会将这些内容过滤掉（垃圾页面），例如重新发布，gi窃，采集等，这不利于SEO优化。

　　5。链接分析（记录链接位置，相关性，锚文本）：定义有效链接：标准a标签；将计算此链接与当前页面的相关性，如果不相关，则很容易将其归类为“噪声部分”。

　　6，网页重要性计算（越重要越重要）：引用越多越重要，即外部链接（因素之一）。

　　7，创建索引：正面索引（到关键词的页面）倒排索引（到关键词的页面）。

　　四个查询界面

　　预处理后获得的网页表达形式：

　　1，原创页面，URL，标题；无法看到的内容：文档编号，关键词采集和重量位置信息（词汇位置），其他一些指示符原创网页是您的网页无法打开，但可以打开快照，这是原创页面

　　2，网页的重要性：引用了多少个小型网页

　　3。网页类别（导航，需求，信息）：导航类别查询：例如，如果您忘记了URL，请按如下所示进入官方搜索网站，例如“ QQ下载”是需求类型；该信息例如搜索“ SEO”是什么意思” ...

　　4。查询词处理（切词，获取分类，排序）搜索引擎可以切词，然后组合关键词以在用户搜索需求页面的同时出现。

　　5，全文索引（不限于标题）。

　　6，pr算法。

　　7，文档摘要（动态摘要）。

　　相关文章：搜索引擎的原理_技术和系统Google SEO |英语SEO |外国SEO招聘如何采集阿里国际站关键词商店橱窗奖金效果测试想法Excel 关键词快速分组工具

0

2021-04-29

seo优化搜索引擎工作原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

读书笔记：搜索引擎的发展史，你知道吗？

0 个评论

发起人