读书笔记:搜索引擎的发展史,你知道吗?

优采云 发布时间: 2021-04-29 18:10

  读书笔记:搜索引擎的发展史,你知道吗?

  阅读笔记1:“这是一个搜索引擎”

  首先:什么是搜索引擎?搜索引擎是一个庞大而复杂的计算机程序,它通过Internet采集信息,对其进行组织和处理以提供用户查询服务(例如百度,谷歌,好搜,搜狗等)。

  第二:搜索引擎的重要性!包括阿里巴巴集团,eBay和Amazon旗下的电子商务平台都可以说是搜索引擎,但是对于整个Internet来说,它们都是现场的,它们都为用户提供了有价值的信息。

  第三:搜索引擎的发展历史!

  史前时代:目录时代

  采集和整理网页的纯手工方法。 Yahoo和hao123是这个时代的代表作品,因此这些类型的网页通常质量更高;通过扩展,hao123还用作搜索引擎的*敏*感*词*站点。开始从Internet爬网信息,然后我们可以使用它使网站尽可能靠近*敏*感*词*站点,使网站尽可能暴露于Web爬网程序。

  第一代:文本检索生成

  使用网页的文本相关性,例如布尔模型,向量空间模型和概率模型来确定查询关键词的相关性。在早期,这是关键词相对网站排名如此有效的原因。 关键词等的密度是多少?现在,通过练习,发现关键词似乎不错。至于是否有意安排密度等,对于排名的提高并不那么重要。

  第二代:链接分析生成

  Web链接表示推荐关系。引用网站的次数越多,网站对于搜索引擎的重要性就越大,这相当于投票作为领导者。成为领导者后,必须将“相对”更改为其他部分的某个部分,这一点很重要,这就是为什么与组软件的连接如此之多的原因。例如,错误组邮件在当时非常有名。当然,链接现在仍然非常重要,尤其是高质量的外部链接。

  第三代:以用户为中心

  用户中心生成我了解搜索引擎会根据网站的访问量(例如点击率,停留时间,pv,uv,ip等)动态调整网站的关键字排名。前3个项用作基本排名根据数据,我们通常不针对原创,而是针对解决用户需求;在数百种强奸设备的引导下,这一时期的软件非常受欢迎。今天,百度的点击器仍然很强大,不建议使用; SEO应基于输出更多更好的内容和更丰富的内容表示形式,并为用户和搜索引擎提供有价值的内容。

  阅读说明2:“搜索引擎原理_技术和系统”

  首先,搜索引擎的检索和要求

  1。搜索引擎的基本要求:毫秒级快速响应并匹配相关结果。

  2,搜索引擎:大型网络应用软件,分布式计算,高效的索引和存储技术。 (搜索引擎大多数时候都使用高效的索引和存储技术,而不是每天都在使用SEO。)

  3。搜索引擎的目的:向用户提供相关的网页或其他信息(知识,新闻,视频...)。

  4。匹配:收录某种形式的搜索字词的网页或其他信息。为了生成列表(即排序),我们最关心的是

  。

  5,用户输入既简单又不规则:简单意味着抽象,抽象意味着更多的可能性(例如:苹果,手机,*敏*感*词*),搜索结果丰富多样。

  6。为什么搜索引擎提供相关的搜索和下拉框?

  7。用户行为:在找到它之前,不会再次读取所有内容。基本上,用户的查询不会超过2页,因此搜索引擎应该在2页上显示尽可能多的可能性。

  第二,网络采集

  1,[免费]数据(实时或预先采集):预先采集。

  2,蜘蛛程序(负责任的工作):蜘蛛程序是一个下载网页的小程序。

  3。计划(提高效率):控制抓取工具,抓取页面的频率等。

  4。定期采集或增量采集:搜索引擎是否定期采集(即大更新),增量采集取决于每个网站的更新速度。

  5。搜索引擎更新周期(一个月?15天?)

  6。*敏*感*词*网站(中心页面):搜索引擎首先从*敏*感*词*网站开始爬网。*敏*感*词*站点具有大量指向高质量网站网站的站点,例如“ hao123” URL。

  7,深度优先/深度优先:深度优先是首页-列页面内容页面,沿着链接到深度爬行内容;广度首先是首先获取列页面,然后获取内容页面。

  8。搜索引擎使用的爬网机制是:漫游器规则,将robots.txt文件添加到根目录中。

  9。搜索引擎更新机制(更新快照):让搜索引擎认为加快更新速度是原创或伪原创

  10,站点地图(网站地图):添加收录好东西,适合网站信息大,收录少网站,网站地图允许蜘蛛在上找到大量URL一页,其作用是吸引蜘蛛进行深入捕获。

  11,实时更新(搜索引擎/自己的数据库):搜索引擎无法保证,因此网站的标题和摘要有时会更改,但不会实时显示。

  三,网页预处理

  网页预处理的一般过程:

  1,关键词的提取(消除噪音):噪音是网页的不重要部分,与网站的主题无关,例如广告,通常由框架和JS调用

  2。切词并删除停用词:例如,停用词是情态词,基本上是出现在Internet上的词。

  3。消除镜像网页(完全相同):镜像网页与两个页面完全相同,因此设置伪静态后,必须使用robots文件禁用动态URL,同时,它可以防止蜘蛛黑洞。

  4。重新发布(额外的少量编辑,称为近似镜像页面):搜索引擎会将这些内容过滤掉(垃圾页面),例如重新发布,gi窃,采集等,这不利于SEO优化。

  5。链接分析(记录链接位置,相关性,锚文本):定义有效链接:标准a标签;将计算此链接与当前页面的相关性,如果不相关,则很容易将其归类为“噪声部分”。

  6,网页重要性计算(越重要越重要):引用越多越重要,即外部链接(因素之一)。

  7,创建索引:正面索引(到关键词的页面)倒排索引(到关键词的页面)。

  四个查询界面

  预处理后获得的网页表达形式:

  1,原创页面,URL,标题;无法看到的内容:文档编号,关键词采集和重量位置信息(词汇位置),其他一些指示符原创网页是您的网页无法打开,但可以打开快照,这是原创页面

  2,网页的重要性:引用了多少个小型网页

  3。网页类别(导航,需求,信息):导航类别查询:例如,如果您忘记了URL,请按如下所示进入官方搜索网站,例如“ QQ下载”是需求类型;该信息例如搜索“ SEO”是什么意思” ...

  4。查询词处理(切词,获取分类,排序)搜索引擎可以切词,然后组合关键词以在用户搜索需求页面的同时出现。

  5,全文索引(不限于标题)。

  6,pr算法。

  7,文档摘要(动态摘要)。

  相关文章:搜索引擎的原理_技术和系统Google SEO |英语SEO |外国SEO招聘如何采集阿里国际站关键词商店橱窗奖金效果测试想法Excel 关键词快速分组工具

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线