百度搜索引擎优化指南40(Google的搜索引擎太智能?缓存NO,NO[NO])
优采云 发布时间: 2022-04-05 04:03百度搜索引擎优化指南40(Google的搜索引擎太智能?缓存NO,NO[NO])
谷歌:打电话给古尔,
. 这是一个很大的数字~ 扩展表明谷歌的索引量很大。Python
科学家估计宇宙中的原子数为
,如果统计是基于最小的基本粒子(夸克、电子、光子等),同时考虑暗物质和暗能量,换算应该不超过
. 程序员
你知道谷歌的 Chrome 是如何在几分之一秒内找到数千甚至数亿条搜索结果的吗?算法
你们,或多或少了解数据库之类的字符串匹配算法
字符串匹配算法时间复杂度:浏览器
BF 顺序匹配 O(m*n) BF 优化是 RK 哈希 O(n) KMP(在数据结构中非常有名) BM(比 KMP 效率高 3 到 4 倍)
特里树交流自动机
看 TA 的时间复杂度,你就知道,在几分之一秒内找到上千甚至上亿条搜索结果是绝对不可能的。那么谷歌的搜索引擎是不是太聪明了?缓存
NO NO NO [改变自己-王力宏],即使ta的服务器扫描速度很快,也不可能做到这一点。如果做到了,毫无疑问,发明者已经成功淘汰了程序员物种。【程序员的工作就是自动化,让机器代替人;工作的高峰是用自动化代替自己],咳咳,这有点夸张,理性思考,你会发现一切都有极限,比如,人工智能的极限会让你无法独立思考。事实上,一些人工智能如何NB,很大程度上是人们的主观想象和直觉。你可能不相信,但我会用数字说话,请看下图。服务器
今天的计算机都使用图灵机[一种数学模型],包括正在设计的新计算机,在解决问题的能力上,没有一个超过图灵机的范围。数据结构
人工智能能解决的问题只是世界问题的一小部分。当今世界并没有太多的问题【比如素数的分布,有兴趣的可以看看个人的文章-数论导论】,想办法解决各种问题,与其担心[毕竟你不是哲学家],还怕人工智能太强大。工具
想了解其他部分,可以看另外一篇个人博客·密码学鉴赏帖
AI的边界也是极限~
说起搜索引擎,肯定有惊天动地的秘密,对于我们这种对算法复杂度要求很高的人来说,是非常有吸引力的。但谷歌的 Ak-47 是如何实现的呢?? 答:> 非常简单,二进制和逻辑运算(布尔代数)!哈。二进制+逻辑运算?? 确认??
当然,我的一言一行,我确信有科学的实现方法+数据。
当然,科学并不等同于正确的结论,科学甚至不承认存在绝对正确的普遍真理。TA只是寻求更好结论的过程,是我们看待世界的方式之一。但是,与巫术、神谕、灵感相比,科学是迄今为止我们所掌握的对我们这个世界的各种规律最准确的描述,它可以发现规律,不断改进方法。
首先介绍一个概念---量化【搜索引擎能匹配的原因】
高中学过的布尔代数,应该不会忘记的吧,呵呵,计算机专业的肯定不会。例如,和,或,不是。布尔代数在计算机上的应用是在 1938 年。香农博士在硕士论文中指出,布尔代数可以实现开关电路,并且四种算术运算,取幂、平方根、积分等,都可以转化为二进制布尔价值观。布尔值使计算机具有“量化”的功能,即将一个连续的状态扩展为一个离散的状态,从连续到分离。
二、引入一个概念---索引【搜索引擎能快速找到大量网页的原因】
如果我们去图书馆借书,直接让管理员查卡,然后找到ta所在的位置,带回家比较合理。除了小型图书馆,没有太多人去图书馆的书架上找当地的书。
每个搜索引擎都是布尔运算的模型框。
搜索引擎的索引采用图论中的Traverse算法。
概念解释清楚了,我们来看看搜索引擎是如何实现这个想法的。我也觉得Python的完成就是写一个自己的垂直搜索引擎,加油加油~
搜索引擎的本质是一个不断运行的爬虫,爬取的数据始终存储在数据库中。
我们的库就等于数据库,搜索卡就等于数据库的查询语句(SQL)。搜索引擎会自动将用户查询关键字转换为布尔运算。比如搜索栏输入的“原子能”对应的二进制数是00001...,这个长二进制数是最简单的索引,ta表示2、th5、文章9、第 1 条0、第 16 条收录此关键字。[0,表示没有,1表示匹配到这个文件,每一位表示一个文件]
计算机的布尔运算速度非常快。当今最便宜的微型计算机可以在一个指令周期内执行 32 位布尔运算,每秒超过数十亿次。因为这些二进制数大多为0,为了节省空间,只存储1位。
因此,搜索引擎的索引是一张大表,表的一行对应一个关键字,关键字后面跟着一个长二进制数。
介绍完毕,正式开始。ps 要使用Chrome,需要VPN,如果没有,可以阅读我的其他博客工具。
ps在设置里,把搜索引擎改成百度等,在搜索框中输入中文即可。如果不调整,需要使用VPN,否则无法访问!!
谷歌语法和关键字优化搜索
谷歌查找书籍。
查找信息很容易。但是搜索引擎ta找到的量太大了,所以我们可以根据内置的规则进行过滤,减少不必要的时间和精力。现在,让我们找一本书,看图片。标题:未来概况
让我们下载电子版来编写未来档案+ pdf并尝试一下。
0.在 59 秒内找到数亿。
让我们用双引号再试一次“Profiles of the Future + pdf”
加上双引号,只有 30 个,魔术。
搜索文章
象征
功能
格式
+
搜索结果收录+后的关键字
未来概况 +pdf
-
搜索结果不收录 - 关键字后
未来概况-pdf
~
搜索同义词,结果会增长
测试~测试
.
替换要匹配的字符
蟒蛇.3
*
贪婪策略,匹配所有角色
Python *
" "
强调引号内的内容
“未来概况 + pdf”
全文
页面正文匹配:关键字之后
allintext:未来概况
allintitle
页面标题匹配:关键字之后
allintext:未来概况
缓存
缓存以补偿 CPU 和内存速度
缓存:
定义
查找一些定义=关键字的 URL
定义中华人民共和国
文件类型
指定文件格式
文件类型:pdf
信息
查找有关给定 URL 的基本信息
信息:
关联
查看连接的 URL
关联:
有关的
返回首页链接的内容
关联:
地点
区域搜索
地点 :
inurl
结果是相关内容的 URL
inurl : 鲁迅
安利资讯:Google Mirror 和 Google Grammar
ps 在镜像站,不用打开VPN就可以访问国外的网站非常方便。
另外,在镜像站点搜索youtube后,不要登录新界面。镜像:顾名思义,它缓存浏览器爬取的网页。
谷歌语法示例
[更新中...]