搜索引擎优化创始人(“搜索引擎核心技术”的开源全文搜索框架及解决办法!)
优采云 发布时间: 2021-09-29 13:01搜索引擎优化创始人(“搜索引擎核心技术”的开源全文搜索框架及解决办法!)
什么是“核心搜索引擎技术”?
可以用作搜索引擎的技术太多了;做搜索引擎要解决的问题太多了。哪一个被认为是“核心”?
第一个搜索引擎是雅虎;原来的搜索引擎直接抓取网页,然后利用“全文搜索”技术返回收录用户查询的网页链接关键词(现在,现成的开源全文搜索框架有这么多,你可以自己做一个)。
但是,这种一流的“搜索引擎”存在一个问题,就是不知道文章哪篇文章更好。
雅虎也尝试了一些改进,比如按词频排序。但效果并不好:说白了,谁提到你想搜索的词越多,它就会给你第一优先权——如果你想知道“搜索引擎”是什么,那么一篇文章提到“搜索引擎” 50次“文章这个词应该比文章文章只提到一次更符合你的需求。
然而,这是理所当然的。特别是...如果我想在这种搜索引擎中让自己成为这个文章,当用户搜索“搜索引擎”时,我只需要像这样作弊:
搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎搜索引擎 搜索引擎 搜索引擎 搜索引擎
因此,随着互联网内容的爆炸式增长,越来越多的无关垃圾内容被该引擎收录。
之后提到了李彦宏的专利:美国专利:5920859
用于检索与查询索引相关的文档的搜索引擎
文件按照指向这些文件的超链接。这
indexer 遍历超文本数据库,查找超文本信息
包括超链接指向的文档地址和
每个超链接的锚文本。信息存储在一个倒置的
索引文件,它也可用于计算文档链接向量
每个指向特定文档的超链接。输入查询时,
搜索引擎查找具有以下特征的文档的所有文档向量
锚文本中的查询词。还计算了查询向量,并且
查询向量和每个文档链接向量的点积是
计算。与特定文档相关的点积相加
以确定每个文档的相关性排名。
简单的说,就是按照指向同一个文档的链接数对文档进行排序;然后返回在搜索中排名较高的那些。
这个很容易理解,就像学术文献一样,越重要越核心,引用越多。
而且,像过去那样“自暴自弃”也没有用,别人说好就真的好——这显然比雅虎的计划高出很多。
但是...做过站长的人都知道什么是“交换链接”和“为什么交换链接很重要”... 然后,有一种灰色科学叫做“SEO”。
而且,中国有句古话叫“曲高寡妇”。
这句话是什么意思?这意味着,大多数人都是庸俗的,他们更喜欢“酒精财富”而不是高冷的专业知识……
所以在搜索“三点透视”的时候,链接最多的往往不是“图文技巧”,而是三共……(我可能已经发现了“你搜索的一切都会给你一张黄*敏*感*词*片”背后的真相。。 .)
你看,这个方法也行不通。
至少,截止到第七届 WWW 大会的时候,与 PageRank 的差距是巨大的。
———————————————————————————
有人认为,谷歌创始人佩奇和布林在 1998 年国际互联网大会上听到了李彦宏的演讲,受到启发,申请了自己的页面排名算法专利。
但实际上,第七届国际互联网大会是在1998年4月14日至18日举行的;而page rank专利是在1998年1月申请的。看来Page和Brin也发明了时间机器。我不知道他们为什么不为时光机申请专利。
在这类故事中,佩奇和布林总是被形容为“两个傻孩子坐在第 7 届 www 会议会场听李彦宏的讲座”,听完李彦宏的教导后,他们颇受教育,有动力向罗宾求教李。.
但实际上,Page 和 Brin 是第七届 www 大会的主角。
在佩奇和布林的第一篇论文之后,谷歌团队的哪部经典作品进入了 WWW 大会的视野?
首届“Seoul Test-of-Time Award”于 2015 年授予 Google 创始人 Larry Page 和 Sergey Brin,以纪念他们在 1998 年第七届 WWW 大会上发表的论文“The Anatomy of a Large-Scale Hypertextual”。Web 搜索引擎。
其实当时佩奇和布林问李彦宏“如何实现搜索引擎商业化”的问题——一点点社会经验可能会让你微笑:这显然是在测试潜在竞争对手是否有业务计划。
———————————————————————————
如前所述,布林和佩奇是第七届互联网大会的主角。
原因是他们在这次会议上阅读了一篇文章的文章。这是一个相当粗略的中文翻译:
大型超文本网络搜索引擎剖析
我们可以看到,在这个文章中,他们揭示了谷歌搜索引擎的整体结构,包括PageRank算法的基本原理!
这是互联网历史上具有里程碑意义的时刻;甚至,可以毫不夸张地说,这是人类历史上的一个关键时刻。
——不知道“佩奇和布林在第七届www.大会上听了李彦宏的演讲”的故事是不是对李彦宏的忠诚的伪装。不过,谁都知道,在第7届www大会上,李彦宏一定是看到了Peppa和Brin仿佛月亮照亮了夜空,掀起了会众“星光稀少”的时刻。
这是专利内容的页面排名: 美国专利:6285999
一种方法为链接数据库中的节点分配重要性等级,例如
任何收录引文、万维网或任何文件的数据库
其他超媒体数据库。计算分配给文档的等级
从引用它的文件的行列。此外,文档的等级
是根据一个常数计算的,该常数表示浏览器
通过数据库会随机跳转到文档。方法是
在提高搜索引擎结果的性能方面特别有用
对于超媒体数据库,例如万维网,其文档具有
质量差异较大。
它的思路是先估计链接数据库中链接的“重要程度”;然后用链接本身的重要性来估计它指向的文章的质量——这个也好理解,由爱因斯坦引用的文章肯定比我引用的可靠得多。
同理,网站越可靠、越认真,它所链接的文章质量就越高:反之亦然。只是和别人交换链接,你的垃圾邮件越多网站交换链接,你的估值就越低。
不仅。知识的产生总是从某个点开始,然后呈星状辐射。
所以,对于TCP这样的词,最权威的网站就是RFC;RFC 为纯文本,不链接任何场外文档;然而,世界上所有关于 TCP 文章 的权威都必须引用 RFC。.
同样,当一个热点出现在网络上时,这个热点往往是由一个或几个文章/videos触发的;那么,出处的文章/video 被其他人引用和传播…… 引用/扩散者很可能会留下原创出处的链接(其实“转载一定要注明出处” ”是最基本的互联网道德要求);通过分析这些链接的引用关系,可以确定出处。
这种“分布在互联网上”是极难作弊的——至少,依靠规模不够大的个人或组织,并不能深刻影响互联网的宏观结构。
然后,分析链接的重要性,分析链接之间的引用关系,找出这个“知识中心”或“来源”;它的文章一定是最权威的,最符合用户需求的。
再上一层,有的转发者知名度高,有的转发者擅长由浅入深的科普,有的转发者可以让无聊的事情变得有趣……除了引用更权威的信息,他们也将成为重要的来源转发,让自己成为“副权威”——看来相对论/量子论很少有人能读懂,但大家都跟风看霍金的《时间简史》:这些作品,当然应该也被搜索排在了结果的前列。
PageRank就是这样一种“分析互联网链接趋势,找到关键节点并对其进行评分”的算法。
因此,佩奇和布林声称他们“给互联网带来了秩序”一点也不谦虚。
(不过,个人观点:这会不会导致“马太效应”,进而助长目前互联网“巨头通吃”的现状?)
盲人可以看出这个想法有多丰富。
当然,专利中所说的非常简短。例如,程序如何自动找出哪个网站是重要的?甚至,程序如何自动发现对于某个关键字,某个网站 比另一个网站 更重要?这需要天才利用数学知识找出算法(PageRank算法本身是经过数学证明的,有兴趣的可以搜索一下)。
另外可以看出,仅在这两个专利所列出的参考文献中,包括了1965、1978、1988、1996等多年的许多研究:这是对于学者来说,从零开始独立支持一个领域的人屈指可数;再说,雅虎在1994年就已经存在了,虽然还没有彻底解决问题,但雅虎也不是无能的一代:即使大家都“受其影响”受雅虎的启发,但到了把它做成肚皮的时候,似乎没有人是礼貌的。
这里我只专注于“返回内容排序”的研究;但需要快速分析互联网上几乎无穷无尽的链接,近乎实时地更新他们的PageRank,同时响应数十亿人的查询请求……要解决的问题是可以解决的。太多了,短时间内是做不完的。
事实上,Page 和 Brin 早在 1996 年就创建了一个名为 BackRub 的搜索引擎,并将其放置在斯坦福大学的服务器上。BackRub 在学生中很受欢迎,因为它的搜索质量超过了当时所有商业搜索引擎;但因为太耗带宽,最终被斯坦福大学从服务器上移除。
1997年,搜索引擎名称改为google;1998年9月成立——众所周知,这两个穷鬼在车库里搞事情,他们用的是淘来的旧服务器:为了在旧服务器上跑google,他们做了分布式MapReduce;并且为了方便海量数据的索引存储,他们做了GFS和BigTable(后来发展成近年来的热点之一,NoSQL数据库);终于,这三项技术引爆了方兴未艾。“大数据革命”。
与这三个“基石”级别的技术相比,页面排名似乎没有那么重要。
Google Chronicle:来自车库的全球最大搜索引擎_IT新闻_博客园
你看,我很忙,我真的没有时间复制别人在1997年2月申请的专利。
———————————————————————————
综上所述,可以看出“搜索引擎”本身的门槛并不高;尤其是现在有很多全文搜索引擎,比如lucene;知乎上也有很多“python写爬虫”教程——爬取数据扔给全文搜索引擎,在自己的电脑上搭建搜索引擎。
如果你的要求不需要像google那么高,不难为你找到一套现成的开源解决方案:
下载、部署,你自己的搜索引擎就在线了。
如果追求更高的层次,PageRank、BigTable、MapReduce等论文也是开源的,也有开源的实现(比如gluster、hadoop等)加上现在的硬件和十年前相比现在一塌糊涂,你还可以得到一个 200 年历史的谷歌。
那么,为什么世界上没有很多搜索引擎呢?
因为:
1、Google 发展得太快了。没有人能跟得上它。
即使谷歌公布了bigtable和mapreduce的三大法宝,最成功的知名抄袭依然是雅虎支持的开源项目Hadoop;但是 Hadoop 的执行效率与 Google 相比还差得很远。
更重要的是,目前的谷歌长期依赖的不仅仅是pagerank算法——他们的TPU不仅仅是为围棋AI设计的。
2、先发优势和成本门槛
即使你能跟上谷歌,搜索引擎仍然有很大的用户粘性。
那么,现在的互联网太大了。要实现谷歌的索引完善和服务能力,需要的服务器数量和存储空间是非常可怕的;这么大的投资未必能(甚至不能)抢到。到谷歌的市场...