搜索引擎优化创始人(“搜索引擎核心技术”的开源全文搜索框架及解决办法!)
优采云 发布时间: 2022-01-28 18:07搜索引擎优化创始人(“搜索引擎核心技术”的开源全文搜索框架及解决办法!)
什么是“搜索引擎核心技术”?
可以用作搜索引擎的技术太多了;做搜索引擎要解决的问题太多了,哪个才是“核心”?
最早的搜索引擎是雅虎;最初的搜索引擎是直接抓取网页,然后利用“全文搜索”技术返回收录用户查询的网页链接关键词(现在,现成的开源全文搜索框架有这么多很多,您可以自己构建一个。)
但是这个初级“搜索引擎”的问题在于它不知道哪个 文章 更好。
雅虎也尝试了一些改进,比如按词频排序。但效果并不好:说白了,谁提到你要搜索的词多,就会先显示给你——如果你想知道“搜索引擎”是什么,那么文章中提到“ search engine" 50 times "这个词的文章应该比只提到一次的文章更符合你的需求。
然而,这被认为是理所当然的。特别是……如果我想让我的文章在用户在这种搜索引擎中搜索“搜索引擎”时排名第一,就这样作弊:
搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎 搜索引擎
因此,随着互联网内容的爆炸式增长,引擎列出了越来越多不相关的垃圾邮件。
之后有人提到李彦宏的专利:美国专利:5920859
用于检索与查询索引相关的文档的搜索引擎
这些文件按照超链接指向那些文件。文件
indexer遍历超文本数据库,找到超文本信息
包括超链接指向的文档地址和
每个超链接的锚文本。信息存储在一个倒置的
index 文件,也可用于计算文档链接向量
每个指向特定文档的超链接。输入查询时,
搜索引擎找到所有收录文档的文档向量
查询其锚文本中的术语。还计算了一个查询向量,并且
查询向量和每个文档链接向量的点积是
计算出来的。将与特定文档相关的点积相加
确定每个文档的相关性排名。
简单地说,它根据指向同一文档的链接数对文档进行排序;然后在搜索时返回排名较高的。
这很容易理解,就像学术文件一样,越重要、越核心,被引用的次数越多。
而且,过去那样“自作多情”也没用。别人说好就真的好——这明显比yahoo plan要高很多。
但是……每个做过站长的人都知道什么是“交换链接”和“为什么交换链接很重要”……然后,就有一门灰色的科学叫做“SEO”。
此外,中国有句古话叫“高人寡”。
这句话是什么意思?就是说绝大多数人都是庸俗的,他们更喜欢“酒富贵”,而不是高冷的专业知识……
因此,当你搜索“三点透视”时,链接最多的往往不是“绘画技巧”而是三个习俗……(我可能已经发现了“你搜索的任何女孩都会显示黄*敏*感*词*片”背后的真相...)
你看,这也行不通。
至少,截至第七届WWW大会,与PageRank的差距是巨大的。
———————————————————————————
有人认为,谷歌的创始人佩奇和布林在 1998 年国际互联网大会上听到了李彦宏的演讲,受到启发,申请了自己的页面排名算法专利。
然而,实际上,第七届国际互联网大会于1998年4月14日至18日召开;而page rank专利是在1998年1月申请的——看来Page和Brin也发明了时间机器,就是不知道为什么他们没有为时间机器申请专利。
在这样的故事中,佩奇和布林总是被形容为“坐在第七个www会场听李彦宏讲课的两个傻孩子”,听完李彦宏的教诲后,他们相当好学,也有上进心向李彦宏求教。
但实际上,佩奇和布林才是第七届www大会的主角。
继佩奇和布林的开创性论文之后,谷歌团队又有哪些经典作品进入了万维网的视野?
首届首尔测试时间奖于 2015 年授予谷歌创始人拉里佩奇和谢尔盖布林,以表彰他们在 1998 年 Web 搜索引擎第七届 WWW 大会上发表的论文“*敏*感*词*超文本剖析”。
事实上,佩奇和布林当时问李彦宏的就是“如何将搜索引擎商业化”的问题——一点社交经验可能会让你微笑:这显然是在测试潜在的竞争对手是否有任何商业计划。
———————————————————————————
如前所述,布林和佩奇是第七届互联网大会的主角。
原因是他们在这次会议上宣读了一篇文章文章,这里是一个比较粗略的中文翻译:
大型超文本 Web 搜索引擎剖析
我们可以看到,在这个文章中,他们揭示了google搜索引擎的整体结构,包括PageRank算法的基本原理!
这是互联网历史上具有里程碑意义的时刻;说这是人类历史上的一个关键时刻未免有些夸张。
——不知道说“第7届www大会,佩奇和布林听李彦宏讲课”的人是不是在装忠诚谦逊的李彦宏。不过大家都知道,在第7届www大会上,李彦宏一定是看到了佩奇和布林仿佛明月般照亮夜空的那一刻,为参会者掀起了“月星稀有”。
这是页面排名专利内容:美国专利:6285999
一种方法将重要性等级分配给链接数据库中的节点,例如
任何收录引文的文档数据库、万维网或任何
其他超媒体数据库。计算分配给文档的排名
从引用它的文件的行列中。另外,文档的等级
由一个常数计算得出,该常数表示浏览器出现的概率
通过数据库会随机跳转到文档。方法是
在增强搜索引擎结果的性能方面特别有用
对于超媒体数据库,例如万维网,其文档具有
质量差异很大。
它的想法是首先估计链接数据库中链接的“重要性级别”;然后用链接本身的重要性来估计它所指向的文章的质量——这也很容易理解,被爱因斯坦引用的文章肯定比我引用的那个更可靠。
同样的,一个网站越可靠、越认真,它所链接的文章的质量就越高:反之亦然,只要和别人交换链接,垃圾邮件越多网站交换链接,您的估值越低。
不仅。知识的生产总是从某一点开始,然后以星状辐射。
因此,例如对于TCP这个词,最权威的网站是RFC;RFC是纯文本,不链接任何场外文档;但是,世界上所有关于 TCP 的权威 文章 都必须引用 RFC 。
同样,当互联网上出现一个热点时,这个热点往往是由一个或几个文章/videos触发的;那么,位于源头的文章/videos被他人引用和传播……引用者/扩散者很可能会留下原创出处的链接(其实“转载一定要注明出处”是最基本的互联网道德要求);分析这些链接的引用关系可以识别出处。
这种“在互联网上的分布”是极其难以作弊的——至少,依靠不够大的个人或组织是不可能深刻影响互联网宏观结构的。
然后,分析链接的重要性,分析链接之间的引用关系,找出“知识中心点”或“来源”;它的文章必须是最权威的,最适合用户需求的。
更上一层楼,有的转发者知名度高,有的擅长从浅到深的科普,有的转发者可以让枯燥的事情变得有趣……除了引用更权威的资料外,还成为重要的转发来源和让自己成为“次权威”——似乎很少有人能看懂相对论/量子论,但大家都赶上了霍金的《时间简史》:这些作品当然也应该上热搜结果。
PageRank就是这样一种“分析互联网链接趋势,找到关键节点并对其进行评分”的算法。
因此,佩奇和布林声称他们“给互联网带来了秩序”并不谦虚。
(不过,个人观点:这会不会导致“马太效应”,进而促成目前互联网“巨人通吃”的现状?)
盲人可以看到这个想法的含金量。
当然,专利说的很简短。例如,程序如何自动找出哪个 网站 是重要的?甚至,如何让程序自动发现,对于某个关键字,一个网站 比另一个网站 更重要?这里需要天才利用数学知识来寻找算法(PageRank算法本身有数学证明,有兴趣可以搜索一下)。
另外可以看出,仅这两个专利列出的参考文献中,就收录了很多来自1965、1978、1988、1996的研究:do Academia是这样的,开始从头开始并独立支持少数领域;更重要的是,雅虎从 1994 年就已经存在。虽然它还没有完全解决问题,但雅虎并不是一个平庸无能的人:即使每个人都“受过”雅虎的启发,但到了该把它变成鱼的时候了肚皮,好像不太礼貌。
我这里只关注“返回内容排名”的研究;但是要快速分析互联网上近乎无限多的链接,近乎实时地更新他们的PageRank,同时响应数十亿人的查询……要解决的问题是More,绝对不是可以在一瞬间完成的事情。
事实上,佩奇和布林早在 1996 年就建立了一个名为 BackRub 的搜索引擎,并将其放在斯坦福大学的服务器上。BackRub因其搜索质量超越了当时所有的商业搜索引擎,在校园内深受学生欢迎;但是因为太占带宽,最后还是被斯坦福大学从服务器上拉下来了。
1997年,搜索引擎名称改为google;1998年9月成立——众所周知,这两个穷鬼在车库里做事,使用的是Tao的旧服务器: 为了在旧服务器上运行google,他们开始分布式MapReduce;为了方便海量数据的索引存储,他们开始了GFS和BigTable(后来发展成为近几年的热点之一,NoSQL数据库);终于,这三项技术引爆了方兴未艾。“大数据革命”。
与这三种“基石”技术相比,页面排名并不是那么重要。
谷歌*敏*感*词*:世界上最大的搜索引擎出自车库
你看,我太忙了,我真的没有时间去复制曲高和寡妇在1997年2月申请的专利。
———————————————————————————
综上所述,可以看出“搜索引擎”本身的门槛并不高;尤其是现在有很多全文搜索引擎,比如lucene;知乎也有很多“python写爬虫”教程——爬取数据并扔到全文搜索引擎,你可以在自己的电脑上搭建一个搜索引擎。
如果你的要求不需要像谷歌那么高,不难找到一套适合你的现成开源解决方案:
下载、部署,您自己的搜索引擎上线。
如果追求更高点,PageRank、BigTable、MapReduce等论文也是公开的,也有开源实现(如gluster、hadoop等),还可以借助google获得200x与十年前相比,现在的硬件一团糟。
那么为什么世界上没有一大堆搜索引擎呢?
因为:
1、Google 发展太快了。没有人能跟得上它。
尽管google已经公布了bigtable、mapreduce等三大法宝,但最成功、最知名的replica依然是yahoo支持的开源项目Hadoop;但 Hadoop 的执行效率与 google 还是相差甚远。
更重要的是,现在的谷歌不仅长期依赖pagerank算法——他们的TPU不仅仅是为围棋AI设计的。
2、先发优势与成本门槛
即使你可以跟上谷歌,搜索引擎也有很多用户粘性。
然后,互联网现在太大了。要实现谷歌的索引完善和服务能力,所需的服务器数量和存储空间是非常恐怖的;这么大的投资未必(甚至绝不能)能够抢占到谷歌的市场……