搜索引擎优化创始人(“搜索引擎核心技术”的开源全文搜索框架及解决办法！)

优采云发布时间: 2022-01-28 18:07

　　什么是“搜索引擎核心技术”？

　　可以用作搜索引擎的技术太多了；做搜索引擎要解决的问题太多了，哪个才是“核心”？

　　最早的搜索引擎是雅虎；最初的搜索引擎是直接抓取网页，然后利用“全文搜索”技术返回收录用户查询的网页链接关键词（现在，现成的开源全文搜索框架有这么多很多，您可以自己构建一个。）

　　但是这个初级“搜索引擎”的问题在于它不知道哪个文章更好。

　　雅虎也尝试了一些改进，比如按词频排序。但效果并不好：说白了，谁提到你要搜索的词多，就会先显示给你——如果你想知道“搜索引擎”是什么，那么文章中提到“ search engine" 50 times "这个词的文章应该比只提到一次的文章更符合你的需求。

　　然而，这被认为是理所当然的。特别是……如果我想让我的文章在用户在这种搜索引擎中搜索“搜索引擎”时排名第一，就这样作弊：

　　搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎

　　因此，随着互联网内容的爆炸式增长，引擎列出了越来越多不相关的垃圾邮件。

　　之后有人提到李彦宏的专利：美国专利：5920859

　　用于检索与查询索引相关的文档的搜索引擎

　　这些文件按照超链接指向那些文件。文件

　　indexer遍历超文本数据库，找到超文本信息

　　包括超链接指向的文档地址和

　　每个超链接的锚文本。信息存储在一个倒置的

　　index 文件，也可用于计算文档链接向量

　　每个指向特定文档的超链接。输入查询时，

　　搜索引擎找到所有收录文档的文档向量

　　查询其锚文本中的术语。还计算了一个查询向量，并且

　　查询向量和每个文档链接向量的点积是

　　计算出来的。将与特定文档相关的点积相加

　　确定每个文档的相关性排名。

　　简单地说，它根据指向同一文档的链接数对文档进行排序；然后在搜索时返回排名较高的。

　　这很容易理解，就像学术文件一样，越重要、越核心，被引用的次数越多。

　　而且，过去那样“自作多情”也没用。别人说好就真的好——这明显比yahoo plan要高很多。

　　但是……每个做过站长的人都知道什么是“交换链接”和“为什么交换链接很重要”……然后，就有一门灰色的科学叫做“SEO”。

　　此外，中国有句古话叫“高人寡”。

　　这句话是什么意思？就是说绝大多数人都是庸俗的，他们更喜欢“酒富贵”，而不是高冷的专业知识……

　　因此，当你搜索“三点透视”时，链接最多的往往不是“绘画技巧”而是三个习俗……（我可能已经发现了“你搜索的任何女孩都会显示黄*敏*感*词*片”背后的真相...)

　　你看，这也行不通。

　　至少，截至第七届WWW大会，与PageRank的差距是巨大的。

　　———————————————————————————

　　有人认为，谷歌的创始人佩奇和布林在 1998 年国际互联网大会上听到了李彦宏的演讲，受到启发，申请了自己的页面排名算法专利。

　　然而，实际上，第七届国际互联网大会于1998年4月14日至18日召开；而page rank专利是在1998年1月申请的——看来Page和Brin也发明了时间机器，就是不知道为什么他们没有为时间机器申请专利。

　　在这样的故事中，佩奇和布林总是被形容为“坐在第七个www会场听李彦宏讲课的两个傻孩子”，听完李彦宏的教诲后，他们相当好学，也有上进心向李彦宏求教。

　　但实际上，佩奇和布林才是第七届www大会的主角。

　　继佩奇和布林的开创性论文之后，谷歌团队又有哪些经典作品进入了万维网的视野？

　　首届首尔测试时间奖于 2015 年授予谷歌创始人拉里佩奇和谢尔盖布林，以表彰他们在 1998 年 Web 搜索引擎第七届 WWW 大会上发表的论文“*敏*感*词*超文本剖析”。

　　事实上，佩奇和布林当时问李彦宏的就是“如何将搜索引擎商业化”的问题——一点社交经验可能会让你微笑：这显然是在测试潜在的竞争对手是否有任何商业计划。

　　———————————————————————————

　　如前所述，布林和佩奇是第七届互联网大会的主角。

　　原因是他们在这次会议上宣读了一篇文章文章，这里是一个比较粗略的中文翻译：

　　大型超文本 Web 搜索引擎剖析

　　我们可以看到，在这个文章中，他们揭示了google搜索引擎的整体结构，包括PageRank算法的基本原理！

　　这是互联网历史上具有里程碑意义的时刻；说这是人类历史上的一个关键时刻未免有些夸张。

　　——不知道说“第7届www大会，佩奇和布林听李彦宏讲课”的人是不是在装忠诚谦逊的李彦宏。不过大家都知道，在第7届www大会上，李彦宏一定是看到了佩奇和布林仿佛明月般照亮夜空的那一刻，为参会者掀起了“月星稀有”。

　　这是页面排名专利内容：美国专利：6285999

　　一种方法将重要性等级分配给链接数据库中的节点，例如

　　任何收录引文的文档数据库、万维网或任何

　　其他超媒体数据库。计算分配给文档的排名

　　从引用它的文件的行列中。另外，文档的等级

　　由一个常数计算得出，该常数表示浏览器出现的概率

　　通过数据库会随机跳转到文档。方法是

　　在增强搜索引擎结果的性能方面特别有用

　　对于超媒体数据库，例如万维网，其文档具有

　　质量差异很大。

　　它的想法是首先估计链接数据库中链接的“重要性级别”；然后用链接本身的重要性来估计它所指向的文章的质量——这也很容易理解，被爱因斯坦引用的文章肯定比我引用的那个更可靠。

　　同样的，一个网站越可靠、越认真，它所链接的文章的质量就越高：反之亦然，只要和别人交换链接，垃圾邮件越多网站交换链接，您的估值越低。

　　不仅。知识的生产总是从某一点开始，然后以星状辐射。

　　因此，例如对于TCP这个词，最权威的网站是RFC；RFC是纯文本，不链接任何场外文档；但是，世界上所有关于 TCP 的权威文章都必须引用 RFC 。

　　同样，当互联网上出现一个热点时，这个热点往往是由一个或几个文章/videos触发的；那么，位于源头的文章/videos被他人引用和传播……引用者/扩散者很可能会留下原创出处的链接（其实“转载一定要注明出处”是最基本的互联网道德要求）；分析这些链接的引用关系可以识别出处。

　　这种“在互联网上的分布”是极其难以作弊的——至少，依靠不够大的个人或组织是不可能深刻影响互联网宏观结构的。

　　然后，分析链接的重要性，分析链接之间的引用关系，找出“知识中心点”或“来源”；它的文章必须是最权威的，最适合用户需求的。

　　更上一层楼，有的转发者知名度高，有的擅长从浅到深的科普，有的转发者可以让枯燥的事情变得有趣……除了引用更权威的资料外，还成为重要的转发来源和让自己成为“次权威”——似乎很少有人能看懂相对论/量子论，但大家都赶上了霍金的《时间简史》：这些作品当然也应该上热搜结果。

　　PageRank就是这样一种“分析互联网链接趋势，找到关键节点并对其进行评分”的算法。

　　因此，佩奇和布林声称他们“给互联网带来了秩序”并不谦虚。

　　（不过，个人观点：这会不会导致“马太效应”，进而促成目前互联网“巨人通吃”的现状？）

　　盲人可以看到这个想法的含金量。

　　当然，专利说的很简短。例如，程序如何自动找出哪个网站是重要的？甚至，如何让程序自动发现，对于某个关键字，一个网站比另一个网站更重要？这里需要天才利用数学知识来寻找算法（PageRank算法本身有数学证明，有兴趣可以搜索一下）。

　　另外可以看出，仅这两个专利列出的参考文献中，就收录了很多来自1965、1978、1988、1996的研究：do Academia是这样的，开始从头开始并独立支持少数领域；更重要的是，雅虎从 1994 年就已经存在。虽然它还没有完全解决问题，但雅虎并不是一个平庸无能的人：即使每个人都“受过”雅虎的启发，但到了该把它变成鱼的时候了肚皮，好像不太礼貌。

　　我这里只关注“返回内容排名”的研究；但是要快速分析互联网上近乎无限多的链接，近乎实时地更新他们的PageRank，同时响应数十亿人的查询……要解决的问题是More，绝对不是可以在一瞬间完成的事情。

　　事实上，佩奇和布林早在 1996 年就建立了一个名为 BackRub 的搜索引擎，并将其放在斯坦福大学的服务器上。BackRub因其搜索质量超越了当时所有的商业搜索引擎，在校园内深受学生欢迎；但是因为太占带宽，最后还是被斯坦福大学从服务器上拉下来了。

　　1997年，搜索引擎名称改为google；1998年9月成立——众所周知，这两个穷鬼在车库里做事，使用的是Tao的旧服务器：为了在旧服务器上运行google，他们开始分布式MapReduce；为了方便海量数据的索引存储，他们开始了GFS和BigTable（后来发展成为近几年的热点之一，NoSQL数据库）；终于，这三项技术引爆了方兴未艾。“大数据革命”。

　　与这三种“基石”技术相比，页面排名并不是那么重要。

　　谷歌*敏*感*词*：世界上最大的搜索引擎出自车库

　　你看，我太忙了，我真的没有时间去复制曲高和寡妇在1997年2月申请的专利。

　　———————————————————————————

　　综上所述，可以看出“搜索引擎”本身的门槛并不高；尤其是现在有很多全文搜索引擎，比如lucene；知乎也有很多“python写爬虫”教程——爬取数据并扔到全文搜索引擎，你可以在自己的电脑上搭建一个搜索引擎。

　　如果你的要求不需要像谷歌那么高，不难找到一套适合你的现成开源解决方案：

　　下载、部署，您自己的搜索引擎上线。

　　如果追求更高点，PageRank、BigTable、MapReduce等论文也是公开的，也有开源实现（如gluster、hadoop等），还可以借助google获得200x与十年前相比，现在的硬件一团糟。

　　那么为什么世界上没有一大堆搜索引擎呢？

　　因为：

　　1、Google 发展太快了。没有人能跟得上它。

　　尽管google已经公布了bigtable、mapreduce等三大法宝，但最成功、最知名的replica依然是yahoo支持的开源项目Hadoop；但 Hadoop 的执行效率与 google 还是相差甚远。

　　更重要的是，现在的谷歌不仅长期依赖pagerank算法——他们的TPU不仅仅是为围棋AI设计的。

　　2、先发优势与成本门槛

　　即使你可以跟上谷歌，搜索引擎也有很多用户粘性。

　　然后，互联网现在太大了。要实现谷歌的索引完善和服务能力，所需的服务器数量和存储空间是非常恐怖的；这么大的投资未必（甚至绝不能）能够抢占到谷歌的市场……

0

2022-01-28

搜索引擎优化创始人

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化创始人(“搜索引擎核心技术”的开源全文搜索框架及解决办法！)

0 个评论

发起人