搜索引擎优化创始人(“搜索引擎核心技术”的开源全文搜索框架及解决办法！)

优采云发布时间: 2021-09-29 13:01

　　什么是“核心搜索引擎技术”？

　　可以用作搜索引擎的技术太多了；做搜索引擎要解决的问题太多了。哪一个被认为是“核心”？

　　第一个搜索引擎是雅虎；原来的搜索引擎直接抓取网页，然后利用“全文搜索”技术返回收录用户查询的网页链接关键词（现在，现成的开源全文搜索框架有这么多，你可以自己做一个）。

　　但是，这种一流的“搜索引擎”存在一个问题，就是不知道文章哪篇文章更好。

　　雅虎也尝试了一些改进，比如按词频排序。但效果并不好：说白了，谁提到你想搜索的词越多，它就会给你第一优先权——如果你想知道“搜索引擎”是什么，那么一篇文章提到“搜索引擎” 50次“文章这个词应该比文章文章只提到一次更符合你的需求。

　　然而，这是理所当然的。特别是...如果我想在这种搜索引擎中让自己成为这个文章，当用户搜索“搜索引擎”时，我只需要像这样作弊：

　　搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎

　　因此，随着互联网内容的爆炸式增长，越来越多的无关垃圾内容被该引擎收录。

　　之后提到了李彦宏的专利：美国专利：5920859

　　用于检索与查询索引相关的文档的搜索引擎

　　文件按照指向这些文件的超链接。这

　　indexer 遍历超文本数据库，查找超文本信息

　　包括超链接指向的文档地址和

　　每个超链接的锚文本。信息存储在一个倒置的

　　索引文件，它也可用于计算文档链接向量

　　每个指向特定文档的超链接。输入查询时，

　　搜索引擎查找具有以下特征的文档的所有文档向量

　　锚文本中的查询词。还计算了查询向量，并且

　　查询向量和每个文档链接向量的点积是

　　计算。与特定文档相关的点积相加

　　以确定每个文档的相关性排名。

　　简单的说，就是按照指向同一个文档的链接数对文档进行排序；然后返回在搜索中排名较高的那些。

　　这个很容易理解，就像学术文献一样，越重要越核心，引用越多。

　　而且，像过去那样“自暴自弃”也没有用，别人说好就真的好——这显然比雅虎的计划高出很多。

　　但是...做过站长的人都知道什么是“交换链接”和“为什么交换链接很重要”... 然后，有一种灰色科学叫做“SEO”。

　　而且，中国有句古话叫“曲高寡妇”。

　　这句话是什么意思？这意味着，大多数人都是庸俗的，他们更喜欢“酒精财富”而不是高冷的专业知识……

　　所以在搜索“三点透视”的时候，链接最多的往往不是“图文技巧”，而是三共……（我可能已经发现了“你搜索的一切都会给你一张黄*敏*感*词*片”背后的真相。。 .)

　　你看，这个方法也行不通。

　　至少，截止到第七届 WWW 大会的时候，与 PageRank 的差距是巨大的。

　　———————————————————————————

　　有人认为，谷歌创始人佩奇和布林在 1998 年国际互联网大会上听到了李彦宏的演讲，受到启发，申请了自己的页面排名算法专利。

　　但实际上，第七届国际互联网大会是在1998年4月14日至18日举行的；而page rank专利是在1998年1月申请的。看来Page和Brin也发明了时间机器。我不知道他们为什么不为时光机申请专利。

　　在这类故事中，佩奇和布林总是被形容为“两个傻孩子坐在第 7 届 www 会议会场听李彦宏的讲座”，听完李彦宏的教导后，他们颇受教育，有动力向罗宾求教李。.

　　但实际上，Page 和 Brin 是第七届 www 大会的主角。

　　在佩奇和布林的第一篇论文之后，谷歌团队的哪部经典作品进入了 WWW 大会的视野？

　　首届“Seoul Test-of-Time Award”于 2015 年授予 Google 创始人 Larry Page 和 Sergey Brin，以纪念他们在 1998 年第七届 WWW 大会上发表的论文“The Anatomy of a Large-Scale Hypertextual”。Web 搜索引擎。

　　其实当时佩奇和布林问李彦宏“如何实现搜索引擎商业化”的问题——一点点社会经验可能会让你微笑：这显然是在测试潜在竞争对手是否有业务计划。

　　———————————————————————————

　　如前所述，布林和佩奇是第七届互联网大会的主角。

　　原因是他们在这次会议上阅读了一篇文章的文章。这是一个相当粗略的中文翻译：

　　大型超文本网络搜索引擎剖析

　　我们可以看到，在这个文章中，他们揭示了谷歌搜索引擎的整体结构，包括PageRank算法的基本原理！

　　这是互联网历史上具有里程碑意义的时刻；甚至，可以毫不夸张地说，这是人类历史上的一个关键时刻。

　　——不知道“佩奇和布林在第七届www.大会上听了李彦宏的演讲”的故事是不是对李彦宏的忠诚的伪装。不过，谁都知道，在第7届www大会上，李彦宏一定是看到了Peppa和Brin仿佛月亮照亮了夜空，掀起了会众“星光稀少”的时刻。

　　这是专利内容的页面排名：美国专利：6285999

　　一种方法为链接数据库中的节点分配重要性等级，例如

　　任何收录引文、万维网或任何文件的数据库

　　其他超媒体数据库。计算分配给文档的等级

　　从引用它的文件的行列。此外，文档的等级

　　是根据一个常数计算的，该常数表示浏览器

　　通过数据库会随机跳转到文档。方法是

　　在提高搜索引擎结果的性能方面特别有用

　　对于超媒体数据库，例如万维网，其文档具有

　　质量差异较大。

　　它的思路是先估计链接数据库中链接的“重要程度”；然后用链接本身的重要性来估计它指向的文章的质量——这个也好理解，由爱因斯坦引用的文章肯定比我引用的可靠得多。

　　同理，网站越可靠、越认真，它所链接的文章质量就越高：反之亦然。只是和别人交换链接，你的垃圾邮件越多网站交换链接，你的估值就越低。

　　不仅。知识的产生总是从某个点开始，然后呈星状辐射。

　　所以，对于TCP这样的词，最权威的网站就是RFC；RFC 为纯文本，不链接任何场外文档；然而，世界上所有关于 TCP 文章的权威都必须引用 RFC。.

　　同样，当一个热点出现在网络上时，这个热点往往是由一个或几个文章/videos触发的；那么，出处的文章/video 被其他人引用和传播…… 引用/扩散者很可能会留下原创出处的链接（其实“转载一定要注明出处” ”是最基本的互联网道德要求）；通过分析这些链接的引用关系，可以确定出处。

　　这种“分布在互联网上”是极难作弊的——至少，依靠规模不够大的个人或组织，并不能深刻影响互联网的宏观结构。

　　然后，分析链接的重要性，分析链接之间的引用关系，找出这个“知识中心”或“来源”；它的文章一定是最权威的，最符合用户需求的。

　　再上一层，有的转发者知名度高，有的转发者擅长由浅入深的科普，有的转发者可以让无聊的事情变得有趣……除了引用更权威的信息，他们也将成为重要的来源转发，让自己成为“副权威”——看来相对论/量子论很少有人能读懂，但大家都跟风看霍金的《时间简史》：这些作品，当然应该也被搜索排在了结果的前列。

　　PageRank就是这样一种“分析互联网链接趋势，找到关键节点并对其进行评分”的算法。

　　因此，佩奇和布林声称他们“给互联网带来了秩序”一点也不谦虚。

　　（不过，个人观点：这会不会导致“马太效应”，进而助长目前互联网“巨头通吃”的现状？）

　　盲人可以看出这个想法有多丰富。

　　当然，专利中所说的非常简短。例如，程序如何自动找出哪个网站是重要的？甚至，程序如何自动发现对于某个关键字，某个网站比另一个网站更重要？这需要天才利用数学知识找出算法（PageRank算法本身是经过数学证明的，有兴趣的可以搜索一下）。

　　另外可以看出，仅在这两个专利所列出的参考文献中，包括了1965、1978、1988、1996等多年的许多研究：这是对于学者来说，从零开始独立支持一个领域的人屈指可数；再说，雅虎在1994年就已经存在了，虽然还没有彻底解决问题，但雅虎也不是无能的一代：即使大家都“受其影响”受雅虎的启发，但到了把它做成肚皮的时候，似乎没有人是礼貌的。

　　这里我只专注于“返回内容排序”的研究；但需要快速分析互联网上几乎无穷无尽的链接，近乎实时地更新他们的PageRank，同时响应数十亿人的查询请求……要解决的问题是可以解决的。太多了，短时间内是做不完的。

　　事实上，Page 和 Brin 早在 1996 年就创建了一个名为 BackRub 的搜索引擎，并将其放置在斯坦福大学的服务器上。BackRub 在学生中很受欢迎，因为它的搜索质量超过了当时所有商业搜索引擎；但因为太耗带宽，最终被斯坦福大学从服务器上移除。

　　1997年，搜索引擎名称改为google；1998年9月成立——众所周知，这两个穷鬼在车库里搞事情，他们用的是淘来的旧服务器：为了在旧服务器上跑google，他们做了分布式MapReduce；并且为了方便海量数据的索引存储，他们做了GFS和BigTable（后来发展成近年来的热点之一，NoSQL数据库）；终于，这三项技术引爆了方兴未艾。“大数据革命”。

　　与这三个“基石”级别的技术相比，页面排名似乎没有那么重要。

　　Google Chronicle：来自车库的全球最大搜索引擎_IT新闻_博客园

　　你看，我很忙，我真的没有时间复制别人在1997年2月申请的专利。

　　———————————————————————————

　　综上所述，可以看出“搜索引擎”本身的门槛并不高；尤其是现在有很多全文搜索引擎，比如lucene；知乎上也有很多“python写爬虫”教程——爬取数据扔给全文搜索引擎，在自己的电脑上搭建搜索引擎。

　　如果你的要求不需要像google那么高，不难为你找到一套现成的开源解决方案：

　　下载、部署，你自己的搜索引擎就在线了。

　　如果追求更高的层次，PageRank、BigTable、MapReduce等论文也是开源的，也有开源的实现（比如gluster、hadoop等）加上现在的硬件和十年前相比现在一塌糊涂，你还可以得到一个 200 年历史的谷歌。

　　那么，为什么世界上没有很多搜索引擎呢？

　　因为：

　　1、Google 发展得太快了。没有人能跟得上它。

　　即使谷歌公布了bigtable和mapreduce的三大法宝，最成功的知名抄袭依然是雅虎支持的开源项目Hadoop；但是 Hadoop 的执行效率与 Google 相比还差得很远。

　　更重要的是，目前的谷歌长期依赖的不仅仅是pagerank算法——他们的TPU不仅仅是为围棋AI设计的。

　　2、先发优势和成本门槛

　　即使你能跟上谷歌，搜索引擎仍然有很大的用户粘性。

　　那么，现在的互联网太大了。要实现谷歌的索引完善和服务能力，需要的服务器数量和存储空间是非常可怕的；这么大的投资未必能（甚至不能）抢到。到谷歌的市场...

0

2021-09-29

搜索引擎优化创始人

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化创始人(“搜索引擎核心技术”的开源全文搜索框架及解决办法！)

0 个评论

发起人