搜索引擎优化论文(Google大型AI语言模型的关键创新是一种称为的原型 )
优采云 发布时间: 2022-02-04 15:18搜索引擎优化论文(Google大型AI语言模型的关键创新是一种称为的原型
)
1998 年,斯坦福大学的一些*敏*感*词*发表了一篇描述一种新型搜索引擎的论文:“在这篇论文中,我们将介绍一个像谷歌这样的大型搜索引擎的原型。这个原型广泛使用了超文本形式的结构。谷歌旨在有效地检索和索引万维网数据,并生成比现有系统更令人满意的搜索结果。”
该研究的关键创新是一种称为 PageRank 的算法,该算法根据用户在网络上的查询与网络上其他页面的链接的相关性来计算和排名搜索结果。在 PageRank 的支持下,谷歌成为了互联网的门户,谢尔盖·布林和拉里·佩奇建立了世界上最大的公司之一。
现在,一组谷歌研究人员发布了一项提案,呼吁彻底重新设计引擎,排除现有的排序方法,并用单一的大型 AI 语言模型(例如 BERT 或 GPT-3,以及它们的未来版本)替换现有的排序方法)反而。
这样,用户将不再需要在庞大的网页列表中搜索信息,而是直接通过向在这些页面上训练的语言模型提问来找到答案。
这种方法不仅可以改变搜索引擎的工作方式,还可以改变它们的功能以及我们与它们交互的方式。
即使网络规模不断扩大,搜索引擎也变得更快、更准确。现在我们使用 AI 对结果进行排名,Google 可以使用 BERT 更好地了解用户在搜索什么。
然而,在这些调整下,所有主要搜索引擎仍然像 20 年前一样工作:爬虫索引网页(持续读取网络并维护其找到的所有内容的列表的软件),数据被采集在匹配的索引中查询的结果,并对结果进行排序。
唐纳德·梅茨勒 (Donald Metzler) 和他在 Google Research 的同事写道:“这份索引检索和排序的蓝图经受住了时间的考验,但很少受到挑战或认真重新考虑。”
问题是,即使是当今最好的搜索引擎仍然会响应收录所需信息的文档列表,而不是信息本身。
搜索引擎也不擅长回答需要来自多个来源的答案的查询,例如当您去看医生时,医生会给您一个 文章 列表供您阅读,而不是直接给您答案。
Metzler 和他的同事们对一个像人类专家一样工作的搜索引擎很感兴趣,它以自然语言生成答案,从多个文档中合成,并且像维基百科的 文章 一样,以支持其答案的证据形式。
大型语言模型为这种想法奠定了一些基础,GPT-3 在大多数网络和数百本书上进行了训练,可以从多个来源获取信息以用自然语言回答问题。
现在的问题是它无法追踪这些来源或提供证据来支持这些答案。我们无法判断 GPT-3 是在模仿可信信息还是虚假信息,或者只是在散布自己的胡说八道。