机器之心编辑部对于搜索引擎意味着意味着什么?(图)

优采云 发布时间: 2021-08-24 23:12

  机器之心编辑部对于搜索引擎意味着意味着什么?(图)

  机器报告的核心

  机器编辑部的核心

  在前段时间举办的“Search On”活动中,谷歌宣布BERT现在支持谷歌搜索引擎上几乎所有基于英文的查询。去年,这一比例仅为 10%。

  

  BERT 是 Google 开源的自然语言处理预训练模型。一经上线,就刷新了 11 个 NLP 任务的 SOTA 记录,登上了 GLUE 基准测试榜的榜首。

  特别是对于搜索引擎,BERT 可以帮助搜索引擎更好地理解网页内容,从而提高搜索结果的相关性。 BERT 模型中创新的 Transformer 架构是一大亮点。 Transformer 处理一个句子中与所有其他单词相关的单词,而不是一个一个依次处理。基于此,BERT模型可以利用词前后的词来考虑其所在的完整上下文,这对于理解查询语句背后的意图非常有用。

  2019 年 9 月,谷歌宣布在搜索引擎中使用 BERT,但只有 10% 的英文搜索结果得到了改进; 2019 年 12 月,谷歌将 BERT 在搜索引擎中的使用扩展到 70 多种语言。现在,搜索巨头终于宣布几乎所有英文搜索都可以使用BERT。

  BERT 对搜索引擎意味着什么?

  作为自然语言处理领域的里程碑,BERT 为该领域带来了以下创新:

  使用未标记的文本进行预训练;

  双向上下文模型;

  transformer架构的应用;

  掩码语言建模;

  注意力机制;

  文本含义(下一句的预测);

  ……

  这些特性使 BERT 对搜索引擎优化非常有帮助,尤其是在消歧方面。使用BERT后,对于更长的、会话式的查询,或者带有更重要的介词如“for”和“to”的句子,谷歌搜索引擎将能够理解查询句子中单词的上下文。用户可以以更自然的方式进行搜索。

  此外,BERT 对参考解析、多义性、同形异义词、命名实体确定和搜索中的文本暗示等任务也非常有帮助。其中,指称解析是指在一定的上下文或广泛的会话查询中跟踪一个句子或短语所指的是谁或什么;一个词多义是指同一个词有多重含义,多个含义之间存在联系,搜索引擎需要处理含糊不清的细微差别;同形异义词是指形式相同但意义不同的词;命名实体判断是指从多个命名实体中知道文本与什么相关;文本含义是指预测下一句。这些问题构成了搜索引擎面临的共同挑战。

  过去一年,谷歌扩大了BERT在搜索引擎中的应用。 G-Squared Interactive 的 SEO 顾问 Danny Sullivan 和 Glenn Gabe 在 Twitter 上介绍了 Google 搜索。近期亮点。

  在 Google 搜索中,十分之一的搜索查询拼写错误。很快,一项新的变化将帮助我们在检测和处理拼写错误方面取得比过去五年更大的进步。

  

  另一个即将到来的变化是,G​​oogle 搜索将能够识别网页中的各个段落,并将它们处理成与搜索最相关的段落。我们预计这会改善 7% 的 Google 搜索查询。

  

  Search On 2020:Google 可以索引网页的段落,而不仅仅是整个网页。新算法可以放大回答问题的段落,而忽略页面的其余部分。从下个月开始。

  

  

  使用人工智能,我们可以更好地检测视频的关键部分,帮助人们直接跳转到感兴趣的内容,而无需创作者手动标记。到今年年底,10% 的 Google 搜索将使用这项技术。

  

  此外,Google 还表示他们还使用神经网络来理解与搜索相关的子主题,这有助于在您搜索广泛的内容时提供更多样化的内容。这项服务预计在年底推出。

  

  参考链接:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线