搜索引擎优化英文(BERT“猜”透人心背后,NLP届如今的“江湖地位” )

优采云 发布时间: 2021-12-29 20:19

  搜索引擎优化英文(BERT“猜”透人心背后,NLP届如今的“江湖地位”

)

  作者 | 子佩

  编辑 | 潘肯

  如果你在谷歌上搜索“如何在没有道路的山上停车”,谷歌会告诉你什么?

  如果是两年前,该网页可能会教你如何停车或如何在山上停车,因为它检测到关键字“停车”和“山”,而忽略了看似微不足道的小字“不”。

  但现在,它可以在页面最显眼的位置,直接为你提供你最关心的问题:如何在没有车道的山坡上停车。因为它不仅学会了寻找这些关键词,还学会了理解这些词之间的联系。

  

  搜索引擎“猜”人心的背后,是谷歌的BERT模型逐渐开始理解人类语言。

  今年10月,谷歌在“Search On”活动中介绍了人工智能领域的数千个新应用,其中包括BERT模型的新发展:它已经应用于谷歌上几乎所有的英文查询,以及应用也扩展到了 70 多种语言,而去年这个时候,BERT 在英语查询中的使用率还没有超过 10%。

  使用比例增加十倍,覆盖的语言数量增加到70多种……自2018年诞生以来,这些硬技术赋予了BERT“超人”的语言理解能力,它一直在NLP(Natural Language Processing,以下简称NLP)又是一种什么样的“地震状态”?

  今天,让智子和你一起,走过BERT这两年的进阶之路,看看NLP行业目前的半壁江山。

  一、诞生就是崛起,BERT的历史

  BERT最杰出的“辉煌时刻”发生在2018年:在机器理解测试SQuAD中称霸,横扫其他10项NLP测试,取得了“全人类”的成就。

  SQuAD是业界公认的机器阅读理解顶级测试,主要考查两个指标:EM和F1。

  

  EM指模型答案与标准答案的匹配度;F1指的是模型的召回率和准确率。在这两个项目上,BERT 的得分分别为 87.433 和 93.160,超过了许多研究人员认为的人类的 82.3 和 91.2。, 是自然语言领域的一项重大成就,将改变 NLP 的研究方式。

  为什么BERT这么好?

  那么我们首先要看看模型是如何“学习语言”的。

  模型和人一样。在他们会说话和阅读之前,他们还需要背诵单词和学习语法,但是他们不是通过上下文理解单词的含义,而是将单词转换为可以计算的向量或矩阵,然后使用神经网络来计算特征。权重学习“语法”,从而“理解”人类语言。

  BERT 诞生于 2018 年,全称是 Bidirectional Encoder Representations from Transformers。从名字上看,BERT 是一种基于 Transformer 模型的双向编码器。

  Transformer模型起源于机器翻译领域,摒弃了循环神经网络(RNNs)中的循环网络结构方法,利用注意力机制构建每个词的特征,通过分析相互影响得到每个词的特征权重字之间。

  这种基于注意力的 Transformer 模型不仅关注单个词,还关注词之间的关系,这比简单地提取词向量更“有同情心”。

  

  解决了如何“记单词”的问题后,接下来就是如何学习语法了。

  BERT 名称中嵌入的双向代码就是它的答案。

  如下图,OpenAI的GPT模型使用的是left-to-right Transformer,即通过上面的分析得到下一个词的特征权重,但是前一个词的意思无法通过以下验证,而 AllenNLP 的 ELMo 通过将两个独立训练的方向结果串联起来生成下游任务特征。

  

  BERT、GPT 和 ELMo 的比较

  但是BERT不仅可以同时进行双向预测,还可以通过上下文进行全方位的预测。

  在 BERT 出现之前,NLP 大楼上方有两片乌云:标记数据集不足和结果准确率低。

  前者,BERT是在未标注数据集中通过无监督学习求解;在后者中,BERT 通过深化 Transformer 层数和双向编码进行细化。

  他一出生,就带来了横扫各大赛事的“纪录”。两年的实战,经历了无数的风雨。今天的BERT不仅是学术界的里程碑,在广阔的实际应用世界中也大有可为。

  二、 两年不停,BERT进阶史

  在网络搜索中呼风唤雨,谷歌真正的能力当然不止BERT、Panda、Penguin、搜索引擎优化的Payday、打击垃圾邮件的Pigeon、著名的网络排名算法Pagerank……小模块各有千秋,各司其职,构成了谷歌搜索的“最强大脑”。

  

  BERT 一岁的时候,也就是 2019 年 10 月 15 日,他正式加入了谷歌搜索的算法大脑,承担了美国 10% 的英语查询。

  “深网”和“双通道”BERT不仅能“猜心”,还能认错。

  根据谷歌统计,每十次搜索,就会出现一个拼写错误。如下图所示,用户尝试搜索晚餐,但将其错误输入为 dibber,但 BERT 可以绕过此错误,直接识别用户的意图并提供餐厅的位置。

  

  两个月后,BERT 开始承担 70 多种语言的搜索任务。

  一年后,BERT 在谷歌搜索中使用率接近 100%。凭借其出色的理解能力,取代了上一代查询工具RankBrain,成为搜索大脑的王牌。

  这种“高分高能”表现的背后,是BERT模型的无声推进。

  2019 年 12 月,BERT 通过更有效地分配模型容量和简化 Transformer 隐藏层中的参数和冗余检查,在提高性能的同时减少了计算量,并升级为更轻量级的 ALBERT。

  2020年3月,受生成对抗网络(GAN)的启发,BERT改进了预训练方法,减少了模型训练时间,从而以更少的计算量达到同样的文本识别效果,由此推导出ELECTRA模型。

  2020 年 8 月,BERT 引入了多语言嵌入模型,实现不同语言之间的相互翻译,让用户可以更*敏*感*词*地搜索有效信息。

  2020 年 10 月,BERT 专注于减少模型本身的“偏差”,利用模型评估指标调整预训练模型中的参数,以减少搜索过程中可能出现的性别种族歧视。

  从10%到100%,天生满分的BERT并没有固步自封。而是不断地顺应时代的需要,一次又一次地自我更新,以更少的训练时间和更小的计算量取得优势。表现。

  今年10月,谷歌公布了BERT在搜索领域的表现。除了扩大适用范围和适用语言外,BERT 还将 Google 的学术搜索准确率提高了 7%。

  谷歌还表示,未来将使用BERT模型,继续细化搜索算法,扩大搜索范围,提高搜索准确率。

  三、BERT 开赛,百家学派争锋

  BERT 的贡献远不止提升谷歌搜索性能或获得“机器超越人类”的称号,而是作为一个高度泛化的通用模型,为未来的 NLP 会议开辟了一条光明的研究轨道。

  

  图片来源网络

  以BERT为分界线,NLP领域可以分为动态表示模型时代(Dynamic Representation)和深度动态表示模型时代(Deep Dynamic Representation)。前一个时代,标注数据集不足和单向编码器限制了模型的可扩展性;而在后一个时代,基于BERT开发的方法,“分支边缘”变成了NLP类的一半。

  BERT的改进方法有上千种,大致可以分为两个方向:一个是垂直的,通过改进Transformer层的结构或者调整参数,得到更轻量级的模型,比如前面提到的ALBERT模型;另一种是Vertically,通过在BERT模型中扩展其他算法模型,扩展BERT模型的功能,比如在GAN的影响下诞生的ELECTRA模型。

  在BERT逐渐发挥影响力,实现应用落地的同时,NLP类的新秀也轮番出现。

  2019年出现的XLNet和2020年出现的GPT-3是破围的两位将军。

  XLNet在BERT的基础上,增加了自回归预训练的方法,得到了一个擅长语义理解和语义生成的模型,弥补了BERT模型在长文本阅读和文本生成方面的不足。

  GPT-3 更具侵略性。作为 OpenAI 的第三代深度语言学习模型,它拥有 1705 亿个参数,是上一代模型 GPT-2 的 100 倍。经过5000亿词的预训练,在微调的情况下,在多个NLP基准测试中获得最高分。

  

  同时,GPT-3 还解决了 BERT 模型的两个问题:对标记数据的依赖和对训练数据集的过度拟合,旨在成为更通用的 NLP 模型。

  基于更大的数据集和更多的参数,GPT-3不仅可以搜索网页,还可以答题、聊天、写小说、写乐谱,甚至可以自动编程。

  在目前的调试阶段,GPT-3也暴露了很多问题,包括仇恨言论、错误信息等,所以即使有NLP行业最强回波之名,目前也无法像前身BERT那样应用。人性带来价值。

  结语:NLP新时代,BERT不缺席

  自然语言处理(NLP)领域有很多细分:文本分类、机器翻译、阅读理解、机器人聊天……每个子话题对应人工智能在现实生活中的实际应用:网页搜索、自动推荐、智能客服……

  如何让人工智能走进我们的生活,首先要解决的问题是如何让机器真正理解我们想要什么。

  BERT 让我们迈出了一大步。基于自监督学习对未标注数据进行处理,然后通过双向编码理解含义,BERT打破了训练数据之前需要标注的“魔咒”,充分利用了大量未标注数据文本。NLP 的里程碑式创新。

  从诞生、进步到一系列语言模型的推导,两岁的BERT用时间证明了它的巨大潜力。或许在未来,它会融入新的应用中,为我们带来一场意想不到的人工智能革命。

  参考资料:Google AI blog、Rock Content、searchengineland

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线