解决方案:7b2主题优采云 专用发布模块接口(优采云 采集器b2免登入发布接口最新开源版)

优采云 发布时间: 2022-11-27 03:22

  解决方案:7b2主题优采云

专用发布模块接口(优采云

采集器b2免登入发布接口最新开源版)

  B2主题发布模块说明

  支持b2的文章发布、图片上传、文章阅读权限设置、点阅等,默认浏览次数、文件下载设置、视频设置等,包括发布模块、接口、测试规则。

  

" />

  使用说明

  上传Locoy.php文件到网站根目录,优采云

导入发布模块,在界面修改密码。

  界面下载:

  

" />

  (0)

  版权说明:小源九所有文章信息、展示图片素材等内容均由用户投稿上传,仅供学习参考。用户通过本站上传、发布的任何内容的知识产权均属于用户或原著作权人所有。如有侵犯您的版权,请联系我们删除!

  猜你也喜欢

  终极:达观王文广:一文详解BERT模型实现NER命名实体抽取

  在自然语言处理和知识图谱中,实体抽取和NER是基础任务,也是NLP和知识图谱产业化应用的关键技术之一。BERT是一种*敏*感*词*预训练模型,通过精心设计的掩码语言模型(Masked Language Model,MLM)模拟人类对语言的认知,预训练由数十亿词组成的语料库。强大的基本语义构成了一个优秀的模型。通过BERT进行实体抽取和NER的方法是目前NLP和知识图谱工业应用中最常用的方法,是效果和成本权衡下的最佳选择。这篇文章详细讲解了使用BERT进行实体抽取。阅读本文后,您将使用当前行业中最好的模型。

  什么是实体提取?

  Entity是一个普通名词,在《知识图谱:认知智能理论与实践》一书中是这样定义的:

  实体:指具有明确特征并能区别于其他事物的独立事物。在信息抽取、自然语言处理、知识图谱等领域,用来描述这些东西的信息就是实体。实体可以是抽象的或具体的。

  在实体抽取中,实体也变成了命名实体(Named Entity),意思是将实体进行分类,用实体类型来框定不同的实体。图1是一些常见“实体”的例子,如“城市”类型的实体“上海”、“公司”类型的实体“大观数据”等。

  图 1 实体示例

  实体提取 (EE) 的目标是识别一段文本中收录

的实体。在其他语境中,它也被称为“实体识别(ER)”、“命名实体识别(Named Entity Recognition),NER)”,这些不同的名词在大多数情况下指的是同一个意思。

  例如,有一段文字:

  大观数据与同济大学共建的“知识图谱与语义计算联合实验室”正式揭牌成立

  识别蓝色部分,将实体标记为“组织”类型,即实体抽取。实体抽取的过程通常可以分为两个阶段:

  识别所有代表实体的词汇表,并将这些词汇表分类为不同的实体类型

  在传统的命名实体识别任务中,通常有人物、机构、地点等,在知识图谱中,实体类型可以有几十种甚至上百种。对于知识图谱来说,提取各种文本中的实体是最基本的任务,有很多方法专门用来解决这个问题。

  图2 实体抽取案例

  众所周知,实体抽取的复杂度非常高。这不仅是因为上图中的文档复杂,而且语言本身也很难理解。在某些场景下,甚至人类也会感到困惑。例如,语言蕴含着专业背景知识、不可见或显性语境、同一个文本表达完全不同的概念、同一个概念具有多变的语言表达方式等。这些综合原因使得理解语言成为人工智能皇冠上的明珠,并且从文本中提取实体不可避免地需要理解语言,而实体提取的效果取决于对语言的理解程度。

  图3 语言理解困难

  历史上用于实体抽取的方法包括基于规则的方法、机器学习方法、深度学习方法和弱监督学习方法。每种方法都有很多不同的算法。具体算法内容可以参考《知识图谱:认知智能理论与实践》第3章“实体抽取”(P78~136)。

  BERT简介

  BERT是英文“Bidirectional Encoder Representations from Transformers”的缩写。它是谷歌开发的一种基于Transformer的深度学习技术,用于人工智能领域的文本预训练。BERT 由 Jacob Devlin 和他在谷歌的同事于 2018 年创建,并发表在论文“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”中。2019 年,谷歌宣布开始在其搜索引擎中使用 BERT,到 2020 年底,几乎所有搜索查询都使用 BERT。在 2020 年的一篇论文《A Primer in BERTology: What We Know About How BERT Works》中提到,“在一年多一点的时间里,BERT 已成为 NLP 实验中无处不在的基线,并激发了许多分析模型和提出各种改进建议的研究。论文流似乎在加速而不是放缓,我们希望这个调查能帮助社区关注最大的未解决问题。”自BERT问世以来,它也引导了炙手可热的“大模型”浪潮。其本质就是“预训练”+“微调”:

  图4 BERT模型,来自参考文献[2]

  对于普通大众来说,人工智能的标志性事件是AlphaGo,它号称在人类最难的智力游戏中被机器打败,但却是大街小巷的话题。

  在自然语言处理领域,BERT 在当时的自然语言处理领域引起了轩然大波。总之:

  

" />

  在机器阅读理解SQuAD1.1顶层测试中,表现出惊人的成绩。它首次在两项测量指标上超越了人类,还在 11 项不同的 NLP 测试中取得了最好成绩。

  关于SQuAD数据集和评估参考rajpurkar.github.io/SQuAD-explorer/,当前版本为2.0。谷歌团队成员Thang Luong表示,BERT模型开启了NLP的新纪元,证明了*敏*感*词*语料预训练技术可以大幅提升各种文本的阅读理解效果。因此,“大模型”从此应运而生。Masked LM(见下图)不仅可以让模型通过学习masked word来学习上下文信息,还可以学习grammar语法、semantic语义、pragmatics语用学等,可以很好地学习部分领域知识。预训练模型越大,效果越好;相应地,成本就越高。与单任务模型相比,无监督预训练模型的成本是其 1000 倍以上。学术界传统上认为,计算机有望在一些难以处理的文本阅读理解任务上全面超越人类。

  图 5 Masked 语言模型

  掩码语言模型是从谷歌早先的论文《Attention Is All You Need》(下载地址:/pdf/1706.03762.pdf)中提到的Transformers模型提出来的(见下图)。但是BERT与Transformers略有不同,使用的是它的encoder部分,从BERT的论文题目也能看出来。事实上,目前流行的大型模型(如GPT-3等)几乎都依赖于Transformers的模型结构,尤其是self-attention机制。在《知识图谱:认知智能理论与实战》一书P123~130中,“BERT模型详解”部分结合代码详细分析了BERT模型结构。通俗易懂,非常适合阅读深入理解BERT。模型。

  图6 Transformer模型结构

  另外值得一提的是,谷歌最初发布的BERT模型有两种配置:

  BERT BASE:12个编码器,12个双向自注意力头;BERT LARGE:24 个编码器和 16 个双向自注意力头。

  这两个配置结构相似,Large版本比Base版本“大”,效果自然更好,使用时对资源的要求更高。本文以Base版本为例,以便在显卡上完成。切换到 Large 版本不需要任何代码更改,但由于网络更大,可能需要更高级的显卡或多卡来支持模型训练。

  语料库准备

  本文使用《MSRA Entity Extraction Dataset》,使用BIO标注方式进行标注。GitHub上有很多数据集,也可以从GitHub官网下载。

  (/wgwang/kgbook/tree/main/datasets/NER-MSRA)

  在 MSRA 数据集中,存在三种类型的实体:

  LOC:位置类型

  ORG:组织类型 PER:人员类型

  一个例子是:

  1欧

  , 欧

  中 B-ORG

  国家 I-ORG

  作为 I-ORG

  协会组织

  和欧

  现在B-LOC

  一代 I-LOC

  

" />

  文本 I-LOC

  学习 I-LOC

  展馆 I-LOC

  负氧

  责任O

  人 O

  在欧

  酒吧B-PER

  黄金 I-PER

  家

  中间 O

  推荐人

  少欧

  文本 B-LOC

  学习 I-LOC

  展馆 I-LOC

  新奥

  O馆

  让O

  O伯爵

  调制解调器

  O型

  . o

  从上面的例子可以看出: 1.“中国作协”是一个组织(ORG)类型:

  2.“现代文学之家”和“文学之家”是Location(LOC)类型:

  3.《巴金》是任务(PER)类型:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线