解决方案:7b2主题优采云专用发布模块接口（优采云采集器b2免登入发布接口最新开源版）

优采云发布时间: 2022-11-27 03:22

　　解决方案:7b2主题优采云

专用发布模块接口（优采云

" target="_blank">采集器b2免登入发布接口最新开源版）

　　B2主题发布模块说明

　　支持b2的文章发布、图片上传、文章阅读权限设置、点阅等，默认浏览次数、文件下载设置、视频设置等，包括发布模块、接口、测试规则。

" />

　　使用说明

　　上传Locoy.php文件到网站根目录，优采云

导入发布模块，在界面修改密码。

　　界面下载：

" />

　　(0)

　　版权说明：小源九所有文章信息、展示图片素材等内容均由用户投稿上传，仅供学习参考。用户通过本站上传、发布的任何内容的知识产权均属于用户或原著作权人所有。如有侵犯您的版权，请联系我们删除！

　　猜你也喜欢

　　终极:达观王文广：一文详解BERT模型实现NER命名实体抽取

　　在自然语言处理和知识图谱中，实体抽取和NER是基础任务，也是NLP和知识图谱产业化应用的关键技术之一。BERT是一种*敏*感*词*预训练模型，通过精心设计的掩码语言模型（Masked Language Model，MLM）模拟人类对语言的认知，预训练由数十亿词组成的语料库。强大的基本语义构成了一个优秀的模型。通过BERT进行实体抽取和NER的方法是目前NLP和知识图谱工业应用中最常用的方法，是效果和成本权衡下的最佳选择。这篇文章详细讲解了使用BERT进行实体抽取。阅读本文后，您将使用当前行业中最好的模型。

　　什么是实体提取？

　　Entity是一个普通名词，在《知识图谱：认知智能理论与实践》一书中是这样定义的：

　　实体：指具有明确特征并能区别于其他事物的独立事物。在信息抽取、自然语言处理、知识图谱等领域，用来描述这些东西的信息就是实体。实体可以是抽象的或具体的。

　　在实体抽取中，实体也变成了命名实体（Named Entity），意思是将实体进行分类，用实体类型来框定不同的实体。图1是一些常见“实体”的例子，如“城市”类型的实体“上海”、“公司”类型的实体“大观数据”等。

　　图 1 实体示例

　　实体提取 (EE) 的目标是识别一段文本中收录

的实体。在其他语境中，它也被称为“实体识别（ER）”、“命名实体识别（Named Entity Recognition），NER）”，这些不同的名词在大多数情况下指的是同一个意思。

　　例如，有一段文字：

　　大观数据与同济大学共建的“知识图谱与语义计算联合实验室”正式揭牌成立

　　识别蓝色部分，将实体标记为“组织”类型，即实体抽取。实体抽取的过程通常可以分为两个阶段：

　　识别所有代表实体的词汇表，并将这些词汇表分类为不同的实体类型

　　在传统的命名实体识别任务中，通常有人物、机构、地点等，在知识图谱中，实体类型可以有几十种甚至上百种。对于知识图谱来说，提取各种文本中的实体是最基本的任务，有很多方法专门用来解决这个问题。

　　图2 实体抽取案例

　　众所周知，实体抽取的复杂度非常高。这不仅是因为上图中的文档复杂，而且语言本身也很难理解。在某些场景下，甚至人类也会感到困惑。例如，语言蕴含着专业背景知识、不可见或显性语境、同一个文本表达完全不同的概念、同一个概念具有多变的语言表达方式等。这些综合原因使得理解语言成为人工智能皇冠上的明珠，并且从文本中提取实体不可避免地需要理解语言，而实体提取的效果取决于对语言的理解程度。

　　图3 语言理解困难

　　历史上用于实体抽取的方法包括基于规则的方法、机器学习方法、深度学习方法和弱监督学习方法。每种方法都有很多不同的算法。具体算法内容可以参考《知识图谱：认知智能理论与实践》第3章“实体抽取”（P78~136）。

　　BERT简介

　　BERT是英文“Bidirectional Encoder Representations from Transformers”的缩写。它是谷歌开发的一种基于Transformer的深度学习技术，用于人工智能领域的文本预训练。BERT 由 Jacob Devlin 和他在谷歌的同事于 2018 年创建，并发表在论文“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”中。2019 年，谷歌宣布开始在其搜索引擎中使用 BERT，到 2020 年底，几乎所有搜索查询都使用 BERT。在 2020 年的一篇论文《A Primer in BERTology: What We Know About How BERT Works》中提到，“在一年多一点的时间里，BERT 已成为 NLP 实验中无处不在的基线，并激发了许多分析模型和提出各种改进建议的研究。论文流似乎在加速而不是放缓，我们希望这个调查能帮助社区关注最大的未解决问题。”自BERT问世以来，它也引导了炙手可热的“大模型”浪潮。其本质就是“预训练”+“微调”：

　　图4 BERT模型，来自参考文献[2]

　　对于普通大众来说，人工智能的标志性事件是AlphaGo，它号称在人类最难的智力游戏中被机器打败，但却是大街小巷的话题。

　　在自然语言处理领域，BERT 在当时的自然语言处理领域引起了轩然大波。总之：

" />

　　在机器阅读理解SQuAD1.1顶层测试中，表现出惊人的成绩。它首次在两项测量指标上超越了人类，还在 11 项不同的 NLP 测试中取得了最好成绩。

　　关于SQuAD数据集和评估参考rajpurkar.github.io/SQuAD-explorer/，当前版本为2.0。谷歌团队成员Thang Luong表示，BERT模型开启了NLP的新纪元，证明了*敏*感*词*语料预训练技术可以大幅提升各种文本的阅读理解效果。因此，“大模型”从此应运而生。Masked LM（见下图）不仅可以让模型通过学习masked word来学习上下文信息，还可以学习grammar语法、semantic语义、pragmatics语用学等，可以很好地学习部分领域知识。预训练模型越大，效果越好；相应地，成本就越高。与单任务模型相比，无监督预训练模型的成本是其 1000 倍以上。学术界传统上认为，计算机有望在一些难以处理的文本阅读理解任务上全面超越人类。

　　图 5 Masked 语言模型

　　掩码语言模型是从谷歌早先的论文《Attention Is All You Need》（下载地址：/pdf/1706.03762.pdf）中提到的Transformers模型提出来的（见下图）。但是BERT与Transformers略有不同，使用的是它的encoder部分，从BERT的论文题目也能看出来。事实上，目前流行的大型模型（如GPT-3等）几乎都依赖于Transformers的模型结构，尤其是self-attention机制。在《知识图谱：认知智能理论与实战》一书P123~130中，“BERT模型详解”部分结合代码详细分析了BERT模型结构。通俗易懂，非常适合阅读深入理解BERT。模型。

　　图6 Transformer模型结构

　　另外值得一提的是，谷歌最初发布的BERT模型有两种配置：

　　BERT BASE：12个编码器，12个双向自注意力头；BERT LARGE：24 个编码器和 16 个双向自注意力头。

　　这两个配置结构相似，Large版本比Base版本“大”，效果自然更好，使用时对资源的要求更高。本文以Base版本为例，以便在显卡上完成。切换到 Large 版本不需要任何代码更改，但由于网络更大，可能需要更高级的显卡或多卡来支持模型训练。

　　语料库准备

　　本文使用《MSRA Entity Extraction Dataset》，使用BIO标注方式进行标注。GitHub上有很多数据集，也可以从GitHub官网下载。

　　(/wgwang/kgbook/tree/main/datasets/NER-MSRA)

　　在 MSRA 数据集中，存在三种类型的实体：

　　LOC：位置类型

　　ORG：组织类型 PER：人员类型

　　一个例子是：

　　1欧

　　, 欧

　　中 B-ORG

　　国家 I-ORG

　　作为 I-ORG

　　协会组织

　　和欧

　　现在B-LOC

　　一代 I-LOC

" />

　　文本 I-LOC

　　学习 I-LOC

　　展馆 I-LOC

　　负氧

　　责任O

　　人 O

　　在欧

　　酒吧B-PER

　　黄金 I-PER

　　家

　　中间 O

　　推荐人

　　少欧

　　文本 B-LOC

　　学习 I-LOC

　　展馆 I-LOC

　　新奥

　　O馆

　　让O

　　O伯爵

　　调制解调器

　　O型

　　. o

　　从上面的例子可以看出： 1.“中国作协”是一个组织（ORG）类型：

　　2.“现代文学之家”和“文学之家”是Location（LOC）类型：

　　3.《巴金》是任务（PER）类型：

0

2022-11-27

文章采集器哪个好用

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解决方案:7b2主题优采云专用发布模块接口（优采云采集器b2免登入发布接口最新开源版）

0 个评论

发起人

AI时代内容工厂

解决方案:7b2主题优采云 专用发布模块接口（优采云 采集器b2免登入发布接口最新开源版）

0 个评论

发起人

相关问题

解决方案:7b2主题优采云专用发布模块接口（优采云采集器b2免登入发布接口最新开源版）