文章句子采集软件

文章句子采集软件

解决方案:助力句子变换:35W抽象、43W同义、13W简称三大知识库对外开源

采集交流优采云 发表了文章 • 0 个评论 • 82 次浏览 • 2022-12-20 13:27 • 来自相关话题

  解决方案:助力句子变换:35W抽象、43W同义、13W简称三大知识库对外开源
  句子变换是指在给定的汉语句子的基础上,借助一定的语言处理方法,扩展出一组具有一定数据量的汉语句子。 是一个从1到N的过程)、抽取(数据回标)、推荐生成(关联引导)等工业级应用任务。
  我们发现,在处理上述任务的过程中,都是以句子中的词为基本单位来实现句子级的操作,即词的替换和删除、词序和组合规则的重组等。是基本手段。 .
  有效地组织和形式化词的运算基础是一项重要的任务。 在实际开发过程中,我们进一步将这项工作的结果分为“抽象知识”、“同义知识”和“缩写知识”。 Knowledge”三类知识库,并将部分数据集开放给OpenKG,供大家下载使用。
  本期内容围绕开放句变换,介绍了常见句变换操作的典型应用场景,数据视界开放的三大知识三元组概览,以及它们在实际句变换中所能发挥的作用。
  一、句子转换操作的典型应用场景
  句子转换用于典型的NLP传统任务,如搜索(查询扩展)、分类(样本扩展)、抽取(数据回标)、推荐和生成(关联引导)。 具体体现在三个方面:基于句子标准化的舆情文本聚合、基于句子扩展的信息采集与推荐、基于句子变换的数据扩展与数据回标。
  1. 基于句子标准化的舆情文本聚合
  文本去重是舆情分析中的一项重要任务。 解决方案包括基于标题的去重、基于全文的去重、基于文档摘要的去重、基于标题和文档元数据的去重等。
  处理速度和计算复杂度是去重过程中需要考虑的两个重要因素。 尤其是在项目工期紧、需要进行大规模文本去重的情况下,对特定文本的代表性内容进行标准化和规范化成为一项重要的工作。 方法。
  图 1 - 文本去重系统中的指纹架构图
  内容的标准化和规范化是指为一个源内容生成唯一的md5指纹,指纹的价值取决于标准的结果。 一般来说,常规操作包括对内容进行停用词处理、短句统一重排等,并在此基础上进一步规范词义映射、句子缩写、句子重复、句子翻译等。 此外,还加入了一些其他信息,如文本的时间信息、作者信息等,用于标准化融合。
  2. 基于句子扩展的信息采集与推荐
  定点搜索和定点采集也是舆情处理过程中的两个重要手段。 定点搜索是指扩展关键词或由关键词组成的query,是搜索和采集的前置操作:比如在监控“营业收入下降”的节点时,考虑到目标文档中可能存在的不一致,需要Expand形成“收入下降”“收入下降”“营业收入下降”等多个关键词。
  图2——基于同义知识库的句子扩展
  基于句子扩展的关联推荐也是一个重要的应用。 通过识别原给定query中的关键信息,利用外部知识库,替换关键信息集中的元素,如获取抽象关系实体,替换同层次(属于同一抽象类)的实体,得到推荐“美元贬值”等结果扩大为“人民币贬值”和“本币贬值”。
  3. 基于句子变换的数据扩充和数据回标
  无论是分类任务还是抽取任务,都存在样本不足和训练数据不足的问题。 为此,数据扩展和数据回标是两种主要方法。 其中,数据扩充主要包括词替换、回译等几种方法。
  单词替换是指在不改变句子意思的情况下,替换文中出现的单词。 实现方式包括基于同义词库的替换、基于词嵌入的替换、基于TF-IDF的词替换等。基于TF-IDF的词替换也常用于识别给定句子中需要替换的词成分; 带有反向翻译的数据扩充也是一种解决方案,其中使用机器翻译来解释文本,使用这个新句子作为原创文本的扩充结果。
  
  图3——基于远程监管思想的数据回溯
  远程监督思想下基于现有知识库的数据反标注是获取大规模标注数据的重要方法。 它需要在给定知识三元组的条件下,在非结构化文本中进行回溯检查,假设两个实体句子可能存在实体关系。 但是这个操作在实际处理过程中会产生噪音。 因此,为了扩大候选召回,可以借助外部知识库对两个实体进行扩展,同时引入实体之间的关系标记词和标记词的扩展词为提高准确率的附加条件。
  2. 句子转换中的开放知识三元组
  准确、大规模地记录词与词之间的同义、抽象、同义关系的知识三元组是完成上述三个应用任务的坚实基础。 在OpenKG中,我们开源了一些积累的中文摘要知识、中文同义词知识、中文缩写三元组数据集,供大家下载使用。 下面是数据集的介绍:
  1. 35万中文抽象知识三元组
  1)地址:
  图4-35万中文摘要知识三元组详情截图
  2)样品及介绍
  该数据集开放了346048个中文摘要知识三元组的优质知识库,来自公网文本摘要三元组挖掘、人工整理等多种渠道,涵盖商品、行业、行为、特征、名义实体等诸多方面类型。 示例如下图所示:
  图5-35万中文抽象知识实例截图
  该知识库可用于查询扩展、句子改写、句子相似度计算、句子推荐等多种应用场景。
  2. 43万中文同义知识三元组
  1)地址:
  数据集开放了43万个中文同义词知识三元组,来自公开数据文本同义词挖掘、词典整理、人工纠错等多个渠道。 示例如下图所示:
  图7- 43万中文同义词知识示例截图
  该知识库可用于同义词扩展相关的应用,如搜索扩展查询、句子相似度计算、数据增强等。
  3. 130,000个中文缩写知识三元组
  
  地址:
  图8-13 中文缩写知识详情截图
  2)介绍和样品
  该数据集通过提取公网文本缩写、人工整理等多种渠道,发布了136081个中文缩写知识三元组,涉及大学、产品名称、公司缩写等多个领域。 示例如下图所示:
  图9-13 中文缩写知识示例截图
  中文缩略语知识库可用于缩略语抽取评估、实体链接、搜索查询扩展、句子改写等多种场景。
  三、总结
  句子级的操作是以句子中的词为基本单位来实现的,即词的替换、删除、词序和组合规则重组等操作是基本手段。 有效地组织和形式化词的运算基础是一项重要的任务。 我们进一步将这种形式化的结果分为三大类:“抽象知识”、“同义知识”和“缩略知识”。 类知识库,并向 OpenKG 开放一些数据集:
  346,048个中文摘要知识三元组知识库,可用于查询扩展、句子改写、句子相似度计算、句子推荐等多种应用场景;
  43万中文同义词知识三元组,可用于同义词扩展相关的应用,如搜索扩展查询、句子相似度计算、数据增强等场景;
  136081个中文缩写知识三元组,涉及大学、产品名称、公司简称等领域,可用于缩写抽取评估、实体链接、搜索查询扩展、句子改写等多个场景。
  底层知识三元组可以在句子转换中发挥重要作用,具体体现在基于句子标准化的舆情文本聚合、句子扩展的信息采集和推荐、基于句子转换的数据扩展和数据回标等。
  我们认为,底层知识库是自然语言处理的坚实基础,能够对业界各种算法的落地起到基础性和实践性的支撑作用。
  参考链接
  1、
  2、
  3.
  4.
  5.
  解决方案:梅州小程序商城制作开发网络推广SEO优化公司,网络推广排名
  系统开发
  网站制作 | 网络推广
  小程序商城系统| 微商城制作
  电话:(微信)
  点击一个按钮拨打电话:
  微信小程序商城一年运营成本团购外卖制作网站改版企业微信商城开发网站网络营销优化微信公众号推文如何制作小程序分发系统企业官网设计企业官网建造
  
  公司主营业务:微信公众号推广开发、小程序制作、网站制作、网络关键词推广排名、APP制作开发、微信商城制作等。
  为网站选择合适的目标关键词,然后优化这些目标关键词的排名。 这个过程就是关键词优化。 我们也可以把关键词优化定义为网站关键词的排名过程。 对于长尾关键词,排名的前提是保证内容页面“被百度快速收录”,主要原因是承担快速排名的责任。 使用标签的标题属性。
  在不影响页面功能的情况下,我们可以尝试在标签中加入title属性,更有利于蜘蛛抓取信息。 直击引流推广 站内整站优化:所谓整站优化是网站搜索引擎优化(SEO)的高级应用,是一种高级的网站营销策略。 整个网站的优化服务并不是针对特定的关键词,而是以提高网站搜索引擎的友好度为核心,通过提高网站的质量,可以获得更好的排名权重和搜索流量。 为避免关键词堆积,这里主要指新闻源站软件发布,通常是根据不同站点的价格来计算。 如果能利用关键字相关的“软文”来实现首页SEO,那么这方面的收益是相当可观的。
  这个决定也会影响你的 SEO 策略。 我强调转型或品牌强化。 大多数实际案例告诉我们,在弱品牌的情况下,基于网络平台的大规模广告转化率是比较低的,往往是你力所不及的。
  将百度蜘蛛引入目标站点,其实就是做百度快搜的过程,通常是以下形式: 锚链接是否与关键词相关? SEO不变 外部入口 很多SEO人员,在做长尾关键词排名的时候,经常会问一个问题,那就是我可以使用:长尾关键词排名系统吗? 需要明确的是:长尾关键词的排名是为了获得点击,所以尽量避免长尾内容的贡献。 在回答这个问题之前,我们先简单了解一下长尾关键词排名系统。 类似于市场上推出的所谓云推广。 它使用蜘蛛池来引导爬取这些需要排名的长尾页面。 总的原则是使用大量的网站。 操作。
  关键词优化只是对一小部分网站进行修改和优化。 优化效果无法一直保持,存在一定的风险。 只能优化少量关键词,不利于效果的转化。 百度相关关键词及常见问题 理论上应该给核心关键词加上反向链接。 为了避免链接分离和简化,我们通常会在相关关键词的锚文本中添加一些合理的链接,使链接结构看起来自然而不做作。
  第一种情况,自加权重慢,但广告单价高,流量精准有价值。 使用新闻台制作所谓的“新闻投稿”已经存在多年。 通常结算费用是按50元300条新闻链计算的。 一般情况下是一系列文章。 网站的结构是扁平树,目录结构不宜太深。 每个页面从主页点击不超过 3 次,这对于搜索引擎来说太深了。
  
  关键词优化和整站优化效果 此前,很多专家博主强调利用社交媒体跑长尾SEO,就是通过社交媒体发布长尾内容。 这其实是一个错误的想法,主要原因是:大型网站转发。 搜索引擎优化的变化关键词优化只能保证排名,而排名必须靠点击才能获得流量和访客,而访客是转化的基础。 在图像上使用 alt 属性。
  该属性可以在图片无法加载时在页面显示相关的文字信息,效果相同。 虽然我们可以利用长尾关键词对站内流量入口进行排名,但是对于蜘蛛来说,我们需要在站外建立少量的优质链接,引导蜘蛛继续爬行。 长尾关键词排名常见问题 权威网站一旦转发了长尾内容,自己的网站就很难排在大网站的前列。 至少现阶段,即使有原创链接,作用也有限。
  提高页面加载速度。 可以用css来解决不能使用背景图片的问题,也可以尝试压缩背景图片的大小,可以在一张图片上放几个图标,使用CSSsprite,利用背景位置找到想要的图片位置. 减少 HTTP 请求次数,提高网页加载速度。
  提高内容相关性随着雄跑的引入,SEO技术的排名方式正在被削弱。 也就是说,过去基于超链接技术的搜索排名将被打破,这使得新的SEO更加注重内容质量和社会影响力。 集中网站权重。
  由于蜘蛛给每个页面分配的权重是确定的,并且这些权重会平均分配给每个链接,为了集中网站的权重,我们可以使用“rel=nofollow”属性,告诉蜘蛛分配权重到其他链接而不是爬取目标页面是没有必要的。 关键词优化和全站优化的转化效果 第二种情况,自己的网站获得了快速的流量,但是广告单价低,泛滥,转化率不高。 主要区别:使用关键字挖掘工具进行查询。
  当你试图写文章关于热门关键词的文章时,我们通常会检查相关关键词的数量。 通过对多个相关关键词进行分类,合理分布在段落内容中,可以增加内容的广度,从而提高核心关键词和文章的权威性。 “内容为王”仍然发挥着非常重要的作用,尤其是在新搜索时代,百度对优质内容的支持不断加深,基于区块链技术对原创内容进行识别和保护,让优质内容能够获得合理陈列。 查看全部

  解决方案:助力句子变换:35W抽象、43W同义、13W简称三大知识库对外开源
  句子变换是指在给定的汉语句子的基础上,借助一定的语言处理方法,扩展出一组具有一定数据量的汉语句子。 是一个从1到N的过程)、抽取(数据回标)、推荐生成(关联引导)等工业级应用任务。
  我们发现,在处理上述任务的过程中,都是以句子中的词为基本单位来实现句子级的操作,即词的替换和删除、词序和组合规则的重组等。是基本手段。 .
  有效地组织和形式化词的运算基础是一项重要的任务。 在实际开发过程中,我们进一步将这项工作的结果分为“抽象知识”、“同义知识”和“缩写知识”。 Knowledge”三类知识库,并将部分数据集开放给OpenKG,供大家下载使用。
  本期内容围绕开放句变换,介绍了常见句变换操作的典型应用场景,数据视界开放的三大知识三元组概览,以及它们在实际句变换中所能发挥的作用。
  一、句子转换操作的典型应用场景
  句子转换用于典型的NLP传统任务,如搜索(查询扩展)、分类(样本扩展)、抽取(数据回标)、推荐和生成(关联引导)。 具体体现在三个方面:基于句子标准化的舆情文本聚合、基于句子扩展的信息采集与推荐、基于句子变换的数据扩展与数据回标。
  1. 基于句子标准化的舆情文本聚合
  文本去重是舆情分析中的一项重要任务。 解决方案包括基于标题的去重、基于全文的去重、基于文档摘要的去重、基于标题和文档元数据的去重等。
  处理速度和计算复杂度是去重过程中需要考虑的两个重要因素。 尤其是在项目工期紧、需要进行大规模文本去重的情况下,对特定文本的代表性内容进行标准化和规范化成为一项重要的工作。 方法。
  图 1 - 文本去重系统中的指纹架构图
  内容的标准化和规范化是指为一个源内容生成唯一的md5指纹,指纹的价值取决于标准的结果。 一般来说,常规操作包括对内容进行停用词处理、短句统一重排等,并在此基础上进一步规范词义映射、句子缩写、句子重复、句子翻译等。 此外,还加入了一些其他信息,如文本的时间信息、作者信息等,用于标准化融合。
  2. 基于句子扩展的信息采集与推荐
  定点搜索和定点采集也是舆情处理过程中的两个重要手段。 定点搜索是指扩展关键词或由关键词组成的query,是搜索和采集的前置操作:比如在监控“营业收入下降”的节点时,考虑到目标文档中可能存在的不一致,需要Expand形成“收入下降”“收入下降”“营业收入下降”等多个关键词。
  图2——基于同义知识库的句子扩展
  基于句子扩展的关联推荐也是一个重要的应用。 通过识别原给定query中的关键信息,利用外部知识库,替换关键信息集中的元素,如获取抽象关系实体,替换同层次(属于同一抽象类)的实体,得到推荐“美元贬值”等结果扩大为“人民币贬值”和“本币贬值”。
  3. 基于句子变换的数据扩充和数据回标
  无论是分类任务还是抽取任务,都存在样本不足和训练数据不足的问题。 为此,数据扩展和数据回标是两种主要方法。 其中,数据扩充主要包括词替换、回译等几种方法。
  单词替换是指在不改变句子意思的情况下,替换文中出现的单词。 实现方式包括基于同义词库的替换、基于词嵌入的替换、基于TF-IDF的词替换等。基于TF-IDF的词替换也常用于识别给定句子中需要替换的词成分; 带有反向翻译的数据扩充也是一种解决方案,其中使用机器翻译来解释文本,使用这个新句子作为原创文本的扩充结果。
  
  图3——基于远程监管思想的数据回溯
  远程监督思想下基于现有知识库的数据反标注是获取大规模标注数据的重要方法。 它需要在给定知识三元组的条件下,在非结构化文本中进行回溯检查,假设两个实体句子可能存在实体关系。 但是这个操作在实际处理过程中会产生噪音。 因此,为了扩大候选召回,可以借助外部知识库对两个实体进行扩展,同时引入实体之间的关系标记词和标记词的扩展词为提高准确率的附加条件。
  2. 句子转换中的开放知识三元组
  准确、大规模地记录词与词之间的同义、抽象、同义关系的知识三元组是完成上述三个应用任务的坚实基础。 在OpenKG中,我们开源了一些积累的中文摘要知识、中文同义词知识、中文缩写三元组数据集,供大家下载使用。 下面是数据集的介绍:
  1. 35万中文抽象知识三元组
  1)地址:
  图4-35万中文摘要知识三元组详情截图
  2)样品及介绍
  该数据集开放了346048个中文摘要知识三元组的优质知识库,来自公网文本摘要三元组挖掘、人工整理等多种渠道,涵盖商品、行业、行为、特征、名义实体等诸多方面类型。 示例如下图所示:
  图5-35万中文抽象知识实例截图
  该知识库可用于查询扩展、句子改写、句子相似度计算、句子推荐等多种应用场景。
  2. 43万中文同义知识三元组
  1)地址:
  数据集开放了43万个中文同义词知识三元组,来自公开数据文本同义词挖掘、词典整理、人工纠错等多个渠道。 示例如下图所示:
  图7- 43万中文同义词知识示例截图
  该知识库可用于同义词扩展相关的应用,如搜索扩展查询、句子相似度计算、数据增强等。
  3. 130,000个中文缩写知识三元组
  
  地址:
  图8-13 中文缩写知识详情截图
  2)介绍和样品
  该数据集通过提取公网文本缩写、人工整理等多种渠道,发布了136081个中文缩写知识三元组,涉及大学、产品名称、公司缩写等多个领域。 示例如下图所示:
  图9-13 中文缩写知识示例截图
  中文缩略语知识库可用于缩略语抽取评估、实体链接、搜索查询扩展、句子改写等多种场景。
  三、总结
  句子级的操作是以句子中的词为基本单位来实现的,即词的替换、删除、词序和组合规则重组等操作是基本手段。 有效地组织和形式化词的运算基础是一项重要的任务。 我们进一步将这种形式化的结果分为三大类:“抽象知识”、“同义知识”和“缩略知识”。 类知识库,并向 OpenKG 开放一些数据集:
  346,048个中文摘要知识三元组知识库,可用于查询扩展、句子改写、句子相似度计算、句子推荐等多种应用场景;
  43万中文同义词知识三元组,可用于同义词扩展相关的应用,如搜索扩展查询、句子相似度计算、数据增强等场景;
  136081个中文缩写知识三元组,涉及大学、产品名称、公司简称等领域,可用于缩写抽取评估、实体链接、搜索查询扩展、句子改写等多个场景。
  底层知识三元组可以在句子转换中发挥重要作用,具体体现在基于句子标准化的舆情文本聚合、句子扩展的信息采集和推荐、基于句子转换的数据扩展和数据回标等。
  我们认为,底层知识库是自然语言处理的坚实基础,能够对业界各种算法的落地起到基础性和实践性的支撑作用。
  参考链接
  1、
  2、
  3.
  4.
  5.
  解决方案:梅州小程序商城制作开发网络推广SEO优化公司,网络推广排名
  系统开发
  网站制作 | 网络推广
  小程序商城系统| 微商城制作
  电话:(微信)
  点击一个按钮拨打电话:
  微信小程序商城一年运营成本团购外卖制作网站改版企业微信商城开发网站网络营销优化微信公众号推文如何制作小程序分发系统企业官网设计企业官网建造
  
  公司主营业务:微信公众号推广开发、小程序制作、网站制作、网络关键词推广排名、APP制作开发、微信商城制作等。
  为网站选择合适的目标关键词,然后优化这些目标关键词的排名。 这个过程就是关键词优化。 我们也可以把关键词优化定义为网站关键词的排名过程。 对于长尾关键词,排名的前提是保证内容页面“被百度快速收录”,主要原因是承担快速排名的责任。 使用标签的标题属性。
  在不影响页面功能的情况下,我们可以尝试在标签中加入title属性,更有利于蜘蛛抓取信息。 直击引流推广 站内整站优化:所谓整站优化是网站搜索引擎优化(SEO)的高级应用,是一种高级的网站营销策略。 整个网站的优化服务并不是针对特定的关键词,而是以提高网站搜索引擎的友好度为核心,通过提高网站的质量,可以获得更好的排名权重和搜索流量。 为避免关键词堆积,这里主要指新闻源站软件发布,通常是根据不同站点的价格来计算。 如果能利用关键字相关的“软文”来实现首页SEO,那么这方面的收益是相当可观的。
  这个决定也会影响你的 SEO 策略。 我强调转型或品牌强化。 大多数实际案例告诉我们,在弱品牌的情况下,基于网络平台的大规模广告转化率是比较低的,往往是你力所不及的。
  将百度蜘蛛引入目标站点,其实就是做百度快搜的过程,通常是以下形式: 锚链接是否与关键词相关? SEO不变 外部入口 很多SEO人员,在做长尾关键词排名的时候,经常会问一个问题,那就是我可以使用:长尾关键词排名系统吗? 需要明确的是:长尾关键词的排名是为了获得点击,所以尽量避免长尾内容的贡献。 在回答这个问题之前,我们先简单了解一下长尾关键词排名系统。 类似于市场上推出的所谓云推广。 它使用蜘蛛池来引导爬取这些需要排名的长尾页面。 总的原则是使用大量的网站。 操作。
  关键词优化只是对一小部分网站进行修改和优化。 优化效果无法一直保持,存在一定的风险。 只能优化少量关键词,不利于效果的转化。 百度相关关键词及常见问题 理论上应该给核心关键词加上反向链接。 为了避免链接分离和简化,我们通常会在相关关键词的锚文本中添加一些合理的链接,使链接结构看起来自然而不做作。
  第一种情况,自加权重慢,但广告单价高,流量精准有价值。 使用新闻台制作所谓的“新闻投稿”已经存在多年。 通常结算费用是按50元300条新闻链计算的。 一般情况下是一系列文章。 网站的结构是扁平树,目录结构不宜太深。 每个页面从主页点击不超过 3 次,这对于搜索引擎来说太深了。
  
  关键词优化和整站优化效果 此前,很多专家博主强调利用社交媒体跑长尾SEO,就是通过社交媒体发布长尾内容。 这其实是一个错误的想法,主要原因是:大型网站转发。 搜索引擎优化的变化关键词优化只能保证排名,而排名必须靠点击才能获得流量和访客,而访客是转化的基础。 在图像上使用 alt 属性。
  该属性可以在图片无法加载时在页面显示相关的文字信息,效果相同。 虽然我们可以利用长尾关键词对站内流量入口进行排名,但是对于蜘蛛来说,我们需要在站外建立少量的优质链接,引导蜘蛛继续爬行。 长尾关键词排名常见问题 权威网站一旦转发了长尾内容,自己的网站就很难排在大网站的前列。 至少现阶段,即使有原创链接,作用也有限。
  提高页面加载速度。 可以用css来解决不能使用背景图片的问题,也可以尝试压缩背景图片的大小,可以在一张图片上放几个图标,使用CSSsprite,利用背景位置找到想要的图片位置. 减少 HTTP 请求次数,提高网页加载速度。
  提高内容相关性随着雄跑的引入,SEO技术的排名方式正在被削弱。 也就是说,过去基于超链接技术的搜索排名将被打破,这使得新的SEO更加注重内容质量和社会影响力。 集中网站权重。
  由于蜘蛛给每个页面分配的权重是确定的,并且这些权重会平均分配给每个链接,为了集中网站的权重,我们可以使用“rel=nofollow”属性,告诉蜘蛛分配权重到其他链接而不是爬取目标页面是没有必要的。 关键词优化和全站优化的转化效果 第二种情况,自己的网站获得了快速的流量,但是广告单价低,泛滥,转化率不高。 主要区别:使用关键字挖掘工具进行查询。
  当你试图写文章关于热门关键词的文章时,我们通常会检查相关关键词的数量。 通过对多个相关关键词进行分类,合理分布在段落内容中,可以增加内容的广度,从而提高核心关键词和文章的权威性。 “内容为王”仍然发挥着非常重要的作用,尤其是在新搜索时代,百度对优质内容的支持不断加深,基于区块链技术对原创内容进行识别和保护,让优质内容能够获得合理陈列。

限时免费:伪原创助手(伪原创app下载)

采集交流优采云 发表了文章 • 0 个评论 • 88 次浏览 • 2022-12-16 19:42 • 来自相关话题

  限时免费:伪原创助手(伪原创app下载)
  内容导航:今日头条安全中心关于2021年11月26日持续打击非法账号的公告优采云一键伪原创生成原创文章,这是真的吗文章流畅的伪原创工具好用 有没有采集网站content 文章文章伪原创的软件 我用过这样的软件,推荐一下吧,感谢今日头条平台关于继续打击非法账号的公告2021年2月5日自媒体写文章好帮手,文章伪原创洗1.今日头条安全中心关于持续打击非法账号的公告 2021-11-26
  为营造清朗明朗的网络生态环境,营造安全、健康、绿色的网络空间。今日头条安全中心继续自查自纠,清理违规账号,处理自媒体账号乱象。2021年11月19日至11月25日,平台对违规账户进行封禁1个、扣分/封禁1个、清除账户信息(即“重置”)等处理。接到用户举报后,发现部分作者利用平台功能(私信等)违规宣传或辱骂他人。平台主动排查,并根据相关规定,对相关账号进行封禁、​​禁言、禁私信、并清空账户数据。不同程度的治疗。
  1. 出现以下严重违规行为的,账号将被平台封禁或封禁:
  1. 违反公序良俗
  部分违规账号名单包括:依依爱分享、油腻小鲜肉、稻香村捡柴人、留什么给你、用户林纯等。
  处置案例:
  2、其他严重违规行为被用户举报
  部分违规账号名单,如:冉琪雅、得了吧、野外阿初姐、无声编辑666、小周湘琪等。
  处置案例:
  2、如有以下违规行为,将被平台扣分或清零:
  1、模仿专业机构账户的特点
  处置案例:
  
  2.标题党
  处置案例:
  3. 引导互粉/非法增粉
  处置案例:
  今日头条坚定不移打击各类违法内容,规范头条平台运营,定期公布账号处置名单,及时辟谣,严厉打击头条党、低俗色情、谣言、恶意攻击、花钱购买虚假读数、伪原创、恶意营销等违规行为。我们将进一步加强今日头条账号管理和内容管理,构建更加健康、优质、有益、多元的网络生态。
  今日头条安全中心
  2021 年 11 月 26 日
  2. 优采云单击伪原创 生成原创文章,这是真的吗?
  是假的,即使有了这个一键式伪原创工具,生成的文章也不流畅。
  优采云软文助手是一款针对互联网垂直SEO开发的软文写作工具。优采云 颠覆行业传统写作模式,利用爬虫技术采集抓取同行业数据,利用深度学习方法进行句法语义分析。
  利用指纹索引技术,精准推荐用户需要的相关内容,智能伪原创和相似度检测分析,实现软文写作简单、高效、智能使用工具。优采云将文章采集、AI伪原创、原创检测整合在一起,实现从互联网到互联网的生态链。
  扩展信息
  如何判断伪原创的文章
  
  1、内容相似度是搜索引擎最常用的算法。使用最多的是TF/IDF算法,也是一种计算相关性的算法。TF-IDF的主要含义是:如果一个词或词组在一个文章中频繁出现而在另一个文章中很少出现,则认为该词或词组具有很好的识别能力区分类别,适合分类。
  2、数据指纹,搜索引擎在通过相似度采集文章时,需要判断是否是重复的文章。经常使用数据指纹。数据指纹的算法有很多,常见的如 文章 的标点符号提出来进行比较;
  很难想象两个不同的 文章 具有一致的标点符号。还有就是向量的比较,就是TF词频(关键词密度)等等来判断。
  现在很多伪原创工具只是替换关键词,标点符号的指纹保持不变,甚至TF词的频率也保持不变。重做文章的段落,这确实把标点打乱了,但是向量和词频的问题依然存在。
  3.代码噪音。一般Google会区分code layout和noise ratio,哪些是navigation哪些是text,可以忽略一些典型的代码。整个页面降噪,方便搜索引擎确认文字,但文字区域要适当干燥,增加搜索引擎识别重复的难度。
  3. 哪个文章流畅的伪原创工具好用?试试类AI复制伪原创工具,现在这种伪原创 文章还是很流畅的,不再是那种替换同义词或者打乱文章顺序的老办法了>。前段时间在百度上找到了一个智能媒体ai写作助手来处理文章。很顺利,如果你还没有找到,你可以试试。4、文章文章伪原创采集网站内容有没有可以快速使用的软件?请推荐这种软件,谢谢。我现在在用一个叫虫虫营销助手的软件,功能非常强大,可以将大量的采集信息进行到“伪原创”,轻松发布到大型门户论坛、博客、效果不错。5.
  为切实履行企业主体责任,营造健康有序的网络环境,根据网信部门要求,今日头条头条平台进一步加强对企业主体责任的自查自纠。 自媒体账号乱码问题,彻底清理违规账号。为规范网络交流秩序,自2021年1月30日至2月5日,平台封禁1个账号,扣分/封禁1个账号。
  1.标题党
  部分违规账号名单:丝瓜咕噜咕噜、大网小七、超人记、爱泡娱乐星锐、乔妹想被保护等。
  2.粗俗
  部分违规账号名单:软雾肉肉、小东云吞、闲无聊、大吉合药、QWE一二三等。
  3.谣言
  部分违规账号名单:八卦天天看、红叶的黄、小鱼影视酱、上官青云的弟弟、各种搞笑合集等。
  分享文章:在线伪原创文章生成源码
  在线伪原创文章生成源码,2支持中英文,生成的原创文章更容易被搜索引擎青睐。在线 伪原创文章 生成器软件,3 考虑 文章 标题、字体大小、给定的链接
  在线伪原创文章生成器软件,文章末尾4,直接给原创文章外链
  在线伪原创文章生成软件,5可以在文章末尾添加相关话题,例如:想了解更多seo相关信息,可以搜索“seo 网站优化”。在线伪原创文章生成器软件,6.在线伪原创文章生成器软件,比如“seo网站优化工具”,属于纯文本知识部分,也就是谷歌认证的国内最适合人们SEO的网站工具。
  在线伪原创文章生成软件,1只能生成中文版,但是标题可以作为站名。Google 使用它来创建某些外部链接以提高关键字排名。
  
  在线伪原创文章生成软件,2 原创文章提供。
  为什么seo网站优化工具需要seo伪原创文章生成软件,3外链建设:为了增加网站的权重和排名,建议放置in external links网站 链接。
  大多数时候,我们谈论的是关键词。此时,我们认为在文章页面添加外链是最有效的,因为我们的网站也是这样更新外链的,所以为了避免这种Fair判断,我们可以在文章中加一些关键词,比如:做减肥的,做电脑维修的,做360健康的,做美容的等等。比加关键词好到 文章。seo 伪原创文章代软件
  seo伪原创文章生成软件:seo伪原创论坛谁找群文章 4.在文章中嵌入链接锚文本
  如果有必要,最好在前面链接,将要添加的链接留在顶部和底部,而不是左侧或右侧,这样更直观,更容易理解。
  
  . seo 伪原创文章代软件
  5、文章字体通常设置为默认字体,字号也设置为默认字体。字体颜色为黑色
  6、字体段落前要有两个空格。天猫SEO优化。
  7. 文章
  相关文章 查看全部

  限时免费:伪原创助手(伪原创app下载)
  内容导航:今日头条安全中心关于2021年11月26日持续打击非法账号的公告优采云一键伪原创生成原创文章,这是真的吗文章流畅的伪原创工具好用 有没有采集网站content 文章文章伪原创的软件 我用过这样的软件,推荐一下吧,感谢今日头条平台关于继续打击非法账号的公告2021年2月5日自媒体写文章好帮手,文章伪原创洗1.今日头条安全中心关于持续打击非法账号的公告 2021-11-26
  为营造清朗明朗的网络生态环境,营造安全、健康、绿色的网络空间。今日头条安全中心继续自查自纠,清理违规账号,处理自媒体账号乱象。2021年11月19日至11月25日,平台对违规账户进行封禁1个、扣分/封禁1个、清除账户信息(即“重置”)等处理。接到用户举报后,发现部分作者利用平台功能(私信等)违规宣传或辱骂他人。平台主动排查,并根据相关规定,对相关账号进行封禁、​​禁言、禁私信、并清空账户数据。不同程度的治疗。
  1. 出现以下严重违规行为的,账号将被平台封禁或封禁:
  1. 违反公序良俗
  部分违规账号名单包括:依依爱分享、油腻小鲜肉、稻香村捡柴人、留什么给你、用户林纯等。
  处置案例:
  2、其他严重违规行为被用户举报
  部分违规账号名单,如:冉琪雅、得了吧、野外阿初姐、无声编辑666、小周湘琪等。
  处置案例:
  2、如有以下违规行为,将被平台扣分或清零:
  1、模仿专业机构账户的特点
  处置案例:
  
  2.标题党
  处置案例:
  3. 引导互粉/非法增粉
  处置案例:
  今日头条坚定不移打击各类违法内容,规范头条平台运营,定期公布账号处置名单,及时辟谣,严厉打击头条党、低俗色情、谣言、恶意攻击、花钱购买虚假读数、伪原创、恶意营销等违规行为。我们将进一步加强今日头条账号管理和内容管理,构建更加健康、优质、有益、多元的网络生态。
  今日头条安全中心
  2021 年 11 月 26 日
  2. 优采云单击伪原创 生成原创文章,这是真的吗?
  是假的,即使有了这个一键式伪原创工具,生成的文章也不流畅。
  优采云软文助手是一款针对互联网垂直SEO开发的软文写作工具。优采云 颠覆行业传统写作模式,利用爬虫技术采集抓取同行业数据,利用深度学习方法进行句法语义分析。
  利用指纹索引技术,精准推荐用户需要的相关内容,智能伪原创和相似度检测分析,实现软文写作简单、高效、智能使用工具。优采云将文章采集、AI伪原创、原创检测整合在一起,实现从互联网到互联网的生态链。
  扩展信息
  如何判断伪原创的文章
  
  1、内容相似度是搜索引擎最常用的算法。使用最多的是TF/IDF算法,也是一种计算相关性的算法。TF-IDF的主要含义是:如果一个词或词组在一个文章中频繁出现而在另一个文章中很少出现,则认为该词或词组具有很好的识别能力区分类别,适合分类。
  2、数据指纹,搜索引擎在通过相似度采集文章时,需要判断是否是重复的文章。经常使用数据指纹。数据指纹的算法有很多,常见的如 文章 的标点符号提出来进行比较;
  很难想象两个不同的 文章 具有一致的标点符号。还有就是向量的比较,就是TF词频(关键词密度)等等来判断。
  现在很多伪原创工具只是替换关键词,标点符号的指纹保持不变,甚至TF词的频率也保持不变。重做文章的段落,这确实把标点打乱了,但是向量和词频的问题依然存在。
  3.代码噪音。一般Google会区分code layout和noise ratio,哪些是navigation哪些是text,可以忽略一些典型的代码。整个页面降噪,方便搜索引擎确认文字,但文字区域要适当干燥,增加搜索引擎识别重复的难度。
  3. 哪个文章流畅的伪原创工具好用?试试类AI复制伪原创工具,现在这种伪原创 文章还是很流畅的,不再是那种替换同义词或者打乱文章顺序的老办法了>。前段时间在百度上找到了一个智能媒体ai写作助手来处理文章。很顺利,如果你还没有找到,你可以试试。4、文章文章伪原创采集网站内容有没有可以快速使用的软件?请推荐这种软件,谢谢。我现在在用一个叫虫虫营销助手的软件,功能非常强大,可以将大量的采集信息进行到“伪原创”,轻松发布到大型门户论坛、博客、效果不错。5.
  为切实履行企业主体责任,营造健康有序的网络环境,根据网信部门要求,今日头条头条平台进一步加强对企业主体责任的自查自纠。 自媒体账号乱码问题,彻底清理违规账号。为规范网络交流秩序,自2021年1月30日至2月5日,平台封禁1个账号,扣分/封禁1个账号。
  1.标题党
  部分违规账号名单:丝瓜咕噜咕噜、大网小七、超人记、爱泡娱乐星锐、乔妹想被保护等。
  2.粗俗
  部分违规账号名单:软雾肉肉、小东云吞、闲无聊、大吉合药、QWE一二三等。
  3.谣言
  部分违规账号名单:八卦天天看、红叶的黄、小鱼影视酱、上官青云的弟弟、各种搞笑合集等。
  分享文章:在线伪原创文章生成源码
  在线伪原创文章生成源码,2支持中英文,生成的原创文章更容易被搜索引擎青睐。在线 伪原创文章 生成器软件,3 考虑 文章 标题、字体大小、给定的链接
  在线伪原创文章生成器软件,文章末尾4,直接给原创文章外链
  在线伪原创文章生成软件,5可以在文章末尾添加相关话题,例如:想了解更多seo相关信息,可以搜索“seo 网站优化”。在线伪原创文章生成器软件,6.在线伪原创文章生成器软件,比如“seo网站优化工具”,属于纯文本知识部分,也就是谷歌认证的国内最适合人们SEO的网站工具。
  在线伪原创文章生成软件,1只能生成中文版,但是标题可以作为站名。Google 使用它来创建某些外部链接以提高关键字排名。
  
  在线伪原创文章生成软件,2 原创文章提供。
  为什么seo网站优化工具需要seo伪原创文章生成软件,3外链建设:为了增加网站的权重和排名,建议放置in external links网站 链接。
  大多数时候,我们谈论的是关键词。此时,我们认为在文章页面添加外链是最有效的,因为我们的网站也是这样更新外链的,所以为了避免这种Fair判断,我们可以在文章中加一些关键词,比如:做减肥的,做电脑维修的,做360健康的,做美容的等等。比加关键词好到 文章。seo 伪原创文章代软件
  seo伪原创文章生成软件:seo伪原创论坛谁找群文章 4.在文章中嵌入链接锚文本
  如果有必要,最好在前面链接,将要添加的链接留在顶部和底部,而不是左侧或右侧,这样更直观,更容易理解。
  
  . seo 伪原创文章代软件
  5、文章字体通常设置为默认字体,字号也设置为默认字体。字体颜色为黑色
  6、字体段落前要有两个空格。天猫SEO优化。
  7. 文章
  相关文章

解读:一个月文章句子采集软件【收费系统高标准全系列】

采集交流优采云 发表了文章 • 0 个评论 • 88 次浏览 • 2022-12-15 20:18 • 来自相关话题

  解读:一个月文章句子采集软件【收费系统高标准全系列】
  
  文章句子采集软件【文章句子采集软件】收费系统高标准全系列,总价3000元。根据采集广告形式划分系统方案,优质广告上线,为用户提供流量。针对全行业用户在流量采集方面有强大的支持,24小时不间断在线。主要方案设置以及采集时间全国任何地区,任何时间不限流量任何类型广告,无需局限在某一个地区范围提供流量采集,如。
  
  电视广告与视频广告,企业场景的采集,语音广告,动态二维码采集,图片采集等等任何您想采集的任何信息(视频、音频、图片、语音等任何相关信息)可用户根据流量采集方案的内容来选择任何一款,一键采集所需内容可免费试用一个月文章句子采集软件【文章句子采集软件】功能介绍文章句子采集采集的数据统计文章句子采集软件【文章句子采集软件】可以采集哪些内容目前,文章句子采集软件【文章句子采集软件】收集全国十几个城市,地区的包括河南河北,青海贵州等地方的电视,网络广告,语音,微信公众号,动态二维码等信息。
  图片采集文章句子采集到相关图片,可供用户直接上传自己图片,然后采集,上传自己图片。语音采集语音采集,如,上传我们电台发出的文章声音,音频等,文章句子采集软件【文章句子采集软件】收集到的信息,在用户操作中无论如何操作,用户的整个过程都必须在电脑上进行。可以实现用户在手机上直接操作,无需局限地域。 查看全部

  解读:一个月文章句子采集软件【收费系统高标准全系列】
  
  文章句子采集软件文章句子采集软件】收费系统高标准全系列,总价3000元。根据采集广告形式划分系统方案,优质广告上线,为用户提供流量。针对全行业用户在流量采集方面有强大的支持,24小时不间断在线。主要方案设置以及采集时间全国任何地区,任何时间不限流量任何类型广告,无需局限在某一个地区范围提供流量采集,如。
  
  电视广告与视频广告,企业场景的采集,语音广告,动态二维码采集,图片采集等等任何您想采集的任何信息(视频、音频、图片、语音等任何相关信息)可用户根据流量采集方案的内容来选择任何一款,一键采集所需内容可免费试用一个月文章句子采集软件文章句子采集软件】功能介绍文章句子采集采集的数据统计文章句子采集软件文章句子采集软件】可以采集哪些内容目前,文章句子采集软件文章句子采集软件】收集全国十几个城市,地区的包括河南河北,青海贵州等地方的电视,网络广告,语音,微信公众号,动态二维码等信息。
  图片采集文章句子采集到相关图片,可供用户直接上传自己图片,然后采集,上传自己图片。语音采集语音采集,如,上传我们电台发出的文章声音,音频等,文章句子采集软件文章句子采集软件】收集到的信息,在用户操作中无论如何操作,用户的整个过程都必须在电脑上进行。可以实现用户在手机上直接操作,无需局限地域。

总结:实战独立项目「几行字」:从想法到上线全过程

采集交流优采云 发表了文章 • 0 个评论 • 89 次浏览 • 2022-12-04 22:41 • 来自相关话题

  总结:实战独立项目「几行字」:从想法到上线全过程
  主意
  一开始看到毒鸡汤项目(作者自己的域名已经不能访问了,一开始也自己创建了一个学习部署的副本,网址:poison),觉得很有趣,简单又实用有趣的
  后来看到今日诗歌,就不一样了,无非就是提供一个API调用而已。
  这两篇文章都超过1000+星,这么简单的应用竟然这么受欢迎,有点羡慕
  出于好奇,接触到了vite、tailwindcss等新技术,于是想用vite搭建一个react应用,样式是用tailwindcss定制的,所以想做一个简单的应用。后来越想越有后续的打算。,直接说规划
  规划
  本项目是一整套从idea,画原型,写前端,设计,部署,后台,后台,从idea到实现
  我写这篇 文章 的计划是:
  第一阶段:提出想法,画原型,制作静态页面,部署上线,即静态独立项目
  第二阶段:用vite+react开发这个项目,添加功能,比如可选主题色,分享卡片等功能
  第三阶段:数据不能裸泳,配置后台功能和后台编辑功能
  第 4 阶段:使其成为 Flutter 版本
  第五阶段:做成小程序版
  笔者不会一口气搞定这五个阶段。有些东西只是想法,实际实施起来肯定会比想象的困难很多。
  采集材料
  在混知乎之前,我也关注了几个关于句子的问题,比如,你读过的最有力量的一段文字是什么?, 有哪些适合摘录的句子, 有的句子我很喜欢, 有的可以启发, 与其这样, 还不如采集一些好评如潮的句子, 做成毒鸡汤, 今日诗词之类的应用
  于是,我每天去知乎上传手册收录资料,加上我之前的盘点,大概采集了100多条数据(第一阶段写的),
  绘制原型
  以简单为主,能避免的都不需要。大致是这样画的
  原型
  写页初始化页
  npm init -y
  为什么要做一个函数?因为我们要用tailwind,所以官方支持这种方式,构建的时候会tree-shake,可以减少很多不必要的代码
  后续可以看官网的安装指南
  通过 npm 安装 Tailwind
  npm install tailwindcss@latest postcss@latest autoprefixer@latest
  添加 Tailwind 作为 PostCSS 插件
  // postcss.config.js
module.exports = {
plugins: {
tailwindcss: {},
autoprefixer: {},
<p>
},
}</p>
  创建tailwindcss配置文件
  npx tailwindcss init
  这将在您的项目根目录中创建一个最小的 tailwind.config.js 文件。
  // tailwind.config.js
module.exports = {
purge: [],
darkMode: false, // or &#39;media&#39; or &#39;class&#39;
theme: {
extend: {},
},
variants: {},
plugins: [],
}
  新 tailwind.css
  导入顺风代码
  @tailwind base;
@tailwind components;
@tailwind utilities;
  新索引.html
  在代码中引入css,编写html代码
  这里就不细说了,因为花了不少时间,参数也太多了。大部分都是看到自己的原型就拿走,然后删除、删除、修改。
  新数据.js
  之前搜集了很多资料,导入到data.js中,写了如下逻辑。在浏览器中读取的句子保存在本地存储中。句子是随机生成的,如果随机生成的句子在本地存储,则重新生成。当所有句子都存储在本地存储中时,清除所有本地存储。
  因为我的有些内容不是句子,而是数组,所以在插入内容的时候需要判断,根据不同的情况做出不同的效果
  这里遇到了一些问题,记录一下。太久没写原作了。我忘记了用于插入 html 的 API。我忘记了 innerHTML 和 appendChild 之间的区别。
  innerHTML:可以插入一段html,例如
  我是p标签
  appendChild : 在内容末尾插入节点,先创建标签,再插入
  封装成三种方法,分别是拉取数据、保存本地存储、插入网页
  制作设计
  我参考了一些其他人关于制作logo的建议,最推荐的是logo神器。我按照提示操作,这就是设计。
  
  标识
  很遗憾,从个人审美角度来说,这个设计太蠢了,所以用Photoshop做了一个,
  SEO 优化的图标处理
  从logo中扣除几个字,上传到网站,导出favicon,
  设置头部信息
  


几行字









  关键词我不会写,先写吧,以后有灵感再补上
  部署
  笔者之前写过使用Github Actions部署前端,也成功部署过毒鸡汤。大致流程如下
  申请阿里云容器镜像服务,将代码推送到Github仓库,触发Github Actions,在Github Actions中登录阿里云容器镜像服务,将代码打包成镜像,推送到个人镜像站远端,登录服务器,执行拉取镜像的脚本
  主要逻辑是这样的,但是实现起来很麻烦。最好直接部署。什么是直接部署就是本地部署到线上。最有用的是now,也就是current vercel。笔者之前部署过几个项目。,好熟悉的路
  直接部署上线:
  在阿里云上做一些映射:
  这是第一阶段的结束
  技巧:SEO基础入门专业词汇大全,想转行的来看~
  内部和外部链接,页面 收录 和页面收录,
  链接农场与内容农场,静态页面与动态页面,
  文本链接、超链接、锚文本链接
  重量
  首先你要明白,百度的权重并不是百度官方的数据,而是根据爱站设定的公式计算出来的。可以通过人工操作增加百度的权重。
  但是,权重仍然是SEO从业者分析网站的一个数据标准。当我们审视权重的本质时,我们正在审视 网站 的质量。一般认为,权重越高的网站在收录量、快照、核心关键词排名、外部链接和alex排名方面表现更好。但是只看重量是不够的,判断网站的质量还需要判断网站的历史收录数量,从而判断网站是否有被降级。
  因此,评价一款网站的好坏,不仅要看当前的数据,还要查看其历史收录的成交量,进行对比。可能有问题。
  在具有正常结构的网站中,权重的顺序如下:
  首页&gt;子域首页&gt;顶级域下目录&gt;子域下同级目录&gt;顶级域下内容页&gt;子域下内容页
  作者的经历:
  真正提高网站权重(非作弊)的方法应该是内外兼修:
  外部:高质量的外部链接支持
  内部:网站内容建设,增加网站收录数量,提升网站品牌知名度,加强网站社交网站传播
  关键词
  在搜索引擎中,关键词是指用户在寻找相关内容时使用的信息。它是搜索应用的基础,搜索引擎优化的本质是提高页面与其对应的关键词性的相关性。
  在SEO领域,关键词分为:主关键词(也叫核心词),辅助关键词(也叫副关键词),长尾关键词
  
  在构建网站之前,我们需要确定我们的核心关键词布局在首页,辅助关键词布局在栏目页,确定长尾关键词 在内容页面上布局。
  首选域
  首选域是我们希望 网站 出现在搜索结果中的格式。也就是说,当我们访问网站的首页时,显示的域名是网站的首选域名。
  作者的经历:
  我们的首选域名尽量设置成诸如此类的形式,这与国人的阅读习惯有关。我们可以在空间后台设置首选域名。
  ALT 属性
  alt属性是对图片所表达内容的解释。如果将光标放在图片上,出现提示,则说明该图片添加了alt属性。
  alt 属性具有以下作用:
  1.帮助搜索引擎识别图片内容
  2.增强内容相关性,帮助图片参与排名
  3、alt属性帮助用户了解图片内容
  4.当图片无法正常显示时,用户知道这里显示的是什么内容,因为alt属性是图片最好的替代品
  5、如果要做图片优化,不仅要加alt标签,还要在图片下面加上关键词和链接
  作者的经历:
  ALT属性是搜索引擎比较重视的一个属性,所以我们在设置alt属性的时候应该尽量用简洁明了的方式来表达图片的内容,而不是堆砌关键词。也就是说,我们只需要说明图片中是什么产品或内容即可。
  值得注意的是,无论用什么方式来表达图片的内容,alt永远无法替代文字内容。所以当我们在页面上遇到比较重要的内容时,我们应该尽量避免用图片来表达。
  网站地图
  
  网站地图是网站整体内容的导航,主要包括网站的主要页面
  网站地图的作用:
  1.路径优化的补充。有些路径关卡会很深,蜘蛛自己可能很难掌握,所以需要一张地图让蜘蛛自己掌握
  2、网站的内容质量有问题,需要微调,但是搜索引擎不知道网站变了。这时候就需要更新地图,让蜘蛛重新爬行
  作者的经历:
  新的网站不需要网站地图,网站达到一定等级后才需要网站地图,网站地图一般都是以xml格式使用。
  使用工具产生实际行动:
  一、准备工具:
  在线的:
  软件:SitemapX、Tiger 站点地图
  2、上传到根目录也可以,也可以不上传,但是一定要记住地图所在的路径。
  百度指数
  官方介绍是这样的:百度指数是一个基于百度海量互联网用户行为数据的数据共享平台。通过百度指数,您可以研究关键词搜索趋势,洞察网民兴趣和需求,监测舆情动向,定位受众特征。
  自2013年百度指数改版以来,这个工具的功能越来越强大,已经成为我们SEO从业者分析受众需求的必备工具之一。
  另外要提醒大家的是,百度指数不等于关键词的搜索量,百度指数只是一个关键词的搜索频次的累加,而搜索量是这个关键词的真实搜索量,如果想知道某个关键词的准确搜索量,需要用百度推广助手查询。 查看全部

  总结:实战独立项目「几行字」:从想法到上线全过程
  主意
  一开始看到毒鸡汤项目(作者自己的域名已经不能访问了,一开始也自己创建了一个学习部署的副本,网址:poison),觉得很有趣,简单又实用有趣的
  后来看到今日诗歌,就不一样了,无非就是提供一个API调用而已。
  这两篇文章都超过1000+星,这么简单的应用竟然这么受欢迎,有点羡慕
  出于好奇,接触到了vite、tailwindcss等新技术,于是想用vite搭建一个react应用,样式是用tailwindcss定制的,所以想做一个简单的应用。后来越想越有后续的打算。,直接说规划
  规划
  本项目是一整套从idea,画原型,写前端,设计,部署,后台,后台,从idea到实现
  我写这篇 文章 的计划是:
  第一阶段:提出想法,画原型,制作静态页面,部署上线,即静态独立项目
  第二阶段:用vite+react开发这个项目,添加功能,比如可选主题色,分享卡片等功能
  第三阶段:数据不能裸泳,配置后台功能和后台编辑功能
  第 4 阶段:使其成为 Flutter 版本
  第五阶段:做成小程序版
  笔者不会一口气搞定这五个阶段。有些东西只是想法,实际实施起来肯定会比想象的困难很多。
  采集材料
  在混知乎之前,我也关注了几个关于句子的问题,比如,你读过的最有力量的一段文字是什么?, 有哪些适合摘录的句子, 有的句子我很喜欢, 有的可以启发, 与其这样, 还不如采集一些好评如潮的句子, 做成毒鸡汤, 今日诗词之类的应用
  于是,我每天去知乎上传手册收录资料,加上我之前的盘点,大概采集了100多条数据(第一阶段写的),
  绘制原型
  以简单为主,能避免的都不需要。大致是这样画的
  原型
  写页初始化页
  npm init -y
  为什么要做一个函数?因为我们要用tailwind,所以官方支持这种方式,构建的时候会tree-shake,可以减少很多不必要的代码
  后续可以看官网的安装指南
  通过 npm 安装 Tailwind
  npm install tailwindcss@latest postcss@latest autoprefixer@latest
  添加 Tailwind 作为 PostCSS 插件
  // postcss.config.js
module.exports = {
plugins: {
tailwindcss: {},
autoprefixer: {},
<p>
},
}</p>
  创建tailwindcss配置文件
  npx tailwindcss init
  这将在您的项目根目录中创建一个最小的 tailwind.config.js 文件。
  // tailwind.config.js
module.exports = {
purge: [],
darkMode: false, // or &#39;media&#39; or &#39;class&#39;
theme: {
extend: {},
},
variants: {},
plugins: [],
}
  新 tailwind.css
  导入顺风代码
  @tailwind base;
@tailwind components;
@tailwind utilities;
  新索引.html
  在代码中引入css,编写html代码
  这里就不细说了,因为花了不少时间,参数也太多了。大部分都是看到自己的原型就拿走,然后删除、删除、修改。
  新数据.js
  之前搜集了很多资料,导入到data.js中,写了如下逻辑。在浏览器中读取的句子保存在本地存储中。句子是随机生成的,如果随机生成的句子在本地存储,则重新生成。当所有句子都存储在本地存储中时,清除所有本地存储。
  因为我的有些内容不是句子,而是数组,所以在插入内容的时候需要判断,根据不同的情况做出不同的效果
  这里遇到了一些问题,记录一下。太久没写原作了。我忘记了用于插入 html 的 API。我忘记了 innerHTML 和 appendChild 之间的区别。
  innerHTML:可以插入一段html,例如
  我是p标签
  appendChild : 在内容末尾插入节点,先创建标签,再插入
  封装成三种方法,分别是拉取数据、保存本地存储、插入网页
  制作设计
  我参考了一些其他人关于制作logo的建议,最推荐的是logo神器。我按照提示操作,这就是设计。
  
  标识
  很遗憾,从个人审美角度来说,这个设计太蠢了,所以用Photoshop做了一个,
  SEO 优化的图标处理
  从logo中扣除几个字,上传到网站,导出favicon,
  设置头部信息
  


几行字









  关键词我不会写,先写吧,以后有灵感再补上
  部署
  笔者之前写过使用Github Actions部署前端,也成功部署过毒鸡汤。大致流程如下
  申请阿里云容器镜像服务,将代码推送到Github仓库,触发Github Actions,在Github Actions中登录阿里云容器镜像服务,将代码打包成镜像,推送到个人镜像站远端,登录服务器,执行拉取镜像的脚本
  主要逻辑是这样的,但是实现起来很麻烦。最好直接部署。什么是直接部署就是本地部署到线上。最有用的是now,也就是current vercel。笔者之前部署过几个项目。,好熟悉的路
  直接部署上线:
  在阿里云上做一些映射:
  这是第一阶段的结束
  技巧:SEO基础入门专业词汇大全,想转行的来看~
  内部和外部链接,页面 收录 和页面收录,
  链接农场与内容农场,静态页面与动态页面,
  文本链接、超链接、锚文本链接
  重量
  首先你要明白,百度的权重并不是百度官方的数据,而是根据爱站设定的公式计算出来的。可以通过人工操作增加百度的权重。
  但是,权重仍然是SEO从业者分析网站的一个数据标准。当我们审视权重的本质时,我们正在审视 网站 的质量。一般认为,权重越高的网站在收录量、快照、核心关键词排名、外部链接和alex排名方面表现更好。但是只看重量是不够的,判断网站的质量还需要判断网站的历史收录数量,从而判断网站是否有被降级。
  因此,评价一款网站的好坏,不仅要看当前的数据,还要查看其历史收录的成交量,进行对比。可能有问题。
  在具有正常结构的网站中,权重的顺序如下:
  首页&gt;子域首页&gt;顶级域下目录&gt;子域下同级目录&gt;顶级域下内容页&gt;子域下内容页
  作者的经历:
  真正提高网站权重(非作弊)的方法应该是内外兼修:
  外部:高质量的外部链接支持
  内部:网站内容建设,增加网站收录数量,提升网站品牌知名度,加强网站社交网站传播
  关键词
  在搜索引擎中,关键词是指用户在寻找相关内容时使用的信息。它是搜索应用的基础,搜索引擎优化的本质是提高页面与其对应的关键词性的相关性。
  在SEO领域,关键词分为:主关键词(也叫核心词),辅助关键词(也叫副关键词),长尾关键词
  
  在构建网站之前,我们需要确定我们的核心关键词布局在首页,辅助关键词布局在栏目页,确定长尾关键词 在内容页面上布局。
  首选域
  首选域是我们希望 网站 出现在搜索结果中的格式。也就是说,当我们访问网站的首页时,显示的域名是网站的首选域名。
  作者的经历:
  我们的首选域名尽量设置成诸如此类的形式,这与国人的阅读习惯有关。我们可以在空间后台设置首选域名。
  ALT 属性
  alt属性是对图片所表达内容的解释。如果将光标放在图片上,出现提示,则说明该图片添加了alt属性。
  alt 属性具有以下作用:
  1.帮助搜索引擎识别图片内容
  2.增强内容相关性,帮助图片参与排名
  3、alt属性帮助用户了解图片内容
  4.当图片无法正常显示时,用户知道这里显示的是什么内容,因为alt属性是图片最好的替代品
  5、如果要做图片优化,不仅要加alt标签,还要在图片下面加上关键词和链接
  作者的经历:
  ALT属性是搜索引擎比较重视的一个属性,所以我们在设置alt属性的时候应该尽量用简洁明了的方式来表达图片的内容,而不是堆砌关键词。也就是说,我们只需要说明图片中是什么产品或内容即可。
  值得注意的是,无论用什么方式来表达图片的内容,alt永远无法替代文字内容。所以当我们在页面上遇到比较重要的内容时,我们应该尽量避免用图片来表达。
  网站地图
  
  网站地图是网站整体内容的导航,主要包括网站的主要页面
  网站地图的作用:
  1.路径优化的补充。有些路径关卡会很深,蜘蛛自己可能很难掌握,所以需要一张地图让蜘蛛自己掌握
  2、网站的内容质量有问题,需要微调,但是搜索引擎不知道网站变了。这时候就需要更新地图,让蜘蛛重新爬行
  作者的经历:
  新的网站不需要网站地图,网站达到一定等级后才需要网站地图,网站地图一般都是以xml格式使用。
  使用工具产生实际行动:
  一、准备工具:
  在线的:
  软件:SitemapX、Tiger 站点地图
  2、上传到根目录也可以,也可以不上传,但是一定要记住地图所在的路径。
  百度指数
  官方介绍是这样的:百度指数是一个基于百度海量互联网用户行为数据的数据共享平台。通过百度指数,您可以研究关键词搜索趋势,洞察网民兴趣和需求,监测舆情动向,定位受众特征。
  自2013年百度指数改版以来,这个工具的功能越来越强大,已经成为我们SEO从业者分析受众需求的必备工具之一。
  另外要提醒大家的是,百度指数不等于关键词的搜索量,百度指数只是一个关键词的搜索频次的累加,而搜索量是这个关键词的真实搜索量,如果想知道某个关键词的准确搜索量,需要用百度推广助手查询。

解决方案:文章句子采集软件,自动化的句子匹配软件-乐题库

采集交流优采云 发表了文章 • 0 个评论 • 78 次浏览 • 2022-12-02 22:35 • 来自相关话题

  解决方案:文章句子采集软件,自动化的句子匹配软件-乐题库
  文章句子采集软件,自动化的句子匹配软件。任务目标:根据出发点“辞旧迎新”,自动匹配从不同表达上的语言特征和文本特征。方法:主要根据《新编汉语语言研究教程》提到的机器学习算法进行数据采集。
  4),
  4)和一段话(t1,t2t
  
  4)。因为新书原文没有进行文本格式转换,我们需要下载字典文件并对其进行格式化。我们采用kaldi下一种特定的文本识别算法。与其他算法的流程是一样的,首先搜索候选词汇,然后构建文本库。
  一段话例如a:今日暑假开始啦b:今日晴空万里c:今日雨水多d:今日特别热e:今日金秋阳光灿烂f:a:为了庆祝#,#上演#戏戏戏歌戏#戏街戏院戏戏#戏戏#演#戏#剧#戏院#院戏演戏#院剧剧#戏#院#戏戏#话戏#戏院院#话话话话话-e"o"endendmodelsandmethods:
  1)utilizethefrontiertoembeddingandfine-grainednetworkrepresentations.trainafrontierintroductiontothiscaseandthedataset.
  
  2)trainembeddingandsemanticmatchingcodeincartographicfuturetomakethenetworkmatchestheprefixesofencoderstandardsandfocusthrougheasingofthecode,andmakedatagapbetweenthesentence,andeachofthecodetomatchthenercontent,language,andwordembeddingfeatures。
  testembeddings,copythebook,andrunthetestbydatadownloadertodisplaymodelpresentation。(。
  3)runembeddingsusingattentionmechanismandtrainwordembeddingsandsimilaritymatchingannotatethefigurebackgroundsandpresentationsonattentionmechanism。thiswillreplacebackgroundclassificationsbygeneratingatleastembeddings。testdatafromcartographicnetwork。(。
  4)displayembeddingsinenglishandfrenchpartially,andgeneratewordautocorrectnessvaluesforimplicittraining.testembeddingsinfrench.使用吴恩达机器学习在线课 查看全部

  解决方案:文章句子采集软件,自动化的句子匹配软件-乐题库
  文章句子采集软件,自动化的句子匹配软件。任务目标:根据出发点“辞旧迎新”,自动匹配从不同表达上的语言特征和文本特征。方法:主要根据《新编汉语语言研究教程》提到的机器学习算法进行数据采集。
  4),
  4)和一段话(t1,t2t
  
  4)。因为新书原文没有进行文本格式转换,我们需要下载字典文件并对其进行格式化。我们采用kaldi下一种特定的文本识别算法。与其他算法的流程是一样的,首先搜索候选词汇,然后构建文本库。
  一段话例如a:今日暑假开始啦b:今日晴空万里c:今日雨水多d:今日特别热e:今日金秋阳光灿烂f:a:为了庆祝#,#上演#戏戏戏歌戏#戏街戏院戏戏#戏戏#演#戏#剧#戏院#院戏演戏#院剧剧#戏#院#戏戏#话戏#戏院院#话话话话话-e"o"endendmodelsandmethods:
  1)utilizethefrontiertoembeddingandfine-grainednetworkrepresentations.trainafrontierintroductiontothiscaseandthedataset.
  
  2)trainembeddingandsemanticmatchingcodeincartographicfuturetomakethenetworkmatchestheprefixesofencoderstandardsandfocusthrougheasingofthecode,andmakedatagapbetweenthesentence,andeachofthecodetomatchthenercontent,language,andwordembeddingfeatures。
  testembeddings,copythebook,andrunthetestbydatadownloadertodisplaymodelpresentation。(。
  3)runembeddingsusingattentionmechanismandtrainwordembeddingsandsimilaritymatchingannotatethefigurebackgroundsandpresentationsonattentionmechanism。thiswillreplacebackgroundclassificationsbygeneratingatleastembeddings。testdatafromcartographicnetwork。(。
  4)displayembeddingsinenglishandfrenchpartially,andgeneratewordautocorrectnessvaluesforimplicittraining.testembeddingsinfrench.使用吴恩达机器学习在线课

直观:多句子同时采集,速度比较快,句子全覆盖!

采集交流优采云 发表了文章 • 0 个评论 • 109 次浏览 • 2022-12-01 23:25 • 来自相关话题

  直观:多句子同时采集,速度比较快,句子全覆盖!
  文章句子采集软件,一款非常好用的文章句子采集软件,和智能采集一样,多句子同时采集!速度比较快,句子全覆盖!软件提供免费试用版!试用版功能:免费试用版提供一键多句采集功能,和智能采集一样,多句子同时采集!句子采集,和采集关键词结合使用,实现找词功能,
  
  蝉大师_专业数据采集软件对这个问题有一定的了解,云采集器确实可以实现多文章互采,在采集速度和效率方面确实有一定的优势,但互采成本却在增加,而且文章的数量随着人工打理,存在一定的不可控因素,所以人工采集某些不可控因素越来越少,但多句子采集还是有很大的市场需求,云采集器毕竟存在的不是很久,所以市场需求不够强烈。
  
  智能采集也是一个必不可少的功能,但是高并发采集确实存在一定的不可控性,比如高并发的断网等问题,这个确实是无法预计的,但这些小问题并不妨碍多句子采集这个功能的出现。即便不考虑硬件问题,云采集器采集效率也还是相对比较慢,关键是多句子采集可以自动监控目标网站的数据变化并及时采集,存在一定的非主动操作的要求,毕竟用户采集的是关键字并不是长难句。
  针对题主提出的,采集网页文章虽然对用户的要求较高,但用户目前大多数处于潜在用户的状态,需要培养用户的习惯,针对该问题,有些答案也指出,目前多句子采集能在上线测试期间尽量提高准确率,这对未来将是很有意义的,毕竟很多用户也不是根据多句子来对网站进行采集的,但积极响应确实能提高用户体验。希望我的回答能帮助到你。 查看全部

  直观:多句子同时采集,速度比较快,句子全覆盖!
  文章句子采集软件,一款非常好用的文章句子采集软件,和智能采集一样,多句子同时采集!速度比较快,句子全覆盖!软件提供免费试用版!试用版功能:免费试用版提供一键多句采集功能,和智能采集一样,多句子同时采集!句子采集,和采集关键词结合使用,实现找词功能,
  
  蝉大师_专业数据采集软件对这个问题有一定的了解,云采集器确实可以实现多文章互采,在采集速度和效率方面确实有一定的优势,但互采成本却在增加,而且文章的数量随着人工打理,存在一定的不可控因素,所以人工采集某些不可控因素越来越少,但多句子采集还是有很大的市场需求,云采集器毕竟存在的不是很久,所以市场需求不够强烈。
  
  智能采集也是一个必不可少的功能,但是高并发采集确实存在一定的不可控性,比如高并发的断网等问题,这个确实是无法预计的,但这些小问题并不妨碍多句子采集这个功能的出现。即便不考虑硬件问题,云采集器采集效率也还是相对比较慢,关键是多句子采集可以自动监控目标网站的数据变化并及时采集,存在一定的非主动操作的要求,毕竟用户采集的是关键字并不是长难句。
  针对题主提出的,采集网页文章虽然对用户的要求较高,但用户目前大多数处于潜在用户的状态,需要培养用户的习惯,针对该问题,有些答案也指出,目前多句子采集能在上线测试期间尽量提高准确率,这对未来将是很有意义的,毕竟很多用户也不是根据多句子来对网站进行采集的,但积极响应确实能提高用户体验。希望我的回答能帮助到你。

技巧:文章句子采集需要分词,以及分词后如何组织句子的基本知识

采集交流优采云 发表了文章 • 0 个评论 • 98 次浏览 • 2022-11-30 23:14 • 来自相关话题

  技巧:文章句子采集需要分词,以及分词后如何组织句子的基本知识
  文章句子采集软件是一个灵活性很高的软件,那么采集什么句子就变成了非常关键的问题。什么样的句子容易采集呢?不太有规律的?有故事性的?简单句?一言不合的?长句?如果想采集比较高质量的句子,就需要分词。本文将介绍采集需要分词,以及分词后如何组织句子的基本知识。什么是分词?如何区分词性?在有限的语料中,根据准确性高低,将多个词汇(包括近义词,表达方式一致的词汇)的意思归纳为一个中心词。
  每个词汇都是其中心词的变体。在一个由多个词构成的句子中,所有词汇都是句子的语义句法单位。语义句法单位是一个没有词汇之间区别的特殊句法结构。语义句法结构必须是句子的语义单位组成。在词的前后,可以有其他单词,其中可以没有词性区别的词语作为中心词。中心词是一个句子当中的核心词。大多数句子都会包含至少一个中心词,但是也有少数句子至少有两个中心词。
  
  分词:根据词性划分不同词类。汉语:按照字母顺序,或根据汉字内部的写法划分词类。目前分词软件通常将汉字分成。
  一、
  三、五类,分别是「部、字、声」、「落、会、声」、「价、量、表」、「元、量、元」、「今、必、达、比、达」。英语:按照单词首字母的大小划分词类。
  
  由于一词多义,
  三、五类。目前主流的分词软件有googleword2vec,wordnest等,分词准确率99%以上。通常采集的是动词,名词,形容词,副词这四大词类。不同的词类,采集起来难度不同。分词后,如何组织句子?把一个词组合成成短语,一个中心词,两个或者多个短语,正是一段语言的一部分。短语的划分,和句子比较像,也是按照字母顺序。
  只不过换成了一个中心词。如何将采集到的短语组合成句子:采集到的句子,可以直接编辑,并且可以分词后复制多次粘贴到任何地方。当然,如果是采集的非常灵活的句子,可以每个字拆分组合成短语,或将词变换成短语形式,或直接进行词性转换。能够采集到句子中没有出现过的字,甚至一个单词的变体,词性复杂的词,如代词,方言词,数字词,书面语,缩略语,语气词,过时语等都可以采集到。
  句子的结构如果没有明确的句子结构,无法进行上下文定位。因此采集到的大多数句子,可以按照词性划分成段落。如何对采集到的段落进行组织和拆分拆分字数可以按照两个句子,甚至多个句子进行划分。方法:将每个采集到的句子的每个单词拆分为另外一个句子。或者将每个采集到的句子里的一个单词拆分成两个或以上句子。将每个采集到的句子里的两个或以上句子放在一个单元格中。排列在一起的两个单元格分别对应每个句子一个单元。 查看全部

  技巧:文章句子采集需要分词,以及分词后如何组织句子的基本知识
  文章句子采集软件是一个灵活性很高的软件,那么采集什么句子就变成了非常关键的问题。什么样的句子容易采集呢?不太有规律的?有故事性的?简单句?一言不合的?长句?如果想采集比较高质量的句子,就需要分词。本文将介绍采集需要分词,以及分词后如何组织句子的基本知识。什么是分词?如何区分词性?在有限的语料中,根据准确性高低,将多个词汇(包括近义词,表达方式一致的词汇)的意思归纳为一个中心词。
  每个词汇都是其中心词的变体。在一个由多个词构成的句子中,所有词汇都是句子的语义句法单位。语义句法单位是一个没有词汇之间区别的特殊句法结构。语义句法结构必须是句子的语义单位组成。在词的前后,可以有其他单词,其中可以没有词性区别的词语作为中心词。中心词是一个句子当中的核心词。大多数句子都会包含至少一个中心词,但是也有少数句子至少有两个中心词。
  
  分词:根据词性划分不同词类。汉语:按照字母顺序,或根据汉字内部的写法划分词类。目前分词软件通常将汉字分成。
  一、
  三、五类,分别是「部、字、声」、「落、会、声」、「价、量、表」、「元、量、元」、「今、必、达、比、达」。英语:按照单词首字母的大小划分词类。
  
  由于一词多义,
  三、五类。目前主流的分词软件有googleword2vec,wordnest等,分词准确率99%以上。通常采集的是动词,名词,形容词,副词这四大词类。不同的词类,采集起来难度不同。分词后,如何组织句子?把一个词组合成成短语,一个中心词,两个或者多个短语,正是一段语言的一部分。短语的划分,和句子比较像,也是按照字母顺序。
  只不过换成了一个中心词。如何将采集到的短语组合成句子:采集到的句子,可以直接编辑,并且可以分词后复制多次粘贴到任何地方。当然,如果是采集的非常灵活的句子,可以每个字拆分组合成短语,或将词变换成短语形式,或直接进行词性转换。能够采集到句子中没有出现过的字,甚至一个单词的变体,词性复杂的词,如代词,方言词,数字词,书面语,缩略语,语气词,过时语等都可以采集到。
  句子的结构如果没有明确的句子结构,无法进行上下文定位。因此采集到的大多数句子,可以按照词性划分成段落。如何对采集到的段落进行组织和拆分拆分字数可以按照两个句子,甚至多个句子进行划分。方法:将每个采集到的句子的每个单词拆分为另外一个句子。或者将每个采集到的句子里的一个单词拆分成两个或以上句子。将每个采集到的句子里的两个或以上句子放在一个单元格中。排列在一起的两个单元格分别对应每个句子一个单元。

教程:给大家推荐几款公众号运营软件,素材大全,编辑器

采集交流优采云 发表了文章 • 0 个评论 • 214 次浏览 • 2022-11-30 00:38 • 来自相关话题

  教程:给大家推荐几款公众号运营软件,素材大全,编辑器
  一、一个伙伴
  公众号运营神器:yiban.io/
  运营公众号不能错过的编辑器插件神器。与市面上其他编辑器相比,OnePartner直接在微信自带的编辑器上优化功能,无需从其他网站复制粘贴样式。
  特殊功能:
  1. 除了风格中心的素材,其他文章、风格、图片、视频也可以在风格中心采集

  2.通过全网搜索掌握微博、知乎、微信等平台的最新热点新闻。
  3.图片中心在线搜索GIF动图、免版权图库、表情包。
  4、详尽的数据分析,可导出打开率、消息率、点赞率、阅读量、分享量等数十项图形数据,方便运营商分析。
  使用易版可以大大提高我们的工作效率,让我们可以把更多的时间花在创作内容上。
  2.设计稿
  营销设计神器:/4ddc
  设计稿是设计新手的福音。是专为新媒体运营商、电子商务运营商、专业人士和设计爱好者设计的在线设计工具。
  比如公众号的第一张图,可以直接套用现成的模板。选择你喜欢的模板进入编辑器,在线替换文字和图片,然后下载完成一张高质量的封面图。而且这个网站在追踪热点方面是一流的,热门事件的第一张图片和相关模板可以在1小时内响应,这对于热点来说非常方便。
  
  小红书也有现成的内容模板。在类型选项中,点击“带图片的小红书”。选择好模板后,你还可以根据自己的内容更改文字和图片,不到一分钟就可以做出精美的小红书内容笔记。
  至于小红书的视频封面,包括平时做其他视频内容的同学,经常会为做视频封面发愁。在类型中选择“竖版视频封面”和“横版视频封面”,同样可以一键解决!
  3.定稿材料
  正版商业素材站:/4ddd
  普通文章找不到高清图片?担心侵犯版权?高清正版图片无限下载,你想要的这里都有。
  Draft素材是Draft Design旗下的亿级综合素材站,拥有8000万张图片、1000万张矢量图、100万个视频、1000万个平面模板PSD源文件、1000万个免费素材和字体。网站上的所有资料均已获得许可并可在市场上买到,因此无需担心侵犯版权。
  面对如此海量的素材,找素材还是很方便的,因为会匹配场景和行业用途,将优质的相似素材做成话题,可以高效选图;也延续了设计稿的热点追踪技巧,会及时匹配更新热点相关素材话题。
  4.SOOGIF,gif制作神器/
  
  平时编辑文章需要各种动图?除了四处看看,您还可以自己制作。
  SOOGIF可以在线编辑制作,超级方便。适用于从视频中提取GIF的朋友;粘贴视频网址,选择GIF范围,直接生成下载即可。
  5. Graphite document,一个可以制作思维导图和做笔记的工具,shimo.im/
  注册后即可实现手机与电脑同步数据,在“新建”中选择需要的功能(文档、表格、幻灯片等)
  注:手机端没有思维导图功能,只有客户端有。
  您可以对材料进行分类。只要找到喜欢的文章和句子,就可以及时保存。时间长了,你就会形成自己的素材库。
  6. 新增榜单、数据分析平台、/
  基于移动端全平台内容权威大数据:按日、周、月、年,按24大权威发布以微信为代表的中国各媒体平台最真实、最有价值的运营榜单分类,方便用户了解新媒体的整体发展情况,为用户提供有效的参考指导。
  免费获取:头条百家号采集伪原创工具 采集伪原创工具下载
  今日头条百家的老铁智能伪原创工具可以下载。打开软件后,先采集
关键词,输入你要的关键词,点击输入,然后点击单篇文章采集
,等待系统自动采集
关键词文章。非常值得下载体验,有需要的朋友不要错过!
  
  老铁智能伪原创工具:设置要保存文章的格式。如果自己阅读,可以直接保存为TXT。如果你是做网站,建议你保存成TXT格式+带图片排版,因为方便修改。
  我们在老铁的智能伪原创工具中打开原创文章过滤器,过滤刚刚收录的文章,过滤掉原创度高的文章。
  
  内容筛选出来后,使用老铁智能伪原创工具中的发布工具进行发布。这取决于您使用的程序。优采云
基本上可以在很多里面发表。我使用 Imperial CMS,所以我下载了一个帝国文章更新器!
  定期更新文章到网站后,我们需要把首页做的好一点,然后等待百度和各大引擎收录。嗯,一个高度垂直的网站就这样建立起来了! 查看全部

  教程:给大家推荐几款公众号运营软件,素材大全,编辑器
  一、一个伙伴
  公众号运营神器:yiban.io/
  运营公众号不能错过的编辑器插件神器。与市面上其他编辑器相比,OnePartner直接在微信自带的编辑器上优化功能,无需从其他网站复制粘贴样式。
  特殊功能:
  1. 除了风格中心的素材,其他文章、风格、图片、视频也可以在风格中心采集

  2.通过全网搜索掌握微博、知乎、微信等平台的最新热点新闻。
  3.图片中心在线搜索GIF动图、免版权图库、表情包。
  4、详尽的数据分析,可导出打开率、消息率、点赞率、阅读量、分享量等数十项图形数据,方便运营商分析。
  使用易版可以大大提高我们的工作效率,让我们可以把更多的时间花在创作内容上。
  2.设计稿
  营销设计神器:/4ddc
  设计稿是设计新手的福音。是专为新媒体运营商、电子商务运营商、专业人士和设计爱好者设计的在线设计工具。
  比如公众号的第一张图,可以直接套用现成的模板。选择你喜欢的模板进入编辑器,在线替换文字和图片,然后下载完成一张高质量的封面图。而且这个网站在追踪热点方面是一流的,热门事件的第一张图片和相关模板可以在1小时内响应,这对于热点来说非常方便。
  
  小红书也有现成的内容模板。在类型选项中,点击“带图片的小红书”。选择好模板后,你还可以根据自己的内容更改文字和图片,不到一分钟就可以做出精美的小红书内容笔记。
  至于小红书的视频封面,包括平时做其他视频内容的同学,经常会为做视频封面发愁。在类型中选择“竖版视频封面”和“横版视频封面”,同样可以一键解决!
  3.定稿材料
  正版商业素材站:/4ddd
  普通文章找不到高清图片?担心侵犯版权?高清正版图片无限下载,你想要的这里都有。
  Draft素材是Draft Design旗下的亿级综合素材站,拥有8000万张图片、1000万张矢量图、100万个视频、1000万个平面模板PSD源文件、1000万个免费素材和字体。网站上的所有资料均已获得许可并可在市场上买到,因此无需担心侵犯版权。
  面对如此海量的素材,找素材还是很方便的,因为会匹配场景和行业用途,将优质的相似素材做成话题,可以高效选图;也延续了设计稿的热点追踪技巧,会及时匹配更新热点相关素材话题。
  4.SOOGIF,gif制作神器/
  
  平时编辑文章需要各种动图?除了四处看看,您还可以自己制作。
  SOOGIF可以在线编辑制作,超级方便。适用于从视频中提取GIF的朋友;粘贴视频网址,选择GIF范围,直接生成下载即可。
  5. Graphite document,一个可以制作思维导图和做笔记的工具,shimo.im/
  注册后即可实现手机与电脑同步数据,在“新建”中选择需要的功能(文档、表格、幻灯片等)
  注:手机端没有思维导图功能,只有客户端有。
  您可以对材料进行分类。只要找到喜欢的文章和句子,就可以及时保存。时间长了,你就会形成自己的素材库。
  6. 新增榜单、数据分析平台、/
  基于移动端全平台内容权威大数据:按日、周、月、年,按24大权威发布以微信为代表的中国各媒体平台最真实、最有价值的运营榜单分类,方便用户了解新媒体的整体发展情况,为用户提供有效的参考指导。
  免费获取:头条百家号采集伪原创工具 采集伪原创工具下载
  今日头条百家的老铁智能伪原创工具可以下载。打开软件后,先采集
关键词,输入你要的关键词,点击输入,然后点击单篇文章采集
,等待系统自动采集
关键词文章。非常值得下载体验,有需要的朋友不要错过!
  
  老铁智能伪原创工具:设置要保存文章的格式。如果自己阅读,可以直接保存为TXT。如果你是做网站,建议你保存成TXT格式+带图片排版,因为方便修改。
  我们在老铁的智能伪原创工具中打开原创文章过滤器,过滤刚刚收录的文章,过滤掉原创度高的文章。
  
  内容筛选出来后,使用老铁智能伪原创工具中的发布工具进行发布。这取决于您使用的程序。优采云
基本上可以在很多里面发表。我使用 Imperial CMS,所以我下载了一个帝国文章更新器!
  定期更新文章到网站后,我们需要把首页做的好一点,然后等待百度和各大引擎收录。嗯,一个高度垂直的网站就这样建立起来了!

解决方案:智能抓取手机上所有搜索引擎的词频,最重要的一点是免费!

采集交流优采云 发表了文章 • 0 个评论 • 63 次浏览 • 2022-11-29 23:20 • 来自相关话题

  解决方案:智能抓取手机上所有搜索引擎的词频,最重要的一点是免费!
  文章句子采集软件_智能抓取文章句子!智能抓取手机上所有搜索引擎的词频,可设置不同速度、不同分辨率、词频统计源等等,但最重要的一点是免费!!!采集无限量的种子!!抓取软件自带词典,解析搜索引擎还可自行写代码解析采集的文章并进行特征提取!支持将采集的文章进行整合方便分类归档!!采集效率高且稳定,支持windows/mac/linux等平台上进行抓取!无需下载任何软件!。
  可以通过百度搜索目标关键词进行搜索、看有没有相关专业的网站,有专业的网站就可以通过关键词搜索进入到这个专业的网站。
  现在做什么都要有图文结合,
  
  1、通过网络媒体报道,然后定期发布,
  2、邀请目标人群参与进来;
  3、积极主动进行产品展示,
  
  4、依托社交平台,配合传播等方式,
  口碑广告!口碑广告!口碑广告!一般来说网站制作及推广无非就那几种:新闻、评论、专题页面、a/b测试。
  同样是为人服务的,能不能做到效率更高,模式更简单点。产品和信息发布没有办法形成产业化的。只有通过人来传播,然后进行最终转化。
  我们现在就在做这方面, 查看全部

  解决方案:智能抓取手机上所有搜索引擎的词频,最重要的一点是免费!
  文章句子采集软件_智能抓取文章句子!智能抓取手机上所有搜索引擎的词频,可设置不同速度、不同分辨率、词频统计源等等,但最重要的一点是免费!!!采集无限量的种子!!抓取软件自带词典,解析搜索引擎还可自行写代码解析采集的文章并进行特征提取!支持将采集的文章进行整合方便分类归档!!采集效率高且稳定,支持windows/mac/linux等平台上进行抓取!无需下载任何软件!。
  可以通过百度搜索目标关键词进行搜索、看有没有相关专业的网站,有专业的网站就可以通过关键词搜索进入到这个专业的网站。
  现在做什么都要有图文结合,
  
  1、通过网络媒体报道,然后定期发布,
  2、邀请目标人群参与进来;
  3、积极主动进行产品展示,
  
  4、依托社交平台,配合传播等方式,
  口碑广告!口碑广告!口碑广告!一般来说网站制作及推广无非就那几种:新闻、评论、专题页面、a/b测试。
  同样是为人服务的,能不能做到效率更高,模式更简单点。产品和信息发布没有办法形成产业化的。只有通过人来传播,然后进行最终转化。
  我们现在就在做这方面,

最新版:优采云 采集器官方电脑版 10.21最新破解版

采集交流优采云 发表了文章 • 0 个评论 • 104 次浏览 • 2022-11-29 16:50 • 来自相关话题

  最新版:优采云
采集器官方电脑版 10.21最新破解版
  优采云
最新版采集
器是一款功能强大、实用的数据采集
器,可用于批量采集
网页。支持从各种新闻网站、论坛、电子商务网站、招聘网站等任何类型的网站采集
和获取您需要的信息,主要以数据采集、处理、分析和挖掘为核心功能。
  软件特色
  1、分布式高速采集
  任务分配给多个客户端,集合同时运行,效率翻倍。
  2、多重身份识别系统
  搭载文字识别、中文分词识别、任意码识别等多重识别系统,智能识别操作更轻松。
  3.可选验证方式
  您可以随时选择是否使用加密狗,确保数据安全。
  4、全自动操作
  无需人工值班操作,任务完成后自动关机。
  5.替换功能
  同义词、同义词替换、参数替换,伪原创必备技能。
  6.下载任何文件格式
  可以轻松下载任何格式的文件,例如图像、压缩文件和视频。
  7.采集监控系统
  实时监控采集,确保数据的准确性。
  8.支持多数据库
  
  支持Access/MySQL/MsSQL/Sqlite/Oracle各种类型的数据库存储和发布。
  9.无限多页采集
  支持无限采集包括ajax请求数据在内的多页信息。
  10.支持扩展
  支持接口和插件扩展,满足各种挖矿需求。
  教程
  优采云
Collector是各大主流文章系统、论坛系统使用的多线程内容采集
发布程序。为了介绍方便,小编这里以采集文章标题为例,说明其基本用法:
  1.采集
URL规则,点击添加
  2. 选择【批量/多页】,添加带规则的URL,输入第一项和页数。点击【添加】完成
  三、采集内容规则
  双击【标题】弹出标题编辑框
  4、提取方式一般为【前后截取】。通过观察源码,填写起始字符串和结束字符串
  5、添加【html标签排除】【内容添加后缀】,点击确定。
  6.发布内容设置。开启方法二保存采集结果。
  文件名格式可以根据自己的喜好任意选择。
  文件模板选择,优采云
给的几个默认模板。一般默认格式为txt、csv、html、excel。您可以根据自己的喜好选择模板。
  7.设置完成后保存。至此,采集规则已经设置完毕。执行以获得所需的结果。
  软件亮点
  1、网站采集
  
  优采云
采集器
可以通过网站采集标准字符设置快速采集所需的网站信息。可以手动输入、批量添加或直接从文本中导入网址,并可以过滤掉重复的网址信息。
  支持多级网页URL采集,多级URL采集可以使用网页解析自动获取地址,和手动填写规则两种方式。解决多级分页查询的具体内容不同,但详细地址是同一个页面URL集合,优采云
集合器设置权限GET、POST和ASPXPOST三种HTTP请求方式。
  优采云
采集器支持URL采集检测,可以验证操作的准确性,防止实际操作不正确导致采集结论不正确
  2.具体内容采集
  优采云
采集器可以通过对比网页源代码设置具体的内容采集标准,准确采集网站中零散零散的内容数据,支持多层次、多维度等复杂网页的内容采集页。
  根据定义标记,可以筛选和采集
数据,例如文章标题和文章正文分开采集
。优采云
采集器内置前后左右提取、正则匹配获取、文章正文获取三种具体内容提取方式。选择性强,用户可根据应用的实际需要进行选择。
  具体的内容采集还支持测试功能,可以选择一个典型的网页来测试项目采集的准确性,以便立即修改和进行下一步的数据处理。
  3、数据解析
  对于采集到的信息数据,优采云
采集器可以进行一系列的智能化处理,使采集到的数据更符合我们自己的应用规范。主要包括:
  1)标识过滤:过滤掉无用的空格字符、连线等中科数控标识;2)替换:支持同义词和词性转换;
  3)数据转换:支持中英文、简体转繁体、转拼音字母等;
  4)自动介绍,自动中文分词:支持一键生成介绍,自动中文分词;
  5) 下载选项:优采云
采集器支持任意格式的文件检测和下载,可以智能地将相对详细地址填充为绝对地址。
  4.数据发布
  优采云
采集器采集数据后,默认设置为将数据存储在本地数据库(sqlite、mysql、sqlserver)中。用户可以根据自己的喜好选择数据的后期操作,完成数据的发布。支持即时数据查询、在线发布数据及入库,支持客户设计开发发布界面应用。
  根据数据库类型,可用专业软件打开,即时查询数据。配备发布控制模块,可将数据在线发布到网站,可设置自动登录网站、获取频道目录等;如果记录了客户自己的数据库文件,客户只需要写几句SQL语句,程序就会根据用户的SQL语句导入数据;保存为本地文件时,支持本地SQL或文本文件(word、excel、html、txt)文件格式。
  5.多个任务线程同步运行
  优采云
采集器可选择同时运行多个任务,支持同时采集不同网站或同一网站下不同栏目的特定内容,并可有针对性地调度任务。个别日常任务在采集内容和发布具体内容时可以使用线程同步运行,提高使用效率。
  官方数据:优采云
采集器v8.5.7
  优采云
Collector是一个网页数据采集
器,里面收录
了很多我们生活中需要用到的功能。该软件界面简洁,但功能非常强大。无论我们是在日常生活中还是在办公过程中,我们都可以使用这款软件作为我们的工具。
  特征
  简单来说,使用优采云
,可以非常轻松的从任何网页中准确采集你需要的数据,并生成自定义的常规数据格式。优采云
数据采集系统可以做的包括但不限于以下:
  1.财务数据,如季报、年报、财报,包括自动采集最新的每日净值;
  2、实时监控各大新闻门户,自动更新上传最新消息;
  3、监控竞争对手的最新信息,包括商品价格、库存;
  4、监控各大社交网站和博客,自动抓取对企业产品的相关评论;
  5、采集
最新最全的职位招聘信息;
  6、监控各大房地产相关网站,采集
最新的新房、二手房市场行情;
  7、从各大汽车网站采集
特定的新车和二手车信息;
  8、发现和采集
潜在客户信息;
  
  9、从行业网站采集
产品目录和产品信息;
  10.同步各大电商平台的商品信息,做到在一个平台发布,在其他平台自动更新。
  软件特色
  模板集合
  模板采集模式内置数百家主流网站数据源,如京东、天猫、大众点评等热门采集网站。您只需参照模板简单设置参数,即可快速获取网站公开数据。
  智能采集
  优采云
采集可根据不同网站提供多种网页采集策略和配套资源,并可自定义、组合、自动处理。从而帮助整个采集过程实现数据的完整性和稳定性。
  云采集
  5000多台云服务器支持的云采集7*24小时不间断运行。可实现无人值守的定时采集,灵活贴合业务场景,助您提升采集效率,保障数据时效。
  API接口
  通过优采云
API,您可以轻松获取优采云
任务信息和采集数据,灵活调度任务,如远程控制任务启停,高效实现数据采集和归档。基于强大的API系统,还可以无缝对接公司各种内部管理平台,实现各项业务自动化。
  自定义集合
  
  优采云
可根据不同用户的采集需求,提供自定义的自动生成爬虫模式,可批量准确识别各种网页元素,同时具备翻页、下拉、ajax等多种功能、页面滚动、条件判断。支持不同网页结构的复杂网站采集,满足多种采集应用场景。
  方便的定时功能
  只需简单几步点击设置,即可实现对采集任务的定时控制。无论是单次采集的定时设置,还是预设的一天或每周、每月的定时采集,都可以同时自由设置多个任务。根据需要对选定时间进行多种组合,灵活部署自己的采集任务。
  全自动数据格式化
  优采云
内置强大的数据格式化引擎,支持字符串替换、正则表达式替换或匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码等多项功能,在采集过程中全自动处理,无需人工干预,即可获取所需的格式数据。
  多层次集合
  很多主流的新闻和电商网站都收录
一级商品列表页,二级商品详情页,三级评论详情页;无论网站有多少层级,优采云
都可以无限层级采集数据,满足各种业务采集需求。
  安装步骤
  在本站下载最新安装包,一键安装,完成后即可使用 查看全部

  最新版:优采云
采集器官方电脑版 10.21最新破解版
  优采云
最新版采集
器是一款功能强大、实用的数据采集
器,可用于批量采集
网页。支持从各种新闻网站、论坛、电子商务网站、招聘网站等任何类型的网站采集
和获取您需要的信息,主要以数据采集、处理、分析和挖掘为核心功能。
  软件特色
  1、分布式高速采集
  任务分配给多个客户端,集合同时运行,效率翻倍。
  2、多重身份识别系统
  搭载文字识别、中文分词识别、任意码识别等多重识别系统,智能识别操作更轻松。
  3.可选验证方式
  您可以随时选择是否使用加密狗,确保数据安全。
  4、全自动操作
  无需人工值班操作,任务完成后自动关机。
  5.替换功能
  同义词、同义词替换、参数替换,伪原创必备技能。
  6.下载任何文件格式
  可以轻松下载任何格式的文件,例如图像、压缩文件和视频。
  7.采集监控系统
  实时监控采集,确保数据的准确性。
  8.支持多数据库
  
  支持Access/MySQL/MsSQL/Sqlite/Oracle各种类型的数据库存储和发布。
  9.无限多页采集
  支持无限采集包括ajax请求数据在内的多页信息。
  10.支持扩展
  支持接口和插件扩展,满足各种挖矿需求。
  教程
  优采云
Collector是各大主流文章系统、论坛系统使用的多线程内容采集
发布程序。为了介绍方便,小编这里以采集文章标题为例,说明其基本用法:
  1.采集
URL规则,点击添加
  2. 选择【批量/多页】,添加带规则的URL,输入第一项和页数。点击【添加】完成
  三、采集内容规则
  双击【标题】弹出标题编辑框
  4、提取方式一般为【前后截取】。通过观察源码,填写起始字符串和结束字符串
  5、添加【html标签排除】【内容添加后缀】,点击确定。
  6.发布内容设置。开启方法二保存采集结果。
  文件名格式可以根据自己的喜好任意选择。
  文件模板选择,优采云
给的几个默认模板。一般默认格式为txt、csv、html、excel。您可以根据自己的喜好选择模板。
  7.设置完成后保存。至此,采集规则已经设置完毕。执行以获得所需的结果。
  软件亮点
  1、网站采集
  
  优采云
采集器
可以通过网站采集标准字符设置快速采集所需的网站信息。可以手动输入、批量添加或直接从文本中导入网址,并可以过滤掉重复的网址信息。
  支持多级网页URL采集,多级URL采集可以使用网页解析自动获取地址,和手动填写规则两种方式。解决多级分页查询的具体内容不同,但详细地址是同一个页面URL集合,优采云
集合器设置权限GET、POST和ASPXPOST三种HTTP请求方式。
  优采云
采集器支持URL采集检测,可以验证操作的准确性,防止实际操作不正确导致采集结论不正确
  2.具体内容采集
  优采云
采集器可以通过对比网页源代码设置具体的内容采集标准,准确采集网站中零散零散的内容数据,支持多层次、多维度等复杂网页的内容采集页。
  根据定义标记,可以筛选和采集
数据,例如文章标题和文章正文分开采集
。优采云
采集器内置前后左右提取、正则匹配获取、文章正文获取三种具体内容提取方式。选择性强,用户可根据应用的实际需要进行选择。
  具体的内容采集还支持测试功能,可以选择一个典型的网页来测试项目采集的准确性,以便立即修改和进行下一步的数据处理。
  3、数据解析
  对于采集到的信息数据,优采云
采集器可以进行一系列的智能化处理,使采集到的数据更符合我们自己的应用规范。主要包括:
  1)标识过滤:过滤掉无用的空格字符、连线等中科数控标识;2)替换:支持同义词和词性转换;
  3)数据转换:支持中英文、简体转繁体、转拼音字母等;
  4)自动介绍,自动中文分词:支持一键生成介绍,自动中文分词;
  5) 下载选项:优采云
采集器支持任意格式的文件检测和下载,可以智能地将相对详细地址填充为绝对地址。
  4.数据发布
  优采云
采集器采集数据后,默认设置为将数据存储在本地数据库(sqlite、mysql、sqlserver)中。用户可以根据自己的喜好选择数据的后期操作,完成数据的发布。支持即时数据查询、在线发布数据及入库,支持客户设计开发发布界面应用。
  根据数据库类型,可用专业软件打开,即时查询数据。配备发布控制模块,可将数据在线发布到网站,可设置自动登录网站、获取频道目录等;如果记录了客户自己的数据库文件,客户只需要写几句SQL语句,程序就会根据用户的SQL语句导入数据;保存为本地文件时,支持本地SQL或文本文件(word、excel、html、txt)文件格式。
  5.多个任务线程同步运行
  优采云
采集器可选择同时运行多个任务,支持同时采集不同网站或同一网站下不同栏目的特定内容,并可有针对性地调度任务。个别日常任务在采集内容和发布具体内容时可以使用线程同步运行,提高使用效率。
  官方数据:优采云
采集器v8.5.7
  优采云
Collector是一个网页数据采集
器,里面收录
了很多我们生活中需要用到的功能。该软件界面简洁,但功能非常强大。无论我们是在日常生活中还是在办公过程中,我们都可以使用这款软件作为我们的工具。
  特征
  简单来说,使用优采云
,可以非常轻松的从任何网页中准确采集你需要的数据,并生成自定义的常规数据格式。优采云
数据采集系统可以做的包括但不限于以下:
  1.财务数据,如季报、年报、财报,包括自动采集最新的每日净值;
  2、实时监控各大新闻门户,自动更新上传最新消息;
  3、监控竞争对手的最新信息,包括商品价格、库存;
  4、监控各大社交网站和博客,自动抓取对企业产品的相关评论;
  5、采集
最新最全的职位招聘信息;
  6、监控各大房地产相关网站,采集
最新的新房、二手房市场行情;
  7、从各大汽车网站采集
特定的新车和二手车信息;
  8、发现和采集
潜在客户信息;
  
  9、从行业网站采集
产品目录和产品信息;
  10.同步各大电商平台的商品信息,做到在一个平台发布,在其他平台自动更新。
  软件特色
  模板集合
  模板采集模式内置数百家主流网站数据源,如京东、天猫、大众点评等热门采集网站。您只需参照模板简单设置参数,即可快速获取网站公开数据。
  智能采集
  优采云
采集可根据不同网站提供多种网页采集策略和配套资源,并可自定义、组合、自动处理。从而帮助整个采集过程实现数据的完整性和稳定性。
  云采集
  5000多台云服务器支持的云采集7*24小时不间断运行。可实现无人值守的定时采集,灵活贴合业务场景,助您提升采集效率,保障数据时效。
  API接口
  通过优采云
API,您可以轻松获取优采云
任务信息和采集数据,灵活调度任务,如远程控制任务启停,高效实现数据采集和归档。基于强大的API系统,还可以无缝对接公司各种内部管理平台,实现各项业务自动化。
  自定义集合
  
  优采云
可根据不同用户的采集需求,提供自定义的自动生成爬虫模式,可批量准确识别各种网页元素,同时具备翻页、下拉、ajax等多种功能、页面滚动、条件判断。支持不同网页结构的复杂网站采集,满足多种采集应用场景。
  方便的定时功能
  只需简单几步点击设置,即可实现对采集任务的定时控制。无论是单次采集的定时设置,还是预设的一天或每周、每月的定时采集,都可以同时自由设置多个任务。根据需要对选定时间进行多种组合,灵活部署自己的采集任务。
  全自动数据格式化
  优采云
内置强大的数据格式化引擎,支持字符串替换、正则表达式替换或匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码等多项功能,在采集过程中全自动处理,无需人工干预,即可获取所需的格式数据。
  多层次集合
  很多主流的新闻和电商网站都收录
一级商品列表页,二级商品详情页,三级评论详情页;无论网站有多少层级,优采云
都可以无限层级采集数据,满足各种业务采集需求。
  安装步骤
  在本站下载最新安装包,一键安装,完成后即可使用

解决方案:这个低代码报表开发平台,操作类似Excel,用好了不需要加班

采集交流优采云 发表了文章 • 0 个评论 • 63 次浏览 • 2022-11-28 21:24 • 来自相关话题

  解决方案:这个低代码报表开发平台,操作类似Excel,用好了不需要加班
  现在低代码开发平台很流行,零代码或者少量代码就可以快速创建应用。
  但从实际结果来看,完全零代码开发应用是不可能的,机器取代人类智能还有很长的路要走。但值得尝试以介于两者之间的低代码模式开发应用程序。现在很多企业级应用都是低代码的,甚至很多定制化的场景不需要太多高级代码就可以搞定。
  就我所从事的数据领域而言,由于低代码平台的出现,近十年来报表开发有了很大的提升。BI报表开发中的一些复杂逻辑,可能只需要几个公式或者几行JS就可以轻松搞定。从产品开发的角度来看,其实质是提高效率。一方面提高了开发者的效率,另一方面提高了用户的效率。
  以前我们做IT开发报表,都是先用Excel处理,然后写PHP开发,再用java的一些开源组件开发。用代码开发报表可以快速解决点对点的需求,但是作为一个长期的工作,需要连接数据库,采集
数据,做报表维护。之后基本上就需要大量人力去写代码了。
  一个企业成熟了,自然会有一个让技术民主化的管理系统,比如报表系统。2000年开始尝试使用国外的一些BI报表系统,比如Crystal、BO,也尝试了一些开源的jaspereport、birt。可减少代码开发投入,独立开发报表。
  随着企业的发展和庞大的数据业务,数据逐渐承载了企业的管理业务。很多需求,比如实时风险监控,各种业务报表,各种数据应用(体现在报表和业务分析),也逐渐有了数据,报表权限和数据填写流程。
  这时候就要从自己的管理系统做起,要求产品功能符合企业的管理思路,然后逐步开始使用符合一些流程管理的平台系统(这是国内的比较说法) ,帆软报表平台FineReport。
  在开发效率上,FineReport是一款通用的报表工具,基本可以满足报表开发、报表填报、可视化展示的需求。有一些业务定制相关的接口,可以进行单点登录OA等插件定制开发。对于用户来说,由于报表有承载平台,业务、管理者等用户只要登录平台系统就可以查看和分析。
  具体来说:
  1.可视化SQL语句编辑面板
  做报表需要取数,用SQL写的,根据复杂程度一般在几十行到几百行不等。更重要的是,你需要熟悉数据库和表格,否则你不知道取什么数字。
  FineReport低代码的第一点就是有一个可视化的SQL语句编辑面板。链接数据库成功后,就可以看到数据库表和字段,然后将数据表和字段拖到编辑页面生成SQL语句,避免逐行写入,就像内置的navicat一样。可以减少很多工作量。
  2.可视化报表模板设计器
  
  看完图书馆取号,就是做报告了。
  FineReport 的主面板是表格模板设计器。表格格式、函数操作、函数等与Excel类似。不同之处在于 Excel 对单个数据进行操作。在这里,它对数据字段进行操作。将需要的数据字段拖入表中,然后进行各种可视化属性设置。
  设计器提供三种报表设计模式:普通报表、聚合报表、决策报表。
  普通报表模式最接近Excel,用于制作大部分报表,包括基本报表、中国式复杂报表,更多的是对SHEET和跨SHEET的计算,兼容EXCEL公式。
  聚合报表模式用于做一些不规则的报表,比如运单,一些保单等,这种报表需要经常合并拆分单元格,工作极其繁琐。
  决策报表模式用于制作可视化仪表盘、驾驶舱、管理板等,就像一张空白的画布,将各种可视化图表拖放到界面即可构建仪表盘。
  3.参数查询可视化设置
  对于企业报表应用,除了最简单的显示报表外,往往用得最多的是查询报表。各部门、业务团队需要查资料、查询报表,都会用到查询报表。以往代码开发往往会分配一个参数来对应数据表或字段。这有问题。参数太多很难管理。如果换了一个人去迭代report,就得重新熟悉一下。
  FineReport有可视化的参数设置界面,可以零代码定义参数,绑定查询控件,直接定义查询界面。用户可以通过界面输入查询条件,显示报表内容。
  控件类似于Excel甚至更丰富,包括文本、文本字段、数字、密码、按钮复选框、复选框组、单选按钮组、日期下拉框、下拉复选框、时间、多文件上传列表、网页框、下拉树、表格树和视图树等多种控件类型,支持预定义控件、自定义控件等。
  4.座舱可视化搭建
  上文提到,在决策报告模式下,可以制作可视化的仪表盘、驾驶舱、管理看板。原理也是通过组件拖拽操作快速创建组件报表。以往代码开发,需要写JS调用前端可视化库,后端链接数据。FineReport直接可视化操作,可以直接适配屏幕大小和分辨率,设计布局和交互,方便很多。
  5. 移动决策平台代码生成
  
  移动端是企业报表应用的一大趋势。过去需要PC端和移动端分开开发。为了适应公司APP的报表展示,我们还特地找了一个移动开发的同事。移动端也分为安卓系统和IOS系统,需要不同的人群配备三套。后期可以直接适配这个平台,也可以实现零代码运行、接口化配置、自动打包、自主版本控制集成。
  此外,还有一些其他的低代码开发报表功能,这里不再赘述。
  可见,低代码开发对效率的提升和能力的解放是显而易见的,至少在我熟悉的数据领域是这样,比如数据需求管理平台、指标管理平台、数据治理平台。
  一套优秀的软件离不开两个核心要素:编程能力和业务知识,这就需要优秀的技术团队对业务有深刻的理解,或者业务人员要熟悉技术边界。
  世界上没有完全相同的管理模式。即使是一份小数据报表,每个企业都有其独特的需求,主要体现在几个问题上:
  1、需求难以确定,总是有新的需求提出来,不断修改,面目全非。
  2、由于客观条件的不确定性,报告的编制是一个持续的过程。期间,人员流动、资源调整等各种变化都会增加本项目的成本,降低效率。
  因此,该平台需要满足以下要求:
  1. 灵活,不局限于业务(不同项目,业务领域)一定要包罗万象。
  2.快速,极快的功能实现速度。
  3. 稳定,不挑食但能消化。
  一开始觉得这样的系统似乎遥不可及,但是我举的FineReport就是一个典型的例子。
  天下武功,唯有速破。只有实现快速开发、快速变更、快速维护,才能解决现有软件开发的困境。
  但是,使用低代码/无代码平台可能需要的开发人员更少,但对人的要求更高:一方面要对业务有很好的理解,另一方面要非常透明关于数据和开发,最后,他们必须能够从需求到开发串联起来。这也是我们行业的一种进步。IT需要更加熟悉业务,需要更加清楚数据的价值。
  解决方案:百度网站批量提交工具加速网站收录无需打码
  百度提交助手是一款专业的站长工具。由五爱破解论坛网友提供。它的功能非常实用。帮助站长提高网站收录率,批量提交网站链接。感兴趣的朋友不要错过,欢迎下载使用。
  软件说明
  
  百度提交助手是一款专为站长设计的链接提交工具。我们知道主动推送可以大大提高百度的收录量,所以现在很多站长在更新网站的时候都会主动提交。使用此工具,您可以轻松提交所需的链接,并支持从TXT阅读链接提交。
  指示
  1.解压后运行软件
  
  2.右键导入链接提交
  更新日志
  代理ip问题更新了,速度下降了,但是不会浪费账号 查看全部

  解决方案:这个低代码报表开发平台,操作类似Excel,用好了不需要加班
  现在低代码开发平台很流行,零代码或者少量代码就可以快速创建应用。
  但从实际结果来看,完全零代码开发应用是不可能的,机器取代人类智能还有很长的路要走。但值得尝试以介于两者之间的低代码模式开发应用程序。现在很多企业级应用都是低代码的,甚至很多定制化的场景不需要太多高级代码就可以搞定。
  就我所从事的数据领域而言,由于低代码平台的出现,近十年来报表开发有了很大的提升。BI报表开发中的一些复杂逻辑,可能只需要几个公式或者几行JS就可以轻松搞定。从产品开发的角度来看,其实质是提高效率。一方面提高了开发者的效率,另一方面提高了用户的效率。
  以前我们做IT开发报表,都是先用Excel处理,然后写PHP开发,再用java的一些开源组件开发。用代码开发报表可以快速解决点对点的需求,但是作为一个长期的工作,需要连接数据库,采集
数据,做报表维护。之后基本上就需要大量人力去写代码了。
  一个企业成熟了,自然会有一个让技术民主化的管理系统,比如报表系统。2000年开始尝试使用国外的一些BI报表系统,比如Crystal、BO,也尝试了一些开源的jaspereport、birt。可减少代码开发投入,独立开发报表。
  随着企业的发展和庞大的数据业务,数据逐渐承载了企业的管理业务。很多需求,比如实时风险监控,各种业务报表,各种数据应用(体现在报表和业务分析),也逐渐有了数据,报表权限和数据填写流程。
  这时候就要从自己的管理系统做起,要求产品功能符合企业的管理思路,然后逐步开始使用符合一些流程管理的平台系统(这是国内的比较说法) ,帆软报表平台FineReport。
  在开发效率上,FineReport是一款通用的报表工具,基本可以满足报表开发、报表填报、可视化展示的需求。有一些业务定制相关的接口,可以进行单点登录OA等插件定制开发。对于用户来说,由于报表有承载平台,业务、管理者等用户只要登录平台系统就可以查看和分析。
  具体来说:
  1.可视化SQL语句编辑面板
  做报表需要取数,用SQL写的,根据复杂程度一般在几十行到几百行不等。更重要的是,你需要熟悉数据库和表格,否则你不知道取什么数字。
  FineReport低代码的第一点就是有一个可视化的SQL语句编辑面板。链接数据库成功后,就可以看到数据库表和字段,然后将数据表和字段拖到编辑页面生成SQL语句,避免逐行写入,就像内置的navicat一样。可以减少很多工作量。
  2.可视化报表模板设计器
  
  看完图书馆取号,就是做报告了。
  FineReport 的主面板是表格模板设计器。表格格式、函数操作、函数等与Excel类似。不同之处在于 Excel 对单个数据进行操作。在这里,它对数据字段进行操作。将需要的数据字段拖入表中,然后进行各种可视化属性设置。
  设计器提供三种报表设计模式:普通报表、聚合报表、决策报表。
  普通报表模式最接近Excel,用于制作大部分报表,包括基本报表、中国式复杂报表,更多的是对SHEET和跨SHEET的计算,兼容EXCEL公式。
  聚合报表模式用于做一些不规则的报表,比如运单,一些保单等,这种报表需要经常合并拆分单元格,工作极其繁琐。
  决策报表模式用于制作可视化仪表盘、驾驶舱、管理板等,就像一张空白的画布,将各种可视化图表拖放到界面即可构建仪表盘。
  3.参数查询可视化设置
  对于企业报表应用,除了最简单的显示报表外,往往用得最多的是查询报表。各部门、业务团队需要查资料、查询报表,都会用到查询报表。以往代码开发往往会分配一个参数来对应数据表或字段。这有问题。参数太多很难管理。如果换了一个人去迭代report,就得重新熟悉一下。
  FineReport有可视化的参数设置界面,可以零代码定义参数,绑定查询控件,直接定义查询界面。用户可以通过界面输入查询条件,显示报表内容。
  控件类似于Excel甚至更丰富,包括文本、文本字段、数字、密码、按钮复选框、复选框组、单选按钮组、日期下拉框、下拉复选框、时间、多文件上传列表、网页框、下拉树、表格树和视图树等多种控件类型,支持预定义控件、自定义控件等。
  4.座舱可视化搭建
  上文提到,在决策报告模式下,可以制作可视化的仪表盘、驾驶舱、管理看板。原理也是通过组件拖拽操作快速创建组件报表。以往代码开发,需要写JS调用前端可视化库,后端链接数据。FineReport直接可视化操作,可以直接适配屏幕大小和分辨率,设计布局和交互,方便很多。
  5. 移动决策平台代码生成
  
  移动端是企业报表应用的一大趋势。过去需要PC端和移动端分开开发。为了适应公司APP的报表展示,我们还特地找了一个移动开发的同事。移动端也分为安卓系统和IOS系统,需要不同的人群配备三套。后期可以直接适配这个平台,也可以实现零代码运行、接口化配置、自动打包、自主版本控制集成。
  此外,还有一些其他的低代码开发报表功能,这里不再赘述。
  可见,低代码开发对效率的提升和能力的解放是显而易见的,至少在我熟悉的数据领域是这样,比如数据需求管理平台、指标管理平台、数据治理平台。
  一套优秀的软件离不开两个核心要素:编程能力和业务知识,这就需要优秀的技术团队对业务有深刻的理解,或者业务人员要熟悉技术边界。
  世界上没有完全相同的管理模式。即使是一份小数据报表,每个企业都有其独特的需求,主要体现在几个问题上:
  1、需求难以确定,总是有新的需求提出来,不断修改,面目全非。
  2、由于客观条件的不确定性,报告的编制是一个持续的过程。期间,人员流动、资源调整等各种变化都会增加本项目的成本,降低效率。
  因此,该平台需要满足以下要求:
  1. 灵活,不局限于业务(不同项目,业务领域)一定要包罗万象。
  2.快速,极快的功能实现速度。
  3. 稳定,不挑食但能消化。
  一开始觉得这样的系统似乎遥不可及,但是我举的FineReport就是一个典型的例子。
  天下武功,唯有速破。只有实现快速开发、快速变更、快速维护,才能解决现有软件开发的困境。
  但是,使用低代码/无代码平台可能需要的开发人员更少,但对人的要求更高:一方面要对业务有很好的理解,另一方面要非常透明关于数据和开发,最后,他们必须能够从需求到开发串联起来。这也是我们行业的一种进步。IT需要更加熟悉业务,需要更加清楚数据的价值。
  解决方案:百度网站批量提交工具加速网站收录无需打码
  百度提交助手是一款专业的站长工具。由五爱破解论坛网友提供。它的功能非常实用。帮助站长提高网站收录率,批量提交网站链接。感兴趣的朋友不要错过,欢迎下载使用。
  软件说明
  
  百度提交助手是一款专为站长设计的链接提交工具。我们知道主动推送可以大大提高百度的收录量,所以现在很多站长在更新网站的时候都会主动提交。使用此工具,您可以轻松提交所需的链接,并支持从TXT阅读链接提交。
  指示
  1.解压后运行软件
  
  2.右键导入链接提交
  更新日志
  代理ip问题更新了,速度下降了,但是不会浪费账号

即将发布:面对众多文献管理软件,为何连发3篇SCI的师兄独宠这款国产软件?

采集交流优采云 发表了文章 • 0 个评论 • 62 次浏览 • 2022-11-28 21:21 • 来自相关话题

  即将发布:面对众多文献管理软件,为何连发3篇SCI的师兄独宠这款国产软件?
  作为一名科研人员,我们每天都离不开文献阅读,而管理文献可以说是每个科研人员都必须学习的一项技能。选择一款适合自己的文献管理软件,开启科研如虎添翼。市面上有很多文献管理软件,比如EndNote、NoteExpress等文献管理软件。软件虽多,适合自己的才是最重要的。
  本期立人君给大家分享一款国产文档管理软件——ivySCI。笔者比较喜欢ivySCI的阅读体验和笔记功能。文档检索功能也值得推荐。您还可以比较各种文档管理软件。优缺点,再决定用哪一个。
  ivySCI简介
  ivySCI 的使命是帮助研究人员积累知识,从海量文献中发现创新点。ivySCI以此为使命,通过便捷的文献管理、沉浸式阅读体验、卡片式笔记系统、流程式论文写作,帮助科研人员消化文献、积累知识、寻找创新点。
  ivySCI官网:
  ivySCI下载地址:
  ivySCI的特点
  ① 文件管理
  文档管理是ivySCI最基本的功能,可以用来管理所有的文档信息。ivySCI不仅支持本地PDF文档的上传,还可以通过DOI或文档标题等信息进行搜索上传。批量上传PDF文档也很方便。您无需担心更改文档管理软件和重新导入文档信息。上传文档后,ivySCI会自动识别PDF文档的元信息(meta),包括标题、摘要、作者和年份信息等,对于错误的文档元信息,您可以手动补充或更正,非常方便的!
  此外,ivySCI 还可以为文档添加标签。我们可以根据自定义的标签对文档进行分类,也可以根据文档的重要性或者阅读的时间来标记文档,这样我们就可以非常快速的找到我们需要的文档。
  
  更值得一提的是,ivySCI支持云存储,意味着文档可以跨平台同步,文档数据可以随时随地访问。通过云端备份文档,无需担心文档丢失。
  ②文献检索
  ivySCI内置了常用的学术搜索引擎,包括百度学术、谷歌学术、必应学术、中国知网、万方数据、中科院文献信息中心、ScienceRedirect、SemanticScholar、PubMed等。由于是国产软件,不仅支持常用英文论文的检索,还可以检索中文文献,这是国外开发的很多文献管理软件所没有的。
  检索到的文献可以一键导入ivySCI,省去从网站导出书目信息再导入文献管理软件的麻烦。
  另外ivySCI如果没有常用的文献搜索引擎,也支持自定义添加新的搜索引擎,是不是很贴心!
  ③ 文献阅读
  沉浸式文献阅读体验是EndNote等很多文献管理软件所不具备的功能,非常推荐ivySCI的文献阅读功能!
  只需点击我们需要阅读的文献条目,即可直接使用ivySCI内置阅读器进行文献阅读,无需额外打开PDF阅读器。
  更值得一提的是ivySCI提供了查词和翻译功能。我们只需要选择一个单词或句子就可以自动翻译,这对于英语水平一般的朋友来说非常有用。而对于文献中经常遇到的专业词汇,ivySCI还提供了维基百科专有名词查询,是不是很贴心!
  
  另外ivySCI可以自动提取文献中的图表,方便我们在阅读文献时进行图文对比分析,更容易理解图表信息。
  在文献阅读方面,ivySCI还有一个重磅功能,可以自动识别文献中的参考文献,支持中文文献。您只需要点击引用的链接即可快速查看引用,您可以轻松地将引用添加到当前项目中。
  ④文献注释
  做文献笔记是文献阅读中最重要的部分。文献笔记被认为是大多数科研人员不可分割的功能。ivySCI 笔记是基于卡片的笔记。
  阅读文献时,可以将文献中的重要观点和结论突出显示并提取到笔记中。对于重点图表,ivySCI也支持框选摘录,也可以在图表中添加注释。所有笔记都支持添加多个标签,不同的标签可以通过颜色区分。我们可以自定义分类方式,形成自己的文档管理系统,大大提高了文档管理的效率。
  ⑤ 编写插件
  除了文档管理软件外,ivySCI还提供了一款名为IvyCite的写作插件,支持Word和WPS,兼容Mac和Windows。写论文时可以引用文献,提供上千种文献格式。并且它支持注释插入。如果我们习惯边看边做笔记,那么写论文就会很顺利。
  本期介绍一款国产文档管理软件ivySCI的功能。通过这些功能的介绍,大家应该已经对ivySCI这个软件有所了解了,作为一款中文界面的软件,相信大家可以很快上手。
  即将发布:优采云
软件旗舰店
  
  优采云
Collector是一套专业的网站内容采集软件,支持采集各种论坛、网站、博客文章内容爬取的帖子和回复,通过相关配置可以轻松为自己采集80%的网站内容使用. 优采云
采集器根据各建站程序的不同分为论坛采集器、CMS采集器和博客采集器三大类,支持近40个主流建站程序,完成上百个版本的数据采集发布任务. 图片本地化,支持网站登录采集、页面抓取,全面模拟手动登录发布,软件运行速度快,安全稳定!论坛采集器
还支持无限注册论坛会员,
  
  优采云
采集器目前分为三个系列,分别是论坛采集器系列、CMS采集器系列和博客采集器系列,基本涵盖了一些主流的建站程序,极大地满足了各类用户的需求。 查看全部

  即将发布:面对众多文献管理软件,为何连发3篇SCI的师兄独宠这款国产软件?
  作为一名科研人员,我们每天都离不开文献阅读,而管理文献可以说是每个科研人员都必须学习的一项技能。选择一款适合自己的文献管理软件,开启科研如虎添翼。市面上有很多文献管理软件,比如EndNote、NoteExpress等文献管理软件。软件虽多,适合自己的才是最重要的。
  本期立人君给大家分享一款国产文档管理软件——ivySCI。笔者比较喜欢ivySCI的阅读体验和笔记功能。文档检索功能也值得推荐。您还可以比较各种文档管理软件。优缺点,再决定用哪一个。
  ivySCI简介
  ivySCI 的使命是帮助研究人员积累知识,从海量文献中发现创新点。ivySCI以此为使命,通过便捷的文献管理、沉浸式阅读体验、卡片式笔记系统、流程式论文写作,帮助科研人员消化文献、积累知识、寻找创新点。
  ivySCI官网:
  ivySCI下载地址:
  ivySCI的特点
  ① 文件管理
  文档管理是ivySCI最基本的功能,可以用来管理所有的文档信息。ivySCI不仅支持本地PDF文档的上传,还可以通过DOI或文档标题等信息进行搜索上传。批量上传PDF文档也很方便。您无需担心更改文档管理软件和重新导入文档信息。上传文档后,ivySCI会自动识别PDF文档的元信息(meta),包括标题、摘要、作者和年份信息等,对于错误的文档元信息,您可以手动补充或更正,非常方便的!
  此外,ivySCI 还可以为文档添加标签。我们可以根据自定义的标签对文档进行分类,也可以根据文档的重要性或者阅读的时间来标记文档,这样我们就可以非常快速的找到我们需要的文档。
  
  更值得一提的是,ivySCI支持云存储,意味着文档可以跨平台同步,文档数据可以随时随地访问。通过云端备份文档,无需担心文档丢失。
  ②文献检索
  ivySCI内置了常用的学术搜索引擎,包括百度学术、谷歌学术、必应学术、中国知网、万方数据、中科院文献信息中心、ScienceRedirect、SemanticScholar、PubMed等。由于是国产软件,不仅支持常用英文论文的检索,还可以检索中文文献,这是国外开发的很多文献管理软件所没有的。
  检索到的文献可以一键导入ivySCI,省去从网站导出书目信息再导入文献管理软件的麻烦。
  另外ivySCI如果没有常用的文献搜索引擎,也支持自定义添加新的搜索引擎,是不是很贴心!
  ③ 文献阅读
  沉浸式文献阅读体验是EndNote等很多文献管理软件所不具备的功能,非常推荐ivySCI的文献阅读功能!
  只需点击我们需要阅读的文献条目,即可直接使用ivySCI内置阅读器进行文献阅读,无需额外打开PDF阅读器。
  更值得一提的是ivySCI提供了查词和翻译功能。我们只需要选择一个单词或句子就可以自动翻译,这对于英语水平一般的朋友来说非常有用。而对于文献中经常遇到的专业词汇,ivySCI还提供了维基百科专有名词查询,是不是很贴心!
  
  另外ivySCI可以自动提取文献中的图表,方便我们在阅读文献时进行图文对比分析,更容易理解图表信息。
  在文献阅读方面,ivySCI还有一个重磅功能,可以自动识别文献中的参考文献,支持中文文献。您只需要点击引用的链接即可快速查看引用,您可以轻松地将引用添加到当前项目中。
  ④文献注释
  做文献笔记是文献阅读中最重要的部分。文献笔记被认为是大多数科研人员不可分割的功能。ivySCI 笔记是基于卡片的笔记。
  阅读文献时,可以将文献中的重要观点和结论突出显示并提取到笔记中。对于重点图表,ivySCI也支持框选摘录,也可以在图表中添加注释。所有笔记都支持添加多个标签,不同的标签可以通过颜色区分。我们可以自定义分类方式,形成自己的文档管理系统,大大提高了文档管理的效率。
  ⑤ 编写插件
  除了文档管理软件外,ivySCI还提供了一款名为IvyCite的写作插件,支持Word和WPS,兼容Mac和Windows。写论文时可以引用文献,提供上千种文献格式。并且它支持注释插入。如果我们习惯边看边做笔记,那么写论文就会很顺利。
  本期介绍一款国产文档管理软件ivySCI的功能。通过这些功能的介绍,大家应该已经对ivySCI这个软件有所了解了,作为一款中文界面的软件,相信大家可以很快上手。
  即将发布:优采云
软件旗舰店
  
  优采云
Collector是一套专业的网站内容采集软件,支持采集各种论坛、网站、博客文章内容爬取的帖子和回复,通过相关配置可以轻松为自己采集80%的网站内容使用. 优采云
采集器根据各建站程序的不同分为论坛采集器、CMS采集器和博客采集器三大类,支持近40个主流建站程序,完成上百个版本的数据采集发布任务. 图片本地化,支持网站登录采集、页面抓取,全面模拟手动登录发布,软件运行速度快,安全稳定!论坛采集器
还支持无限注册论坛会员,
  
  优采云
采集器目前分为三个系列,分别是论坛采集器系列、CMS采集器系列和博客采集器系列,基本涵盖了一些主流的建站程序,极大地满足了各类用户的需求。

解决方案:「自然语言处理」使用自然语言处理的智能文档分析

采集交流优采云 发表了文章 • 0 个评论 • 74 次浏览 • 2022-11-28 21:21 • 来自相关话题

  解决方案:「自然语言处理」使用自然语言处理的智能文档分析
  什么是智能文档分析?
  智能文档分析 (IDA) 是指使用自然语言处理 (NLP) 和机器学习从非结构化数据(文本文档、社交媒体帖子、电子邮件、图像等)中获取洞察力。由于 80% 的企业数据是非结构化数据,IDA 可以跨行业和业务职能部门带来实实在在的好处,例如改进合规性和风险管理、提高内部运营效率以及增强业务流程。
  在这篇博客中,我将描述 IDA 中使用的主要 NLP 技术,并提供各种业务用例的示例。我还将讨论开始您的第一个 IDA 项目时的一些关键考虑因素。
  智能文档分析技术
  以下是 7 种常见的 IDA 技术。将提供示例用例来解释每种技术。
  1. 命名实体识别
  命名实体识别识别文本中提到的命名实体,并将它们分类为预定义的类别,例如人名、组织、位置、时间表达式、货币值等。执行命名实体识别的方法有多种:
  命名实体识别是本博客中讨论的许多其他 RDA 技术的关键预处理技术。其他命名实体识别用例的示例包括:
  2. 情感分析
  情感分析对新闻报道、社交媒体内容、评论等文本中表达的观点进行识别和分类。最简单的形式是,它可以将情感分为正面和负面两类;但它也可以量化情绪(例如 -1 到 +1),或在更细粒度的级别(例如非常消极、消极、中性、积极、非常积极)对其进行分类。
  与许多 NLP 技术一样,情感分析需要能够处理语言的复杂性。例如:
  情绪分析通常用于分析与公司或其竞争对手相关的社交媒体帖子。它可以成为一个强大的工具:
  3.文本相似度
  文本相似度计算句子、段落和文档之间的相似度。
  为了计算两个条目之间的相似度,必须首先将文本转换为表示文本的 n 维向量。该向量可能收录
文档中的关键字和实体,或内容中表示的主题的表示。矢量和文档之间的相似性可以通过余弦相似性等技术来衡量。
  文本相似性可用于检测文档或文档部分中的重复项和近似重复项。这里有两个例子:
  
  4.文本分类
  文本分类用于根据文本内容将文本项分配到一个或多个类别。它有两个维度:
  一般来说,类别和标签的数量越少,预期的准确度就越高。
  文本分类将使用文档中的单词、实体和短语来预测类别。它还可以考虑其他特征,例如文档中收录
的任何标题、元数据或图像。
  文本分类的一个示例用例是邮件或电子邮件等文档的自动路由。文本分类用于确定应将文档发送到的队列,以供适当的专家团队处理,从而节省时间和资源(例如,法律、营销、财务等)。
  文本分类也可以应用于文档的部分(例如句子或段落),例如,确定信件的哪些部分进行了投诉,以及投诉的类型。
  5.信息提取
  信息抽取从非结构化文本中抽取结构化信息。
  一个示例用例是识别信件的发件人。识别的主要方式是发件人的参考号、身份证号或会员号。如果未找到,则回退可能是发件人的姓名、邮政编码和出生日期。每条信息都可以通过命名实体识别来识别,但这本身是不够的,因为可能会找到多个实例。信息抽取依赖于实体识别。对实体上下文的理解有助于确定哪个是正确答案。例如,一封信可能收录
多个日期和邮政编码,因此需要确定哪个是寄件人的出生日期,哪个是寄件人的邮政编码。
  6. 关系抽取
  关系抽取抽取两个或多个实体之间的语义关系。与信息抽取类似,关系抽取依赖于命名实体识别,但不同的是它特别关注实体之间的关系类型。关系抽取可以用来进行信息抽取。
  一些 NLP 包和服务提供开箱即用的模型来提取诸如“雇员”、“已婚”和“出生地”等关系。与命名实体识别一样,可以通过训练特定的机器学习模型来提取自定义关系类型。
  关系提取可用于处理非结构化文档以识别具体关系,然后将其用于填充知识图谱。
  例如,该技术可以通过处理非结构化医疗文档来提取疾病、症状、药物等之间的关系。
  七、概述
  摘要缩短文本以创建要点的连贯摘要。文本摘要有两种不同的方法:
  文本摘要可用于使人们能够快速消化大量文档的内容,而无需完全阅读它们。这方面的一个例子是新闻提要或科学出版物,它们通常会生成大量文档。
  智能文档分析任务的复杂性
  
  机器学习在非结构化文本上比在结构化数据上复杂得多,因此在分析文本文档时达到或超过人类水平的性能要困难得多。
  1. 语言复杂度
  由于语言收录
的变化、歧义、上下文和关系,人类需要很多年才能理解语言。我们可以用多种方式表达相同的想法。我们根据作者和读者群使用不同的风格,并选择使用同义词来增加兴趣并避免重复。RDA 技术必须能够理解不同的风格、歧义和词关系以获得准确的洞察力。
  IDA 需要理解通用语言和特定领域的术语。处理特定领域术语的一种方法是使用自定义词典或构建用于实体提取、关系提取等的自定义机器学习模型。
  将通用语言和特定领域术语相结合的另一种方法是迁移学习。这需要一个已经在大量通用文本上训练过的现有神经网络,然后添加额外的层并使用少量特定于问题的内容来训练组合模型。现有的神经网络类似于人类在学校开发的年代。额外的层类似于一个人离开学校并开始工作时发生的领域或特定于任务的学习。
  2.准确性
  RDA 技术的准确性取决于所用语言的多样性、风格和复杂性。它还可能取决于:
  NLP-progress 是一个跟踪最先进模型在最常见 NLP 任务上的准确性的网站。这为可以达到的准确度水平提供了有用的指南。不过,判断 IDA 是否会产生准确结果的最佳指南是问问自己“人类做这件事有多容易?” “如果一个人无需多年的训练任务就能学会准确地完成这项工作,那么 IDA 就有可能通过加快流程、保持一致性或减少体力劳动来带来好处。”
  您如何处理智能文档分析项目?
  IDA 项目可以通过以下两种方式之一集成到企业中:
  使用的方法应取决于 IDA 所达到的准确性和做出错误决策的成本。如果错误决策的成本很高,请考虑从手动循环开始,直到准确度足够高。
  IDA 项目最好采用迭代方式 - 从概念验证开始,以确定该方法是否可行,如果可行,所达到的准确性是否表明使用了自动化或人为参与。然后迭代增加复杂性,直到估计的工作量不能证明预期的收益。
  对于您的第一个 IDA 项目,请考虑以下步骤:
  此过程将使您熟悉这些技术,并让您的业务发起人在处理具有更高收益的更复杂的用例之前获得对它们的信心。
  通过周密的规划和实施策略,您的组织可以利用上面讨论的 NLP 和机器学习技术来构建 IDA 应用程序以改善业务成果。
  本文:
  讨论:请加入知识星球【首席架构师智库】或小号【jiagoushi_pro】
  (此处已添加圈卡,请前往今日头条客户端查看)
  解决方案:OCR完美扫描识别增值税发票
  一、发票扫描识别系统定义
  OPSKY Express客票扫描识别系统(以下简称发票扫描识别系统)是结合高性能扫描仪和OCR识别技术,软硬件一体化的系统。
  发票扫描识别系统利用扫描仪完美捕捉发票图像(JPG/TIFF/BMP格式),并同步进行图像处理,利用OCR识别技术识别发票图像上的关键信息,生成TXT文本和XML格式文件同步。发票信息的采集
。扫描识别对象包括增值税专用发票、增值税普通发票、机动车销售统一发票等。目前,发票扫描识别系统已成功应用于企业财务票据查验系统和机构以及汽车销售行业的DMS管理系统。
  2、发票扫码识别系统的继承
  1、高性能扫描仪,目前系统配备三种扫描仪:L2230、L7280+、L7300+;
  2、发票扫描识别系统智能图像处理功能:倾斜校正、原尺寸裁切、去底色、旋转、去白页、加框等;
  
  3、发票扫描识别系统采用清华TH-OCR识别内核,可OCR识别多种格式发票;
  4、发票扫描识别系统配备智能发票模板编辑工具,可轻松自定义各种格式的发票识别模板;
  5、发票扫描识别系统支持发票图像自动分类,系统可自动区分当前单据所属业务类型,实现自动归档;
  6、发票扫描识别系统配备快速数据校对工具,支持横向字段校对和纵向收词校对两种方式;
  三、发​​票扫描识别系统工作流程
  1、使用智能票据模板编辑工具识别发票图像上的关键信息并划定区域,即自定义需要识别的格式化发票模板(系统内置常用发票识别模板);
  
  2、PC连接扫描仪后,打开发票扫描识别系统DEMO,一键扫描识别,通过扫描仪采集发票图像并同步完成OCR识别工作(支持导入图像识别);
  3、发票扫描识别系统DEMO支持校对修改,结果自动保存到生成的TXT文本和XML格式文件中;
  4、发票扫描识别系统集成开发
  为实现上述发票扫描识别系统的强大功能,需要进行系统集成开发:
  操作系统:Windows系列
  API接口:以标准DLL(动态链接库)和OCX控件的形式提供,支持VB、VC、C#、
  Delphi、PB、C/C++、Java等常用编程语言的调用; 查看全部

  解决方案:「自然语言处理」使用自然语言处理的智能文档分析
  什么是智能文档分析?
  智能文档分析 (IDA) 是指使用自然语言处理 (NLP) 和机器学习从非结构化数据(文本文档、社交媒体帖子、电子邮件、图像等)中获取洞察力。由于 80% 的企业数据是非结构化数据,IDA 可以跨行业和业务职能部门带来实实在在的好处,例如改进合规性和风险管理、提高内部运营效率以及增强业务流程。
  在这篇博客中,我将描述 IDA 中使用的主要 NLP 技术,并提供各种业务用例的示例。我还将讨论开始您的第一个 IDA 项目时的一些关键考虑因素。
  智能文档分析技术
  以下是 7 种常见的 IDA 技术。将提供示例用例来解释每种技术。
  1. 命名实体识别
  命名实体识别识别文本中提到的命名实体,并将它们分类为预定义的类别,例如人名、组织、位置、时间表达式、货币值等。执行命名实体识别的方法有多种:
  命名实体识别是本博客中讨论的许多其他 RDA 技术的关键预处理技术。其他命名实体识别用例的示例包括:
  2. 情感分析
  情感分析对新闻报道、社交媒体内容、评论等文本中表达的观点进行识别和分类。最简单的形式是,它可以将情感分为正面和负面两类;但它也可以量化情绪(例如 -1 到 +1),或在更细粒度的级别(例如非常消极、消极、中性、积极、非常积极)对其进行分类。
  与许多 NLP 技术一样,情感分析需要能够处理语言的复杂性。例如:
  情绪分析通常用于分析与公司或其竞争对手相关的社交媒体帖子。它可以成为一个强大的工具:
  3.文本相似度
  文本相似度计算句子、段落和文档之间的相似度。
  为了计算两个条目之间的相似度,必须首先将文本转换为表示文本的 n 维向量。该向量可能收录
文档中的关键字和实体,或内容中表示的主题的表示。矢量和文档之间的相似性可以通过余弦相似性等技术来衡量。
  文本相似性可用于检测文档或文档部分中的重复项和近似重复项。这里有两个例子:
  
  4.文本分类
  文本分类用于根据文本内容将文本项分配到一个或多个类别。它有两个维度:
  一般来说,类别和标签的数量越少,预期的准确度就越高。
  文本分类将使用文档中的单词、实体和短语来预测类别。它还可以考虑其他特征,例如文档中收录
的任何标题、元数据或图像。
  文本分类的一个示例用例是邮件或电子邮件等文档的自动路由。文本分类用于确定应将文档发送到的队列,以供适当的专家团队处理,从而节省时间和资源(例如,法律、营销、财务等)。
  文本分类也可以应用于文档的部分(例如句子或段落),例如,确定信件的哪些部分进行了投诉,以及投诉的类型。
  5.信息提取
  信息抽取从非结构化文本中抽取结构化信息。
  一个示例用例是识别信件的发件人。识别的主要方式是发件人的参考号、身份证号或会员号。如果未找到,则回退可能是发件人的姓名、邮政编码和出生日期。每条信息都可以通过命名实体识别来识别,但这本身是不够的,因为可能会找到多个实例。信息抽取依赖于实体识别。对实体上下文的理解有助于确定哪个是正确答案。例如,一封信可能收录
多个日期和邮政编码,因此需要确定哪个是寄件人的出生日期,哪个是寄件人的邮政编码。
  6. 关系抽取
  关系抽取抽取两个或多个实体之间的语义关系。与信息抽取类似,关系抽取依赖于命名实体识别,但不同的是它特别关注实体之间的关系类型。关系抽取可以用来进行信息抽取。
  一些 NLP 包和服务提供开箱即用的模型来提取诸如“雇员”、“已婚”和“出生地”等关系。与命名实体识别一样,可以通过训练特定的机器学习模型来提取自定义关系类型。
  关系提取可用于处理非结构化文档以识别具体关系,然后将其用于填充知识图谱。
  例如,该技术可以通过处理非结构化医疗文档来提取疾病、症状、药物等之间的关系。
  七、概述
  摘要缩短文本以创建要点的连贯摘要。文本摘要有两种不同的方法:
  文本摘要可用于使人们能够快速消化大量文档的内容,而无需完全阅读它们。这方面的一个例子是新闻提要或科学出版物,它们通常会生成大量文档。
  智能文档分析任务的复杂性
  
  机器学习在非结构化文本上比在结构化数据上复杂得多,因此在分析文本文档时达到或超过人类水平的性能要困难得多。
  1. 语言复杂度
  由于语言收录
的变化、歧义、上下文和关系,人类需要很多年才能理解语言。我们可以用多种方式表达相同的想法。我们根据作者和读者群使用不同的风格,并选择使用同义词来增加兴趣并避免重复。RDA 技术必须能够理解不同的风格、歧义和词关系以获得准确的洞察力。
  IDA 需要理解通用语言和特定领域的术语。处理特定领域术语的一种方法是使用自定义词典或构建用于实体提取、关系提取等的自定义机器学习模型。
  将通用语言和特定领域术语相结合的另一种方法是迁移学习。这需要一个已经在大量通用文本上训练过的现有神经网络,然后添加额外的层并使用少量特定于问题的内容来训练组合模型。现有的神经网络类似于人类在学校开发的年代。额外的层类似于一个人离开学校并开始工作时发生的领域或特定于任务的学习。
  2.准确性
  RDA 技术的准确性取决于所用语言的多样性、风格和复杂性。它还可能取决于:
  NLP-progress 是一个跟踪最先进模型在最常见 NLP 任务上的准确性的网站。这为可以达到的准确度水平提供了有用的指南。不过,判断 IDA 是否会产生准确结果的最佳指南是问问自己“人类做这件事有多容易?” “如果一个人无需多年的训练任务就能学会准确地完成这项工作,那么 IDA 就有可能通过加快流程、保持一致性或减少体力劳动来带来好处。”
  您如何处理智能文档分析项目?
  IDA 项目可以通过以下两种方式之一集成到企业中:
  使用的方法应取决于 IDA 所达到的准确性和做出错误决策的成本。如果错误决策的成本很高,请考虑从手动循环开始,直到准确度足够高。
  IDA 项目最好采用迭代方式 - 从概念验证开始,以确定该方法是否可行,如果可行,所达到的准确性是否表明使用了自动化或人为参与。然后迭代增加复杂性,直到估计的工作量不能证明预期的收益。
  对于您的第一个 IDA 项目,请考虑以下步骤:
  此过程将使您熟悉这些技术,并让您的业务发起人在处理具有更高收益的更复杂的用例之前获得对它们的信心。
  通过周密的规划和实施策略,您的组织可以利用上面讨论的 NLP 和机器学习技术来构建 IDA 应用程序以改善业务成果。
  本文:
  讨论:请加入知识星球【首席架构师智库】或小号【jiagoushi_pro】
  (此处已添加圈卡,请前往今日头条客户端查看)
  解决方案:OCR完美扫描识别增值税发票
  一、发票扫描识别系统定义
  OPSKY Express客票扫描识别系统(以下简称发票扫描识别系统)是结合高性能扫描仪和OCR识别技术,软硬件一体化的系统。
  发票扫描识别系统利用扫描仪完美捕捉发票图像(JPG/TIFF/BMP格式),并同步进行图像处理,利用OCR识别技术识别发票图像上的关键信息,生成TXT文本和XML格式文件同步。发票信息的采集
。扫描识别对象包括增值税专用发票、增值税普通发票、机动车销售统一发票等。目前,发票扫描识别系统已成功应用于企业财务票据查验系统和机构以及汽车销售行业的DMS管理系统。
  2、发票扫码识别系统的继承
  1、高性能扫描仪,目前系统配备三种扫描仪:L2230、L7280+、L7300+;
  2、发票扫描识别系统智能图像处理功能:倾斜校正、原尺寸裁切、去底色、旋转、去白页、加框等;
  
  3、发票扫描识别系统采用清华TH-OCR识别内核,可OCR识别多种格式发票;
  4、发票扫描识别系统配备智能发票模板编辑工具,可轻松自定义各种格式的发票识别模板;
  5、发票扫描识别系统支持发票图像自动分类,系统可自动区分当前单据所属业务类型,实现自动归档;
  6、发票扫描识别系统配备快速数据校对工具,支持横向字段校对和纵向收词校对两种方式;
  三、发​​票扫描识别系统工作流程
  1、使用智能票据模板编辑工具识别发票图像上的关键信息并划定区域,即自定义需要识别的格式化发票模板(系统内置常用发票识别模板);
  
  2、PC连接扫描仪后,打开发票扫描识别系统DEMO,一键扫描识别,通过扫描仪采集发票图像并同步完成OCR识别工作(支持导入图像识别);
  3、发票扫描识别系统DEMO支持校对修改,结果自动保存到生成的TXT文本和XML格式文件中;
  4、发票扫描识别系统集成开发
  为实现上述发票扫描识别系统的强大功能,需要进行系统集成开发:
  操作系统:Windows系列
  API接口:以标准DLL(动态链接库)和OCX控件的形式提供,支持VB、VC、C#、
  Delphi、PB、C/C++、Java等常用编程语言的调用;

分享文章:便签怎样提取图片文字?

采集交流优采云 发表了文章 • 0 个评论 • 93 次浏览 • 2022-11-28 21:20 • 来自相关话题

  分享文章:便签怎样提取图片文字?
  很多人在使用手机或者电脑的时候,经常会用手机来帮助自己记录一些容易忘记的事情。为此,很多人会选择使用笔记软件。随着科技的发展,便签软件的功能越来越多。如果你想提取图片上的文字,哪个便签可以做到?
  我平时很喜欢文学。当我看到一些好的文章或一些经典的句子时,我喜欢将它们摘录并采集
。之前采集
和提取这些句子时,我都是用纸质笔记本来做的。后来随着不断的积累,发现笔记本不便于携带和查看,容易损坏,摘录也很费时间。
  
  后来一个偶然的机会,在一个知名的IT论坛上看到有很多网友推荐了一款叫做敬业签的便签软件。于是下载下来体验了一段时间。体验后发现,移动端专用标志可以通过拍照或从相册中选择图片的方式提取文字,加入金卡会员即可获得该功能。注意图像识别功能。
  当你发现图片上有文字需要提取时,先点击专用标签的新建按钮,然后点击选择屏幕功能栏最右侧的方框图标。这个图标是文字识别功能。点击后可以选择相机拍照或者本地相册,选择一张照片点击完成,拍照点击使用照片,稍等片刻即可识别图片中的文字。
  
  有了这个识别图片文字的功能,遇到喜欢的大文字时,就会轻松很多。除此之外,我非常喜欢它的多段同步功能。同一账号登录后,可在苹果手机、安卓手机、Mac、Windows系统PC和网页上使用。
  多端同步功能,可以用手机提取图片上的文字,然后通过电脑等其他操作终端查看编辑,非常灵活方便。
  分享文章:采集公众号所有文章导出Excel
  网站版支持4种常用网站类型dedecms、wordpress、phpcms、discuz,1个数据库mysql对接,1个自定义API接口,常见问题及设置方法介绍如下。请检查您的网站程序
  WordPress是一个使用PHP语言开发的博客平台。用户可以在支持PHP和MySQL数据库的服务器上架设自己的网站。您还可以将 WordPress 用作内容管理系统 (CMS)。
  独狼采集器
  
  WordPress 设置:
  注意:后台一定要填:wp-admin/,wp一般没有验证码,所以不用填。cookie不用填,类目ID可以在里面查看你网站的背景-文章-分类,右键目录名可以查看属性,属性url中Tag_ID=后面的值为分类ID
  
  如需发表文章,请先进入审稿状态,不要直接发表。可以这样设置:打开软件目录下data目录下的settings.ini,找到【网站设置】,在下一行写入:
  发布方式=1//说明:1为直接发布状态,2为待审核状态,author=1//说明:1为显示昵称,2为显示公众号,3为显示此格式:微信[weixin] 查看全部

  分享文章:便签怎样提取图片文字?
  很多人在使用手机或者电脑的时候,经常会用手机来帮助自己记录一些容易忘记的事情。为此,很多人会选择使用笔记软件。随着科技的发展,便签软件的功能越来越多。如果你想提取图片上的文字,哪个便签可以做到?
  我平时很喜欢文学。当我看到一些好的文章或一些经典的句子时,我喜欢将它们摘录并采集
。之前采集
和提取这些句子时,我都是用纸质笔记本来做的。后来随着不断的积累,发现笔记本不便于携带和查看,容易损坏,摘录也很费时间。
  
  后来一个偶然的机会,在一个知名的IT论坛上看到有很多网友推荐了一款叫做敬业签的便签软件。于是下载下来体验了一段时间。体验后发现,移动端专用标志可以通过拍照或从相册中选择图片的方式提取文字,加入金卡会员即可获得该功能。注意图像识别功能。
  当你发现图片上有文字需要提取时,先点击专用标签的新建按钮,然后点击选择屏幕功能栏最右侧的方框图标。这个图标是文字识别功能。点击后可以选择相机拍照或者本地相册,选择一张照片点击完成,拍照点击使用照片,稍等片刻即可识别图片中的文字。
  
  有了这个识别图片文字的功能,遇到喜欢的大文字时,就会轻松很多。除此之外,我非常喜欢它的多段同步功能。同一账号登录后,可在苹果手机、安卓手机、Mac、Windows系统PC和网页上使用。
  多端同步功能,可以用手机提取图片上的文字,然后通过电脑等其他操作终端查看编辑,非常灵活方便。
  分享文章:采集公众号所有文章导出Excel
  网站版支持4种常用网站类型dedecms、wordpress、phpcms、discuz,1个数据库mysql对接,1个自定义API接口,常见问题及设置方法介绍如下。请检查您的网站程序
  WordPress是一个使用PHP语言开发的博客平台。用户可以在支持PHP和MySQL数据库的服务器上架设自己的网站。您还可以将 WordPress 用作内容管理系统 (CMS)。
  独狼采集器
  
  WordPress 设置:
  注意:后台一定要填:wp-admin/,wp一般没有验证码,所以不用填。cookie不用填,类目ID可以在里面查看你网站的背景-文章-分类,右键目录名可以查看属性,属性url中Tag_ID=后面的值为分类ID
  
  如需发表文章,请先进入审稿状态,不要直接发表。可以这样设置:打开软件目录下data目录下的settings.ini,找到【网站设置】,在下一行写入:
  发布方式=1//说明:1为直接发布状态,2为待审核状态,author=1//说明:1为显示昵称,2为显示公众号,3为显示此格式:微信[weixin]

解决方案:华为诺亚开源首个亿级中文多模态数据集,填补中文NLP社区空白

采集交流优采云 发表了文章 • 0 个评论 • 42 次浏览 • 2022-11-28 11:42 • 来自相关话题

  解决方案:华为诺亚开源首个亿级中文多模态数据集,填补中文NLP社区空白
  华为诺亚方舟实验室的研究人员提出了一个大型中文跨模态数据库——“悟空”,并以此为基础,对不同的多模态预训练模型进行了benchmark,有助于中文视觉语言预训练算法的研发和开发.
  在大数据上预训练大型模型以微调下游任务已成为 AI 系统的新兴范例。BERT 和 GPT 等模型在 NLP 社区中越来越受欢迎,因为它们对广泛的下游任务甚至零样本学习任务具有很高的可迁移性,从而产生了 SOTA 性能。最近的工作,如 CLIP、ALIGN 和 FILIP,进一步将这种范式扩展到视觉语言联合预训练 (VLP) 领域,并在各种下游任务上显示出优于 SOTA 方法的结果。这个有前途的方向引起了业界和研究人员的极大关注,将其视为通往下一代人工智能模型的途径。
  VLP 模型的成功有两个原因。一方面,更高级的模型架构(如 ViT/BERT)和训练目标(如对比学习)通常会提高模型的泛化能力和学习表征的鲁棒性。另一方面,由于硬件和分布式训练框架的进步,越来越多的数据可以输入到大规模模型中,以提高模型的泛化性、可迁移性和零样本能力。在视觉或语言任务中,在大规模数据(如图像分类中的JFT-300M,T5中的C4数据集)上进行预训练,然后通过迁移学习或提示学习进行学习,已被证明非常有效地提高了下游任务的执行。有用。此外,
  因此,预训练 VLP 模型在大规模数据上的成功促使人们不断爬取和采集
更大的图形数据集。下面的表 1 显示了 VLP 领域中许多流行数据集的概览。Flickr30k、SBU Captions 和 CC12M 等公开可用的视觉语言(英语)数据集的样本量相对较小(约 1000 万),而较大的数据集如 LAION-400M。但是,直接使用英文数据集训练模型会导致中文翻译任务的性能大幅下降。例如,大量特定的中文成语和俚语无法被英文翻译覆盖,而机器翻译往往会在这些方面带来错误,进而影响任务执行。
  目前,社区缺乏大规模公开可用的中文数据集,这不仅阻碍了社区的发展,而且使用私人大型数据集也取得了其他作品无法公平比较的惊人性能。
  为了弥合这一差距,华为诺亚方舟实验室的研究人员发布了一个名为“悟空”的大型中文跨模态数据集,其中收录
来自互联网的 1 亿个图像文本对。为确保多样性和泛化性,Wukong 数据集是从 200,000 个高频中文词列表中采集
的。本文还采用基于图像和基于文本的过滤策略进一步细化悟空数据集,使其成为迄今为止最大的中文视觉语言跨模态数据集。研究人员分析了数据集并表明它涵盖了广泛的视觉和文本概念。
  研究人员进一步发布了一组使用不同架构(ResNet/ViT/SwinT)和不同方法(CLIP、FILIP 和 LiT)的大型预训练模型。本文的主要贡献如下:
  “悟空”数据集
  研究人员构建了一个名为 Wukong 的新数据集,其中收录
从网络采集
的 1 亿个图像文本对。为了涵盖足够多的视觉概念,Wukong 数据集是从收录
200,000 个术语的查询列表中采集
的。这个基础查询列表取自严松等人的论文《Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings》,然后根据华为海量新闻文本中中文词和短语出现的频率进行过滤语料库。
  查询列表建立后,研究人员在百度图片上搜索每个查询,获得图片网址列表和相应的标题信息。为了保持不同查询结果之间的平衡,他们每次查询最多搜索 1000 个样本。然后使用先前获得的图像 URL 下载图像,总共产生 1.66 亿个图像文本对。然后,像往常一样,研究人员通过以下一系列过滤策略构建最终的 Wukong 数据集。下面的图 2 显示了 Wukong 数据集中的一些样本。
  基于图像的过滤
  研究人员首先根据图像大小和纵横比过滤数据。仅保留长于或宽于 200 像素且纵横比为 3 或更小的图像。这种方法会过滤掉太小、太高或太宽的图像,因为这些图像在预训练期间经过上采样和方形裁剪等图像增强后可能会变得低分辨率。
  基于文本的过滤
  其次,为了使选取的样本具有对应图像的高质量中文描述,研究人员进一步根据图像所附文字的语言、长度和频率对数据进行过滤。具体来说,他们首先检查语言和长度,保留收录
至少一个但少于 32 个汉字的句子。无意义的图像描述如“000.jpg”也被丢弃。之后搭配太多图片的文字通常与图片内容无关,比如“查看源码页面”、“展开文字”、“摄影社区”。在实践中,研究人员将这个阈值设置为 10,即丢弃整个采集
到的语料中出现次数超过 10 次的图文对。
  为了保护文本中个人的隐私,研究人员将人名替换为特殊标签“&lt;人名&gt;”。此外,他们还构建了中文敏感词列表,收录
敏感词的图文对也被丢弃。
  在应用上述过滤策略后,研究人员最终得到了大约 1 亿对的数据集。下表 2 显示了数据集的统计数据:数据集文本中有 20,442 个独特的标记,每个描述中的平均标记数为 22。
  
  在下面的图 3 中,研究人员可视化了数据集中单词(由一个或多个标记组成)的分布。然后,他们使用中文文本分词工具 Jieba 截取单词并构建数据集的词云。
  方法框架
  文本图像联合对齐
  与最近经过充分验证的方法类似,研究人员采用对比预训练架构,如下图 1 所示。他们使用带有基于 Transformer 的文本和图像编码器的双流模型。这两个编码器将文本和视觉输入标记转换为相同维度的嵌入。在这个学习的联合嵌入空间中,我们使用对比损失来鼓励图像和文本对具有相似的嵌入,而未配对的对具有不同的嵌入。
  模型架构
  由于视觉和文本模态的编码器是解耦的,因此可以为这两种模态探索不同的编码器架构。研究人员试验了三种视觉编码器变体(即 ResNet、Vision Transformer 和 Swin Transformer)和一种类似 BERT 的文本编码器来训练中文 VLP 模型。
  预训练目标
  跨模态对比学习是一种特别有效的方法,用于从成对的图像文本数据训练模型,它可以通过区分成对和未成对的样本同时学习两种模态的表示。研究人员遵循 FILIP (Yao et al., 2022) 中的公式符号,使用
  定义图像样本集,同时
  表示文本数据。给定图像样本
  和一个文本样本
  ,该模型旨在使成对的图像和文本表示在联合多模态空间中靠近在一起,而不成对的表示相距很远。
  
  在这项工作中,研究人员探索了两种方法来衡量图像和文本之间的相似性。图像和文本的学习表示被标记为
  和
  . 这里,n_1 和 n_2 是每个图像和文本中(未填充的)词标记的数量。
  LiT调校
  研究人员受到最近提出的微调范例 LiT-tuning(锁定图像文本调优)的启发,该范例表明具有固定权重的图像编码器和可学习的文本编码器在 VLP 模型中效果最好。他们在对比学习设置中做了同样的事情,只更新了文本编码器的权重而不是图像编码器。
  具体来说,研究人员采用的 LiT-tuning 方法旨在教会中文文本编码器从现有的图像编码器中读取合适的表示,该图像编码器已在英文数据集上进行了预训练。他们还为每个编码器添加了一个可选的可学习线性变换层,它将两种模态的表示映射到相同的维度。LiT-tuning 效果很好,因为它解耦了用于学习图像特征和视觉语言对齐的数据源和技术(Zhai 等人,2021b)。此外,图像描述符使用相对干净或(半)手动标记的图像预先进行了很好的预训练。
  我们将这个想法扩展到多语言数据源,并尝试将在英语数据源上预训练的固定图像编码器与可训练的中文文本编码器对齐。此外,LiT-tuning 方法显着加快了训练过程并减少了内存需求,因为它不需要为视觉编码器计算梯度。
  实验结果
  下面的表 3 描述了视频编码器的模型参数和详细信息。
  零镜头图像分类。研究人员在 17 个零镜头图像分类任务上评估了预训练模型。零样本图像分类结果如下表5所示。他们比较了使用不同视觉编码器的多个 LiT-tuning 模型,即从 CLIP 或 Swin Transformer 加载现有的视觉编码器并在训练阶段固定它们的权重。结果发现,使用令牌级别的相似性比使用全局相似性带来更显着的改进。
  文本检索任务。研究人员评估了两个子任务,即按图像搜索文本和按文本搜索图像。下面的表 6 和表 7 分别显示了零镜头设置和微调图像文本检索的结果。对于零样本设置,与其他模型相比,Wukong_ViT 在 4 个数据集中的 3 个上取得了最好的结果,而 Wukong_ViT-500M 在更大的 MUGE 数据集上取得了最好的结果。对于微调设置,Wukong_ViT-500M 在除 AIC-ICC 之外的所有数据集上都取得了最好的结果,其中 Wukong_ViT 效果最好。
  词汇 - 瓷砖对齐的可视化。研究人员使用预训练模型 Wukong_ViT 和 Wukong_Swin 进行可视化。如图 4 所示,该图可视化了来自 ImageNet 的中文六个标签(即豆娘、救生艇、蜂鸟、平板电话、教堂和电扇)的图像。然后应用与 FILIP (Yao et al., 2022) 相同的可视化方法来对齐文本和图块标记。
  从下面的图 4 中,研究人员发现这两个模型都能够预测目标对象的图像块。对于具有更多图像块的 Wukong_ViT,这种词汇块对齐比 Wukong_Swin 更细粒度。
  核心方法:词嵌入的经典方法,六篇论文遍历Word2vec的另类应用
  在这篇文章中,作者首先为读者​​普及了word2vec的基础知识,然后以六篇论文为例详细介绍了当前研究如何利用经典的word2vec进行扩展研究。其中,作者着重介绍了知识嵌入空间的生成过程。对其完整应用感兴趣的读者可以参考原论文。
  随着深度学习的兴起,每个模型都需要一个输入,而我们现实生活中的物体(文字、图片等)都不是数字,计算机无法处理。那么如何为每个任务确定一个合适的“输入”就变得尤为重要。这个过程也称为表征学习。
  word2vec 所做的是将文本转化为对计算机有意义的输入。简单的说,就是把这些东西映射到一个空间里。我们通常用三维空间来表示位置,也就是xyz,但是在图片、文字等这个领域,三维空间不够用,有可能去另一个N维空间. 在这个空间里,就像三维空间里人的鼻子应该靠近嘴巴一样,我们也希望在这个新的空间里也能找到类似的东西。比如课文中的“鼻子”和“嘴巴”我们也希望它们能离得近一些,因为它们属于五感,所以“鼻子”和“腿”是比较远的。
  顾名思义,word2vec 将文本转换为计算机可识别的输入,因此这项技术最早也是应用最广泛的应用是在自然语言处理(NLP)领域。其实我之前针对representation learning做过两次基于ICLR和CVPR的high-level总结,不过这次这篇文章主要针对word2vec,从细节入手,看看word2vec中发现的空间是如何改进和使用的,还要看看根据word2vec原理发现的新空间。在开始正题之前,为了防止大家对word2vec理解不清从而影响后面文字的理解,这里先科普一下本文将要用到的相关基本概念。
  一、word2vec简介
  What is word2vec: Word2Vec是一个过程(技术),其中文本被用作神经网络的训练数据,这个神经网络的输出向量被称为embeddings,这些embeddings(向量)将收录
训练后单词的语义信息。这个过程所做的是从每个单词嵌入到多个维度的空间到维度低得多的连续向量空间。矢量嵌入可以在真实对象的“离散”世界和机器学习的“可微”世界之间架起一座桥梁,因而在数据库研究中具有巨大的潜力。一类对象的嵌入向量从X映射到某个向量空间,称为潜在空间,我们通常假设它是有限维d的实向量空间R^d。
  它们用在什么地方:最后word2vec会生成如图1所示的一堆向量(word embedding,word embedding),这些向量可以在后续任务中作为神经网络模型的输入。
  图 1:示例词嵌入。图片来源:
  为什么使用 word2vec:如前所述,这些嵌入捕获了文本的语义,具有相似含义的单词靠得更近(图 2 显示了最常见的相似性度量之一——余弦相似度 Spend)。并且经过长期的实践,研究人员发现这种语义编码使得各种NLP任务都有很好的表现。
  图 2:距离作为距离度量的示例 - 余弦相似度。图片来源:
  基本模型:训练word2vec常用的方法有CBOW和skip-gram。如图3所示,w(t)代表当前词,w(t-?)代表前一个词,w(t+?)代表后一个词。简单来说,CBOW就是利用周围的词来预测当前词。而 skip-gram 模型使用当前词来尝试预测周围大小为 c 的窗口中的词。具体的计算细节可以参考图3来源的文章,这里就不详细介绍了。
  图 3:skip-gram 和 CBOW。图片来源:
  如何衡量:在使用embeddings时,我们应该考虑几个问题——对象的哪些属性由embeddings表示?我们使用的距离测量有什么意义?潜在空间的几何属性是否对应于 X 上有意义的关系?当然,同时我们还要考虑计算向量嵌入的计算成本。
  2.改善旧空间
  了解了word2vec的基础知识之后,就可以正式进入正题了。正如上一节所述,当我们构建嵌入空间时,我们需要考虑对象的那些属性需要在嵌入空间中表示。word2vec在传统的NLP任务中表现不错,但是在一些新的更复杂的任务中,有些属性不能很好的体现出来,因为最初的word2vec模型是完全基于文本训练的,很多关系很难在文本中体现出来,比如“看”和“吃”。单看这两个词,我们甚至很难认为它们有关联。
  但是如果加上图4,他们会连起来吗?对这幅图的描述可以有两种,一种是小女孩在“看”冰淇淋,另一种是增加了一定的联想——小女孩在“看”冰淇淋。“吃冰激凌。在对这张图片的描述中,两句话都是正确的。这个例子不仅说明了使用纯文本进行学习的缺点,还表明在图片描述等任务中,这个信息也很重要。
  图 4:吃冰淇淋的小女孩。资料来源:[1]
  不难理解,人类在感知世界时,不仅仅用视觉,还用听觉、嗅觉等,同样,在看的时候,看到的也不仅仅是文字,语言是知识的载体transfer,所以现在研究者开始使用不同的感知模式(声音,图片)来学习语言模型(multi-modal learning),让语言模型学习到的embedding能够更全面的代表我们人类的理解能力。
  至于技术层面,其实回到语言模型起源的阶段,语言模型和迁移学习就像一对兄弟,只是进入了不同的领域,叫法不同。例如在NLP任务中,先训练语言模型,然后直接使用预训练好的语言模型来执行下面的任务。好像前面几层的migration learning都冻结了(这个如果不理解也可以,不影响后面的理解,如果觉得放不下可以看看之前的文章机器之心,基础教程很多,这里就不介绍了)。
  之所以说transfer learning,是因为如果要达到完善word2vec空间的效果,其实类似于transfer learning中的global finetune,把前面的语言模型(一开始冻结的层)进培训。
  为了展示当前的研究如何具体使用word2vec进行扩展应用,本节简要介绍四篇论文,展示图片和声音如何增强现有word2vec嵌入空间的表示能力。当然,这里介绍的知识嵌入空间的生成过程在原论文中还有其他创新之处。如果您有兴趣,可以再次阅读全文。
  2.1 视觉 Word2Vec (vis-w2v) [1]
  论文链接:
  这种方法解决了图4中提到的例子中的问题。这里作者需要在原来word embedding的基础上增加图像的语义表示,即在w2v训练中加入图像作为背景。该方法基于 CBOW 并使用代理标签作为图像背景的表示。
  图 5:vis-w2v 中的网络结构。资料来源:[1]
  具体模型如图5所示,模型的输入是图文对D = {(v, w)},v指的是图片的特征,w是v对应的文字描述。这里,w(句子或单词)的形式会因场景而异(更多内容见下文)。
  图5所示的是一个窗口(这个窗口可能收录
w的一些单词,也可能收录
完整的w,也会根据不同的场景发生变化,下面会详细介绍),其中w_1到w_l代表一个窗口收录
的词是用one-hot方法编码的(N_V表示one-hot编码的维度),H_wi是W_I乘以wi得到的,这里W_I是共享的,即所有的w_i都乘以同一个W_I,因为它是one-hot encoding,其实相当于取W_I的某一行,对每条H_wi取平均值得到最终的H:
  得到H(N_H为embedding的维度)后,将这个H作为最终的特征向量,通过W_O映射到N_K维度(一共有N_K类,这里的N_K后面会讲到)。对其进行softmax操作后,就可以知道这段文字(w_1-w_l)属于哪个类别。这一步是做分类。
  如果理解NLP任务,第一步获取H和我们平时获取embedding的方式是一样的,因为这里的W_I初始化为传统CBOW的权重,所以这一步其实就是获取这些词的传统embedding,然后取其平均值作为整个窗口所有词的特征,然后做一个分类任务。
  现在是本文的核心——上一段说这是一个分类任务,那么分类任务的标签从何而来呢?这就是辅助标签的作用——作者在做分类任务时将图片v聚类成N_K个类,然后每个v所属的类就是这个v对应的w的标签。
  然后回到 w,其中 w 允许选择 w 的各种形式,例如完整的句子或形式的元组(主要对象,关系,次要对象)。w 的选择取决于我们关心的任务。例如,在常识断言分类和基于文本的图像检索中,w 是元组中的一个短语,而在视觉释义中,w 是一个句子。给定 w,S_w 也是可调整的。它可以包括所有 w(例如,当从元组中的短语学习时)或单词的子集(例如,当从句子中的 n-gram 上下文窗口学习时)。
  最后说说效果吧。这个任务其实就是在w2v的基础上进行finetune。这种直接进行global finetune的效果,按照论文的说法,也可以保持原有的w2v效果,即如果有些词在finetune过程中没有出现,会保持原有的语义属性,而这个global finetune会不要让新的 w2v 在传统任务中变得更糟。
  在下表1所示的视觉转录任务对比中,vis-w2v的效果要比纯w2v任务好很多。
  表 1:中继任务的平均准确度 (AP)。表格来源:[1]
  2.2 视觉监督Word2Vec(VS-Word2Vec)[2]
  
  论文链接::uhM9BVykvRQyYoWE5KCq3BfjUSjLRED2yV7nktCUgw3jDcAh_R2xx8iV7Az3pBWTZPBQ87cQzEgd
  本文还想把图片中的信息迁移到w2v中,让w2v空间更好的表示图片中的信息。上一篇论文是在w2v中加入广义的图片信息(词的相似度由图片的相似度引导),这篇论文的全称是Embedded Representation of Relation Words with Visual Supervision。顾名思义,就是让embedding space能够更好的表示相关词(“我背着包”中的“holding”就是相关词)。
  下图6展示了一些关系词的例子,[3]给出了一个与此类似的数据集,是本文的输入形式之一。
  图 6:关系词。资料来源:[3]
  VS-Word2Vec的基本结构如图7所示,这个结构分为上下两部分。上面是一个CNN,类似于图6中的图片作为输入,输出是一个特征向量,作为图片对应的关系词的embedding(视觉关系特征空间);下面是传统的CBOW,也会生成word embeddings。
  这篇论文和第一篇论文除了要表现的信息不同外,使用的方法也不同。基本思路是:如果这个词是关系词,那么让上面(CNN)生成的word embedding和下面生成的embedding尽量一样,但是如果这个词不是relative word,那么就忽略上面的,和传统的CBOW训练完全一样。
  图 7:VS-Word2Vec 网络结构。资料来源:[2]
  具体来说,整体算法如图8所示,第一行和第二行对应图7上半部分的CNN。首先,计算图表示(视觉关系特征,算法的第四行):
  这里y_wi是某个关系词wi的表示。具体来说,就是利用VGG得到这个关系词对应的所有图片(Q_i张图片)的特征向量(y_wi^q),然后对这些特征向量进行平均。如前所述,如果训练出来的词属于关系词,那么作者希望CBOW和CNN生成的两个embeddings尽可能一致。本文的不一致性通过以下公式衡量:
  这里s_ij表示关系词i和关系词j的余弦相似度,右下角的r表示这是一个关系词,x表示CBOW中生成的word embedding,v表示CNN中生成的word embedding。这个公式中J越小越好。
  图 8:VS-Word2Vec 算法流程。资料来源:[2]
  最后就是图8中的第4到19行,是上面整体思路的体现,即计算如下公式,同时更新参数(梯度上升):
  首先D是CBOW的训练集,然后对于训练集中的每个词,计算两个损失e1和e2,e1是前半部分,也就是传统CBOW的损失,e2是后半部分,也就是衡量两个嵌入的性能。不一致(J_V),\lambda是可调超参数,p_t表示w_t是否是关系词,如果是关系词,则p_t=1,保留后半部分,如果不是关系词,就变成传统的CBOW训练过程。
  注意第15行,这里使用了for循环,所以本文的目标不是让上下两部分对于一个关系词有完全相同的embedding,而是要求关系词保证“一致性”图7上下两部分的相似度,所以直接用J_V代替余弦相似度。
  作者使用该方法后,对比了SimVerb-3500中九大类的同义词(SYNONYMS, ANTONYMS, HYPER/HYPONYMS, COHYPONYM, NONE),对比结果如表2所示,总体来说比CBOW好,并且在一些特殊的班级,效果有了很大的提升。
  表 2:同义词一致性结果。表格来源:[2]
  2.3 Action2Vec [4]
  论文链接:
  又一篇探索视觉信息的文章,不过这里探索的对象变成了视频(因为它编码了动作),如图9,思路和上面类似,但是变成了左右结构,而这个第二篇是真正的两词比较(pairwise ranking loss),而不是用一致性来判断。
  图 9:Action2Vec 端到端架构。资料来源:[4]
  具体来说,左侧首先使用[5]中的数据集预训练的C3D模型提取每帧图片的特征向量,然后使用一个层次递归神经网络(HRNN),并加入一个self-attention机制,最后通过一个全连接层(fully connected weights),将LSTM2得到的video embedding变成一个和word embedding同维的向量,最后这个向量通过一个全连接层来执行分类任务层,判断这个视频对应的动作是什么。然后使用“双重损失”(交叉熵+成对排序)使改进后的联合嵌入空间同时具有视频和文本语义信息。
  HRNN:这里的HRNN指的是使用了两层LSTM。第一层用来提取局部特征(输入是每一帧的图片),第二层LSTM(LSTM2)的输入是LSTM1每s张图片的输出。,以图9为例,其中步长为3,每三张图片(h1-h3,h4-h6,...)会输出一个向量,这些向量就是LSTM2的输出。self-attention机制中的attention计算这里就不介绍了。
  Dual loss:这里的dual loss是指cross entropy加上pairwise ranking loss。这里不介绍交叉熵。它对应于上面提到的分类任务。如果你不明白pairwise ranking loss(PR loss),可以看看这篇文章(),会更容易理解下面的公式。这里的PR损失定义为以下公式:
  这里a_i和v_i分别表示HRNN和word2vec模型生成的action word i的embedding,a_x和v_x分别对应HRNN和word2vec生成的负样本(即非action word i的embedding)。请注意,图 9 中的绘图并不完整。交叉熵(CE)对应的分类任务就不在上面画了。Action Embedding首先通过全连接层进行分类任务,然后有CE损失。
  最后需要说明的一点是,由于两个数据库中的词并不完全相同,可能会出现video数据库中的词在word2vec词库中不存在的情况,这些动词会被转换成对应的形式(如 walking 变成 walk 等)。
  在实验部分,作者在ZSAL(Zero Shot Action Learning)任务中将其与其他ZSL模型进行了比较。可以看出,作者提出的模型在各个数据集上的效果都是最好的。
  表 3:ZSAL(Zero Shot Action Learning)模型效果对比。表格来源:[4]
  2.4 sound-word2vec [7]
  论文链接:
  前几篇介绍了视觉,上一篇我们开始涉及到听觉,也就是声音信号。虽然大多数声音中都有象声词,但很多象声词在文本中并不常见,而且与直接音相比,这些词对应的语义信息很难学习,因此本文作者利用声学特征将传统词融入其中嵌入空间。值得注意的是,这里又用到了辅助标签(聚类)。该模型的整体结构如图10所示。
  图 10:sound-word2vec。资料来源:[7]
  在图10中,这个模型的输入是基于FreeSound生成的输入对{s,T},s是声音,T是用户提供的声音对应的一系列标签(一组词),这些标签首先通过W_P(由预训练的word2vec模型中的权重初始化)成embeddings,然后对这些embeddings进行平均,得到隐藏层的值H。最后,H通过全连接层(W_O)完成一个分类任务,输出一个类别。
  
  与第一篇论文一样,此处分类任务的标签来自聚类。首先对s进行聚类得到类别标签,然后用这个标签来训练W_P和W_O。总体来说,这篇论文的思路和第一篇论文差不多,但是论文中关于声音如何表示的声音处理还是很有启发性的。同时,本文再次证明整体的finetune可以提升传统的word embedding。空间效果好。
  这种方法的效果如表4所示,在普通词上,效果和word2vec差不多,但是在象声词上,sound-word2vec明显表现的好很多。作者还对一些基于文本的拟声词识别任务进行了实验,效果也比普通的baseline模型好很多(详见原论文)。
  表 4:相似词的示例。表格来源:[7]
  3.探索新空间
  论文链接:
  去年,谷歌使用语言模型将蛋白质序列转换为嵌入,从而在许多相关任务上实现了飞跃。我曾经写过一篇文章介绍这个,这里就不赘述了。今天主要介绍一下这个方法是如何应用的。在音乐上,生成了一个新的基于音乐的嵌入空间,新嵌入空间的音乐理论知识表示——music + word2vec [6]。
  因为这篇论文收录
了更多的乐理专业知识,对应的机器学习方法也比较传统,是skip-gram模型加上乐谱的编码。然而,论文中详细分析了乐谱在乐谱嵌入空间中的乐理知识表示,表明skip-gram可以很好地从乐谱中学习乐理知识。
  关于乐谱的编码,如下图11所示,图中包括了肖邦玛祖卡Op.的前六小节。67 No. 4 (Chopin's Mazurka Op. 67 No. 4) 和前三小节的编码示例。这相当于把一个节拍当作文本中j的一个词,第一个块收录
E,它是表示四分音符中E5音高的音级。由于第二拍的音高是 E5 和 A3,因此第二个块收录
E 和 A。请注意,作者在第二小​​节中收录
了 E,即使音高 E5 连接到第一拍(不是开场),它仍然在第二拍上发音。同样,由于第三拍收录
音高 E3、A3、E4、E5(来自附点连奏)和 F5,因此第三块收录
音级 E、A、f。图中的例子。
  图 11:分数分类。资料来源:[6]
  如果声音片段长于一拍,我们可能会失去调和弦变化的细微差别。相反,如果切片短于一个节拍,则可能存在太多重复切片(切片之间的内容相同)。找到切片的最佳持续时间也很重要,但本文不涉及。我相信更好的编码方法将使这项研究更加有效。
  因为这篇文章的价值不在于使用什么机器学习方法,而在于skip-gram的使用,所以训练过程就不再赘述了。当然,除了证明skip-gram在音乐领域可以很好地获取和弦和谐波特征外,本文还提供了很多可以在音乐领域使用的数据集(第4节)。如果你有兴趣在这个领域做点什么,这些数据集还是很有用的。
  这篇论文的结果分析太专业了。如果想看音乐大咖对这个模型的评价,可以看原论文。总之,这款车型各方面表现都非常出色。懂音乐的同学可以看看原论文。书中中间是怎么分析的,或许对后续的任务也有很大的帮助。
  4.利用空间
  论文链接:
  最后,在讨论了如何改进传统词嵌入空间以及如何创建新的嵌入空间之后,如何使用这个空间也很重要。但由于本文不是word2vec的介绍,所以这里不再介绍word2vec在传统NLP任务中的应用。网上已经有很多实用性或理论性的科普文章。这里我们主要介绍词嵌入是如何在RL-Word2vec中应用于行为的[8]。
  这里的a代表听神经细胞。首先输入命令,然后使用这个命令的embedding来初始化隐藏层hi。这里的初始化是利用文本中5个命令词的embedding来进行预训练来初始化h_1-h_5。命令字为'forward', 'backward', 'stop', 'cease', 'suspend', 'halt',后四个字表达的意思相同,都不会用于初始化,作为测试组。初始化完成后,删除这些虚线连接,然后机器人进入仿真器开始仿真,向机器人输入指令的embedding,然后通过各个传感器获取的信息进行动作。这种初始化使网络能够获取语义信息。
  除了上述机制外,图12中的整个网络并不复杂。第一层称为传感器层,从机器人的传感器获取数据,然后这些神经元与后面的隐藏层全连接。这里的第二个隐藏层是一个带有自连接的循环神经网络,最后一个隐藏层与最后一个动作层(最右边)全连接。
  图 12:Word2vec 到行为训练网络。资料来源:[8]
  综上所述,整个训练过程如图13所示。通过向输入层的神经元a提供与“停止”等命令相关的word2vec嵌入,可以设置机器人控制策略的隐层初始值。然后将该策略下载到机器人,其运动生成的传感器数据被馈送到输入层的其余部分(虚线箭头),进一步改变隐藏层和运动层。
  评估后,机器人的行为根据与命令配对的目标函数进行评分,例如惩罚运动的函数。然后针对其他四个命令和目标函数对同一策略再进行四次评估(B 和 C 两次),训练策略以最大化所有五个函数的平均分数 (D)。训练后,最佳策略被赋予第六个未训练的同义词“停止”,其行为根据“停止”目标函数 (E) 进行评分。
  图 13:训练过程。资料来源:[8]
  最终结果如下图所示。每种颜色代表一个命令。可以看出,通过作者的方法训练的机器人(第一个)在“停止”命令上确实表现优于其他机器人。
  图 14:实验结果。资料来源:[8]
  总结
  从本文提到的分析性或创新性论文来看,skip-gram和CBOW可以很好地捕捉我们生活中很多对象(音乐、声音等)的语义,multi-modal是一个很好的完善在现有嵌入空间法,在没有标签的情况下,合理聚类也可以提供模型辅助标签。这个embedding space不仅适用于NLP领域,还有很多其他领域可以直接应用w2v中生成的embedding space(比如RL)。
  当然,未来还有很多其他可以探索的方向,比如开发一个比较初级的音乐领域,如何将声音中的情感融入到传统的w2v模式中等等。
  总之,语言作为我们观察和描述世界的基本要素,基本涵盖了我们生活的方方面面,在某些层面上也反映了客观世界的规律(如语言学的“组合原理”——组合性) . 在学习无法解决的问题时,语言模型或许能给你一点启发。
  参考
  [1] Kottur、Satwik 等人。“Visual word2vec (vis-w2v):使用抽象场景学习基于视觉的词嵌入。” IEEE 计算机视觉和模式识别会议论文集。2016.
  [2] 王,雪,等。“具有视觉监督的关系词的嵌入式表示。” 2019 第三届 IEEE 机器人计算国际会议 (IRC)。IEEE,2019 年。
  [3] 卢,策乌,等.“使用语言先验的视觉关系检测。” 欧洲计算机视觉会议。施普林格,查姆,2016 年。
  [4] Hahn、Meera、Andrew Silva 和 James M. Rehg。“Action2vec:一种用于动作学习的交叉模式嵌入方法。” arXiv 预印本 arXiv:1901.00484 (2019)。
  [5] A. Karpathy、G. Toderici、S. Shetty、T. Leung、R. Sukthankar 和 L. Fei-Fei。使用卷积神经网络进行大规模视频分类。在 CVPR,2014. 4
  [6] Chuan, C.-H., Agres, K., &amp; Herremans, D. (2018)。从上下文到概念:使用 word2vec 探索音乐中的语义关系。神经计算与应用。doi:10.1007/s00521-018 -3923-1
  [7] Vijayakumar、Ashwin K.、Ramakrishna Vedantam 和 Devi Parikh。“Sound-word2vec:学习以声音为基础的单词表征。” arXiv 预印本 arXiv:1703.01720 (2017)。
  [8] 马修斯、大卫等人。“从 Word2vec 到行为:形态有助于机器语言的基础。” arXiv 预印本 arXiv:1908.01211 (2019)。
  分析师介绍:
  这篇文章的作者是王自佳,目前正在帝国理工学院攻读人工智能硕士学位。主要研究方向为NLP推荐等,喜欢前沿技术,喜欢奇思妙想。他是一个不走寻常路,立志做研究员的男人! 查看全部

  解决方案:华为诺亚开源首个亿级中文多模态数据集,填补中文NLP社区空白
  华为诺亚方舟实验室的研究人员提出了一个大型中文跨模态数据库——“悟空”,并以此为基础,对不同的多模态预训练模型进行了benchmark,有助于中文视觉语言预训练算法的研发和开发.
  在大数据上预训练大型模型以微调下游任务已成为 AI 系统的新兴范例。BERT 和 GPT 等模型在 NLP 社区中越来越受欢迎,因为它们对广泛的下游任务甚至零样本学习任务具有很高的可迁移性,从而产生了 SOTA 性能。最近的工作,如 CLIP、ALIGN 和 FILIP,进一步将这种范式扩展到视觉语言联合预训练 (VLP) 领域,并在各种下游任务上显示出优于 SOTA 方法的结果。这个有前途的方向引起了业界和研究人员的极大关注,将其视为通往下一代人工智能模型的途径。
  VLP 模型的成功有两个原因。一方面,更高级的模型架构(如 ViT/BERT)和训练目标(如对比学习)通常会提高模型的泛化能力和学习表征的鲁棒性。另一方面,由于硬件和分布式训练框架的进步,越来越多的数据可以输入到大规模模型中,以提高模型的泛化性、可迁移性和零样本能力。在视觉或语言任务中,在大规模数据(如图像分类中的JFT-300M,T5中的C4数据集)上进行预训练,然后通过迁移学习或提示学习进行学习,已被证明非常有效地提高了下游任务的执行。有用。此外,
  因此,预训练 VLP 模型在大规模数据上的成功促使人们不断爬取和采集
更大的图形数据集。下面的表 1 显示了 VLP 领域中许多流行数据集的概览。Flickr30k、SBU Captions 和 CC12M 等公开可用的视觉语言(英语)数据集的样本量相对较小(约 1000 万),而较大的数据集如 LAION-400M。但是,直接使用英文数据集训练模型会导致中文翻译任务的性能大幅下降。例如,大量特定的中文成语和俚语无法被英文翻译覆盖,而机器翻译往往会在这些方面带来错误,进而影响任务执行。
  目前,社区缺乏大规模公开可用的中文数据集,这不仅阻碍了社区的发展,而且使用私人大型数据集也取得了其他作品无法公平比较的惊人性能。
  为了弥合这一差距,华为诺亚方舟实验室的研究人员发布了一个名为“悟空”的大型中文跨模态数据集,其中收录
来自互联网的 1 亿个图像文本对。为确保多样性和泛化性,Wukong 数据集是从 200,000 个高频中文词列表中采集
的。本文还采用基于图像和基于文本的过滤策略进一步细化悟空数据集,使其成为迄今为止最大的中文视觉语言跨模态数据集。研究人员分析了数据集并表明它涵盖了广泛的视觉和文本概念。
  研究人员进一步发布了一组使用不同架构(ResNet/ViT/SwinT)和不同方法(CLIP、FILIP 和 LiT)的大型预训练模型。本文的主要贡献如下:
  “悟空”数据集
  研究人员构建了一个名为 Wukong 的新数据集,其中收录
从网络采集
的 1 亿个图像文本对。为了涵盖足够多的视觉概念,Wukong 数据集是从收录
200,000 个术语的查询列表中采集
的。这个基础查询列表取自严松等人的论文《Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings》,然后根据华为海量新闻文本中中文词和短语出现的频率进行过滤语料库。
  查询列表建立后,研究人员在百度图片上搜索每个查询,获得图片网址列表和相应的标题信息。为了保持不同查询结果之间的平衡,他们每次查询最多搜索 1000 个样本。然后使用先前获得的图像 URL 下载图像,总共产生 1.66 亿个图像文本对。然后,像往常一样,研究人员通过以下一系列过滤策略构建最终的 Wukong 数据集。下面的图 2 显示了 Wukong 数据集中的一些样本。
  基于图像的过滤
  研究人员首先根据图像大小和纵横比过滤数据。仅保留长于或宽于 200 像素且纵横比为 3 或更小的图像。这种方法会过滤掉太小、太高或太宽的图像,因为这些图像在预训练期间经过上采样和方形裁剪等图像增强后可能会变得低分辨率。
  基于文本的过滤
  其次,为了使选取的样本具有对应图像的高质量中文描述,研究人员进一步根据图像所附文字的语言、长度和频率对数据进行过滤。具体来说,他们首先检查语言和长度,保留收录
至少一个但少于 32 个汉字的句子。无意义的图像描述如“000.jpg”也被丢弃。之后搭配太多图片的文字通常与图片内容无关,比如“查看源码页面”、“展开文字”、“摄影社区”。在实践中,研究人员将这个阈值设置为 10,即丢弃整个采集
到的语料中出现次数超过 10 次的图文对。
  为了保护文本中个人的隐私,研究人员将人名替换为特殊标签“&lt;人名&gt;”。此外,他们还构建了中文敏感词列表,收录
敏感词的图文对也被丢弃。
  在应用上述过滤策略后,研究人员最终得到了大约 1 亿对的数据集。下表 2 显示了数据集的统计数据:数据集文本中有 20,442 个独特的标记,每个描述中的平均标记数为 22。
  
  在下面的图 3 中,研究人员可视化了数据集中单词(由一个或多个标记组成)的分布。然后,他们使用中文文本分词工具 Jieba 截取单词并构建数据集的词云。
  方法框架
  文本图像联合对齐
  与最近经过充分验证的方法类似,研究人员采用对比预训练架构,如下图 1 所示。他们使用带有基于 Transformer 的文本和图像编码器的双流模型。这两个编码器将文本和视觉输入标记转换为相同维度的嵌入。在这个学习的联合嵌入空间中,我们使用对比损失来鼓励图像和文本对具有相似的嵌入,而未配对的对具有不同的嵌入。
  模型架构
  由于视觉和文本模态的编码器是解耦的,因此可以为这两种模态探索不同的编码器架构。研究人员试验了三种视觉编码器变体(即 ResNet、Vision Transformer 和 Swin Transformer)和一种类似 BERT 的文本编码器来训练中文 VLP 模型。
  预训练目标
  跨模态对比学习是一种特别有效的方法,用于从成对的图像文本数据训练模型,它可以通过区分成对和未成对的样本同时学习两种模态的表示。研究人员遵循 FILIP (Yao et al., 2022) 中的公式符号,使用
  定义图像样本集,同时
  表示文本数据。给定图像样本
  和一个文本样本
  ,该模型旨在使成对的图像和文本表示在联合多模态空间中靠近在一起,而不成对的表示相距很远。
  
  在这项工作中,研究人员探索了两种方法来衡量图像和文本之间的相似性。图像和文本的学习表示被标记为
  和
  . 这里,n_1 和 n_2 是每个图像和文本中(未填充的)词标记的数量。
  LiT调校
  研究人员受到最近提出的微调范例 LiT-tuning(锁定图像文本调优)的启发,该范例表明具有固定权重的图像编码器和可学习的文本编码器在 VLP 模型中效果最好。他们在对比学习设置中做了同样的事情,只更新了文本编码器的权重而不是图像编码器。
  具体来说,研究人员采用的 LiT-tuning 方法旨在教会中文文本编码器从现有的图像编码器中读取合适的表示,该图像编码器已在英文数据集上进行了预训练。他们还为每个编码器添加了一个可选的可学习线性变换层,它将两种模态的表示映射到相同的维度。LiT-tuning 效果很好,因为它解耦了用于学习图像特征和视觉语言对齐的数据源和技术(Zhai 等人,2021b)。此外,图像描述符使用相对干净或(半)手动标记的图像预先进行了很好的预训练。
  我们将这个想法扩展到多语言数据源,并尝试将在英语数据源上预训练的固定图像编码器与可训练的中文文本编码器对齐。此外,LiT-tuning 方法显着加快了训练过程并减少了内存需求,因为它不需要为视觉编码器计算梯度。
  实验结果
  下面的表 3 描述了视频编码器的模型参数和详细信息。
  零镜头图像分类。研究人员在 17 个零镜头图像分类任务上评估了预训练模型。零样本图像分类结果如下表5所示。他们比较了使用不同视觉编码器的多个 LiT-tuning 模型,即从 CLIP 或 Swin Transformer 加载现有的视觉编码器并在训练阶段固定它们的权重。结果发现,使用令牌级别的相似性比使用全局相似性带来更显着的改进。
  文本检索任务。研究人员评估了两个子任务,即按图像搜索文本和按文本搜索图像。下面的表 6 和表 7 分别显示了零镜头设置和微调图像文本检索的结果。对于零样本设置,与其他模型相比,Wukong_ViT 在 4 个数据集中的 3 个上取得了最好的结果,而 Wukong_ViT-500M 在更大的 MUGE 数据集上取得了最好的结果。对于微调设置,Wukong_ViT-500M 在除 AIC-ICC 之外的所有数据集上都取得了最好的结果,其中 Wukong_ViT 效果最好。
  词汇 - 瓷砖对齐的可视化。研究人员使用预训练模型 Wukong_ViT 和 Wukong_Swin 进行可视化。如图 4 所示,该图可视化了来自 ImageNet 的中文六个标签(即豆娘、救生艇、蜂鸟、平板电话、教堂和电扇)的图像。然后应用与 FILIP (Yao et al., 2022) 相同的可视化方法来对齐文本和图块标记。
  从下面的图 4 中,研究人员发现这两个模型都能够预测目标对象的图像块。对于具有更多图像块的 Wukong_ViT,这种词汇块对齐比 Wukong_Swin 更细粒度。
  核心方法:词嵌入的经典方法,六篇论文遍历Word2vec的另类应用
  在这篇文章中,作者首先为读者​​普及了word2vec的基础知识,然后以六篇论文为例详细介绍了当前研究如何利用经典的word2vec进行扩展研究。其中,作者着重介绍了知识嵌入空间的生成过程。对其完整应用感兴趣的读者可以参考原论文。
  随着深度学习的兴起,每个模型都需要一个输入,而我们现实生活中的物体(文字、图片等)都不是数字,计算机无法处理。那么如何为每个任务确定一个合适的“输入”就变得尤为重要。这个过程也称为表征学习。
  word2vec 所做的是将文本转化为对计算机有意义的输入。简单的说,就是把这些东西映射到一个空间里。我们通常用三维空间来表示位置,也就是xyz,但是在图片、文字等这个领域,三维空间不够用,有可能去另一个N维空间. 在这个空间里,就像三维空间里人的鼻子应该靠近嘴巴一样,我们也希望在这个新的空间里也能找到类似的东西。比如课文中的“鼻子”和“嘴巴”我们也希望它们能离得近一些,因为它们属于五感,所以“鼻子”和“腿”是比较远的。
  顾名思义,word2vec 将文本转换为计算机可识别的输入,因此这项技术最早也是应用最广泛的应用是在自然语言处理(NLP)领域。其实我之前针对representation learning做过两次基于ICLR和CVPR的high-level总结,不过这次这篇文章主要针对word2vec,从细节入手,看看word2vec中发现的空间是如何改进和使用的,还要看看根据word2vec原理发现的新空间。在开始正题之前,为了防止大家对word2vec理解不清从而影响后面文字的理解,这里先科普一下本文将要用到的相关基本概念。
  一、word2vec简介
  What is word2vec: Word2Vec是一个过程(技术),其中文本被用作神经网络的训练数据,这个神经网络的输出向量被称为embeddings,这些embeddings(向量)将收录
训练后单词的语义信息。这个过程所做的是从每个单词嵌入到多个维度的空间到维度低得多的连续向量空间。矢量嵌入可以在真实对象的“离散”世界和机器学习的“可微”世界之间架起一座桥梁,因而在数据库研究中具有巨大的潜力。一类对象的嵌入向量从X映射到某个向量空间,称为潜在空间,我们通常假设它是有限维d的实向量空间R^d。
  它们用在什么地方:最后word2vec会生成如图1所示的一堆向量(word embedding,word embedding),这些向量可以在后续任务中作为神经网络模型的输入。
  图 1:示例词嵌入。图片来源:
  为什么使用 word2vec:如前所述,这些嵌入捕获了文本的语义,具有相似含义的单词靠得更近(图 2 显示了最常见的相似性度量之一——余弦相似度 Spend)。并且经过长期的实践,研究人员发现这种语义编码使得各种NLP任务都有很好的表现。
  图 2:距离作为距离度量的示例 - 余弦相似度。图片来源:
  基本模型:训练word2vec常用的方法有CBOW和skip-gram。如图3所示,w(t)代表当前词,w(t-?)代表前一个词,w(t+?)代表后一个词。简单来说,CBOW就是利用周围的词来预测当前词。而 skip-gram 模型使用当前词来尝试预测周围大小为 c 的窗口中的词。具体的计算细节可以参考图3来源的文章,这里就不详细介绍了。
  图 3:skip-gram 和 CBOW。图片来源:
  如何衡量:在使用embeddings时,我们应该考虑几个问题——对象的哪些属性由embeddings表示?我们使用的距离测量有什么意义?潜在空间的几何属性是否对应于 X 上有意义的关系?当然,同时我们还要考虑计算向量嵌入的计算成本。
  2.改善旧空间
  了解了word2vec的基础知识之后,就可以正式进入正题了。正如上一节所述,当我们构建嵌入空间时,我们需要考虑对象的那些属性需要在嵌入空间中表示。word2vec在传统的NLP任务中表现不错,但是在一些新的更复杂的任务中,有些属性不能很好的体现出来,因为最初的word2vec模型是完全基于文本训练的,很多关系很难在文本中体现出来,比如“看”和“吃”。单看这两个词,我们甚至很难认为它们有关联。
  但是如果加上图4,他们会连起来吗?对这幅图的描述可以有两种,一种是小女孩在“看”冰淇淋,另一种是增加了一定的联想——小女孩在“看”冰淇淋。“吃冰激凌。在对这张图片的描述中,两句话都是正确的。这个例子不仅说明了使用纯文本进行学习的缺点,还表明在图片描述等任务中,这个信息也很重要。
  图 4:吃冰淇淋的小女孩。资料来源:[1]
  不难理解,人类在感知世界时,不仅仅用视觉,还用听觉、嗅觉等,同样,在看的时候,看到的也不仅仅是文字,语言是知识的载体transfer,所以现在研究者开始使用不同的感知模式(声音,图片)来学习语言模型(multi-modal learning),让语言模型学习到的embedding能够更全面的代表我们人类的理解能力。
  至于技术层面,其实回到语言模型起源的阶段,语言模型和迁移学习就像一对兄弟,只是进入了不同的领域,叫法不同。例如在NLP任务中,先训练语言模型,然后直接使用预训练好的语言模型来执行下面的任务。好像前面几层的migration learning都冻结了(这个如果不理解也可以,不影响后面的理解,如果觉得放不下可以看看之前的文章机器之心,基础教程很多,这里就不介绍了)。
  之所以说transfer learning,是因为如果要达到完善word2vec空间的效果,其实类似于transfer learning中的global finetune,把前面的语言模型(一开始冻结的层)进培训。
  为了展示当前的研究如何具体使用word2vec进行扩展应用,本节简要介绍四篇论文,展示图片和声音如何增强现有word2vec嵌入空间的表示能力。当然,这里介绍的知识嵌入空间的生成过程在原论文中还有其他创新之处。如果您有兴趣,可以再次阅读全文。
  2.1 视觉 Word2Vec (vis-w2v) [1]
  论文链接:
  这种方法解决了图4中提到的例子中的问题。这里作者需要在原来word embedding的基础上增加图像的语义表示,即在w2v训练中加入图像作为背景。该方法基于 CBOW 并使用代理标签作为图像背景的表示。
  图 5:vis-w2v 中的网络结构。资料来源:[1]
  具体模型如图5所示,模型的输入是图文对D = {(v, w)},v指的是图片的特征,w是v对应的文字描述。这里,w(句子或单词)的形式会因场景而异(更多内容见下文)。
  图5所示的是一个窗口(这个窗口可能收录
w的一些单词,也可能收录
完整的w,也会根据不同的场景发生变化,下面会详细介绍),其中w_1到w_l代表一个窗口收录
的词是用one-hot方法编码的(N_V表示one-hot编码的维度),H_wi是W_I乘以wi得到的,这里W_I是共享的,即所有的w_i都乘以同一个W_I,因为它是one-hot encoding,其实相当于取W_I的某一行,对每条H_wi取平均值得到最终的H:
  得到H(N_H为embedding的维度)后,将这个H作为最终的特征向量,通过W_O映射到N_K维度(一共有N_K类,这里的N_K后面会讲到)。对其进行softmax操作后,就可以知道这段文字(w_1-w_l)属于哪个类别。这一步是做分类。
  如果理解NLP任务,第一步获取H和我们平时获取embedding的方式是一样的,因为这里的W_I初始化为传统CBOW的权重,所以这一步其实就是获取这些词的传统embedding,然后取其平均值作为整个窗口所有词的特征,然后做一个分类任务。
  现在是本文的核心——上一段说这是一个分类任务,那么分类任务的标签从何而来呢?这就是辅助标签的作用——作者在做分类任务时将图片v聚类成N_K个类,然后每个v所属的类就是这个v对应的w的标签。
  然后回到 w,其中 w 允许选择 w 的各种形式,例如完整的句子或形式的元组(主要对象,关系,次要对象)。w 的选择取决于我们关心的任务。例如,在常识断言分类和基于文本的图像检索中,w 是元组中的一个短语,而在视觉释义中,w 是一个句子。给定 w,S_w 也是可调整的。它可以包括所有 w(例如,当从元组中的短语学习时)或单词的子集(例如,当从句子中的 n-gram 上下文窗口学习时)。
  最后说说效果吧。这个任务其实就是在w2v的基础上进行finetune。这种直接进行global finetune的效果,按照论文的说法,也可以保持原有的w2v效果,即如果有些词在finetune过程中没有出现,会保持原有的语义属性,而这个global finetune会不要让新的 w2v 在传统任务中变得更糟。
  在下表1所示的视觉转录任务对比中,vis-w2v的效果要比纯w2v任务好很多。
  表 1:中继任务的平均准确度 (AP)。表格来源:[1]
  2.2 视觉监督Word2Vec(VS-Word2Vec)[2]
  
  论文链接::uhM9BVykvRQyYoWE5KCq3BfjUSjLRED2yV7nktCUgw3jDcAh_R2xx8iV7Az3pBWTZPBQ87cQzEgd
  本文还想把图片中的信息迁移到w2v中,让w2v空间更好的表示图片中的信息。上一篇论文是在w2v中加入广义的图片信息(词的相似度由图片的相似度引导),这篇论文的全称是Embedded Representation of Relation Words with Visual Supervision。顾名思义,就是让embedding space能够更好的表示相关词(“我背着包”中的“holding”就是相关词)。
  下图6展示了一些关系词的例子,[3]给出了一个与此类似的数据集,是本文的输入形式之一。
  图 6:关系词。资料来源:[3]
  VS-Word2Vec的基本结构如图7所示,这个结构分为上下两部分。上面是一个CNN,类似于图6中的图片作为输入,输出是一个特征向量,作为图片对应的关系词的embedding(视觉关系特征空间);下面是传统的CBOW,也会生成word embeddings。
  这篇论文和第一篇论文除了要表现的信息不同外,使用的方法也不同。基本思路是:如果这个词是关系词,那么让上面(CNN)生成的word embedding和下面生成的embedding尽量一样,但是如果这个词不是relative word,那么就忽略上面的,和传统的CBOW训练完全一样。
  图 7:VS-Word2Vec 网络结构。资料来源:[2]
  具体来说,整体算法如图8所示,第一行和第二行对应图7上半部分的CNN。首先,计算图表示(视觉关系特征,算法的第四行):
  这里y_wi是某个关系词wi的表示。具体来说,就是利用VGG得到这个关系词对应的所有图片(Q_i张图片)的特征向量(y_wi^q),然后对这些特征向量进行平均。如前所述,如果训练出来的词属于关系词,那么作者希望CBOW和CNN生成的两个embeddings尽可能一致。本文的不一致性通过以下公式衡量:
  这里s_ij表示关系词i和关系词j的余弦相似度,右下角的r表示这是一个关系词,x表示CBOW中生成的word embedding,v表示CNN中生成的word embedding。这个公式中J越小越好。
  图 8:VS-Word2Vec 算法流程。资料来源:[2]
  最后就是图8中的第4到19行,是上面整体思路的体现,即计算如下公式,同时更新参数(梯度上升):
  首先D是CBOW的训练集,然后对于训练集中的每个词,计算两个损失e1和e2,e1是前半部分,也就是传统CBOW的损失,e2是后半部分,也就是衡量两个嵌入的性能。不一致(J_V),\lambda是可调超参数,p_t表示w_t是否是关系词,如果是关系词,则p_t=1,保留后半部分,如果不是关系词,就变成传统的CBOW训练过程。
  注意第15行,这里使用了for循环,所以本文的目标不是让上下两部分对于一个关系词有完全相同的embedding,而是要求关系词保证“一致性”图7上下两部分的相似度,所以直接用J_V代替余弦相似度。
  作者使用该方法后,对比了SimVerb-3500中九大类的同义词(SYNONYMS, ANTONYMS, HYPER/HYPONYMS, COHYPONYM, NONE),对比结果如表2所示,总体来说比CBOW好,并且在一些特殊的班级,效果有了很大的提升。
  表 2:同义词一致性结果。表格来源:[2]
  2.3 Action2Vec [4]
  论文链接:
  又一篇探索视觉信息的文章,不过这里探索的对象变成了视频(因为它编码了动作),如图9,思路和上面类似,但是变成了左右结构,而这个第二篇是真正的两词比较(pairwise ranking loss),而不是用一致性来判断。
  图 9:Action2Vec 端到端架构。资料来源:[4]
  具体来说,左侧首先使用[5]中的数据集预训练的C3D模型提取每帧图片的特征向量,然后使用一个层次递归神经网络(HRNN),并加入一个self-attention机制,最后通过一个全连接层(fully connected weights),将LSTM2得到的video embedding变成一个和word embedding同维的向量,最后这个向量通过一个全连接层来执行分类任务层,判断这个视频对应的动作是什么。然后使用“双重损失”(交叉熵+成对排序)使改进后的联合嵌入空间同时具有视频和文本语义信息。
  HRNN:这里的HRNN指的是使用了两层LSTM。第一层用来提取局部特征(输入是每一帧的图片),第二层LSTM(LSTM2)的输入是LSTM1每s张图片的输出。,以图9为例,其中步长为3,每三张图片(h1-h3,h4-h6,...)会输出一个向量,这些向量就是LSTM2的输出。self-attention机制中的attention计算这里就不介绍了。
  Dual loss:这里的dual loss是指cross entropy加上pairwise ranking loss。这里不介绍交叉熵。它对应于上面提到的分类任务。如果你不明白pairwise ranking loss(PR loss),可以看看这篇文章(),会更容易理解下面的公式。这里的PR损失定义为以下公式:
  这里a_i和v_i分别表示HRNN和word2vec模型生成的action word i的embedding,a_x和v_x分别对应HRNN和word2vec生成的负样本(即非action word i的embedding)。请注意,图 9 中的绘图并不完整。交叉熵(CE)对应的分类任务就不在上面画了。Action Embedding首先通过全连接层进行分类任务,然后有CE损失。
  最后需要说明的一点是,由于两个数据库中的词并不完全相同,可能会出现video数据库中的词在word2vec词库中不存在的情况,这些动词会被转换成对应的形式(如 walking 变成 walk 等)。
  在实验部分,作者在ZSAL(Zero Shot Action Learning)任务中将其与其他ZSL模型进行了比较。可以看出,作者提出的模型在各个数据集上的效果都是最好的。
  表 3:ZSAL(Zero Shot Action Learning)模型效果对比。表格来源:[4]
  2.4 sound-word2vec [7]
  论文链接:
  前几篇介绍了视觉,上一篇我们开始涉及到听觉,也就是声音信号。虽然大多数声音中都有象声词,但很多象声词在文本中并不常见,而且与直接音相比,这些词对应的语义信息很难学习,因此本文作者利用声学特征将传统词融入其中嵌入空间。值得注意的是,这里又用到了辅助标签(聚类)。该模型的整体结构如图10所示。
  图 10:sound-word2vec。资料来源:[7]
  在图10中,这个模型的输入是基于FreeSound生成的输入对{s,T},s是声音,T是用户提供的声音对应的一系列标签(一组词),这些标签首先通过W_P(由预训练的word2vec模型中的权重初始化)成embeddings,然后对这些embeddings进行平均,得到隐藏层的值H。最后,H通过全连接层(W_O)完成一个分类任务,输出一个类别。
  
  与第一篇论文一样,此处分类任务的标签来自聚类。首先对s进行聚类得到类别标签,然后用这个标签来训练W_P和W_O。总体来说,这篇论文的思路和第一篇论文差不多,但是论文中关于声音如何表示的声音处理还是很有启发性的。同时,本文再次证明整体的finetune可以提升传统的word embedding。空间效果好。
  这种方法的效果如表4所示,在普通词上,效果和word2vec差不多,但是在象声词上,sound-word2vec明显表现的好很多。作者还对一些基于文本的拟声词识别任务进行了实验,效果也比普通的baseline模型好很多(详见原论文)。
  表 4:相似词的示例。表格来源:[7]
  3.探索新空间
  论文链接:
  去年,谷歌使用语言模型将蛋白质序列转换为嵌入,从而在许多相关任务上实现了飞跃。我曾经写过一篇文章介绍这个,这里就不赘述了。今天主要介绍一下这个方法是如何应用的。在音乐上,生成了一个新的基于音乐的嵌入空间,新嵌入空间的音乐理论知识表示——music + word2vec [6]。
  因为这篇论文收录
了更多的乐理专业知识,对应的机器学习方法也比较传统,是skip-gram模型加上乐谱的编码。然而,论文中详细分析了乐谱在乐谱嵌入空间中的乐理知识表示,表明skip-gram可以很好地从乐谱中学习乐理知识。
  关于乐谱的编码,如下图11所示,图中包括了肖邦玛祖卡Op.的前六小节。67 No. 4 (Chopin's Mazurka Op. 67 No. 4) 和前三小节的编码示例。这相当于把一个节拍当作文本中j的一个词,第一个块收录
E,它是表示四分音符中E5音高的音级。由于第二拍的音高是 E5 和 A3,因此第二个块收录
E 和 A。请注意,作者在第二小​​节中收录
了 E,即使音高 E5 连接到第一拍(不是开场),它仍然在第二拍上发音。同样,由于第三拍收录
音高 E3、A3、E4、E5(来自附点连奏)和 F5,因此第三块收录
音级 E、A、f。图中的例子。
  图 11:分数分类。资料来源:[6]
  如果声音片段长于一拍,我们可能会失去调和弦变化的细微差别。相反,如果切片短于一个节拍,则可能存在太多重复切片(切片之间的内容相同)。找到切片的最佳持续时间也很重要,但本文不涉及。我相信更好的编码方法将使这项研究更加有效。
  因为这篇文章的价值不在于使用什么机器学习方法,而在于skip-gram的使用,所以训练过程就不再赘述了。当然,除了证明skip-gram在音乐领域可以很好地获取和弦和谐波特征外,本文还提供了很多可以在音乐领域使用的数据集(第4节)。如果你有兴趣在这个领域做点什么,这些数据集还是很有用的。
  这篇论文的结果分析太专业了。如果想看音乐大咖对这个模型的评价,可以看原论文。总之,这款车型各方面表现都非常出色。懂音乐的同学可以看看原论文。书中中间是怎么分析的,或许对后续的任务也有很大的帮助。
  4.利用空间
  论文链接:
  最后,在讨论了如何改进传统词嵌入空间以及如何创建新的嵌入空间之后,如何使用这个空间也很重要。但由于本文不是word2vec的介绍,所以这里不再介绍word2vec在传统NLP任务中的应用。网上已经有很多实用性或理论性的科普文章。这里我们主要介绍词嵌入是如何在RL-Word2vec中应用于行为的[8]。
  这里的a代表听神经细胞。首先输入命令,然后使用这个命令的embedding来初始化隐藏层hi。这里的初始化是利用文本中5个命令词的embedding来进行预训练来初始化h_1-h_5。命令字为'forward', 'backward', 'stop', 'cease', 'suspend', 'halt',后四个字表达的意思相同,都不会用于初始化,作为测试组。初始化完成后,删除这些虚线连接,然后机器人进入仿真器开始仿真,向机器人输入指令的embedding,然后通过各个传感器获取的信息进行动作。这种初始化使网络能够获取语义信息。
  除了上述机制外,图12中的整个网络并不复杂。第一层称为传感器层,从机器人的传感器获取数据,然后这些神经元与后面的隐藏层全连接。这里的第二个隐藏层是一个带有自连接的循环神经网络,最后一个隐藏层与最后一个动作层(最右边)全连接。
  图 12:Word2vec 到行为训练网络。资料来源:[8]
  综上所述,整个训练过程如图13所示。通过向输入层的神经元a提供与“停止”等命令相关的word2vec嵌入,可以设置机器人控制策略的隐层初始值。然后将该策略下载到机器人,其运动生成的传感器数据被馈送到输入层的其余部分(虚线箭头),进一步改变隐藏层和运动层。
  评估后,机器人的行为根据与命令配对的目标函数进行评分,例如惩罚运动的函数。然后针对其他四个命令和目标函数对同一策略再进行四次评估(B 和 C 两次),训练策略以最大化所有五个函数的平均分数 (D)。训练后,最佳策略被赋予第六个未训练的同义词“停止”,其行为根据“停止”目标函数 (E) 进行评分。
  图 13:训练过程。资料来源:[8]
  最终结果如下图所示。每种颜色代表一个命令。可以看出,通过作者的方法训练的机器人(第一个)在“停止”命令上确实表现优于其他机器人。
  图 14:实验结果。资料来源:[8]
  总结
  从本文提到的分析性或创新性论文来看,skip-gram和CBOW可以很好地捕捉我们生活中很多对象(音乐、声音等)的语义,multi-modal是一个很好的完善在现有嵌入空间法,在没有标签的情况下,合理聚类也可以提供模型辅助标签。这个embedding space不仅适用于NLP领域,还有很多其他领域可以直接应用w2v中生成的embedding space(比如RL)。
  当然,未来还有很多其他可以探索的方向,比如开发一个比较初级的音乐领域,如何将声音中的情感融入到传统的w2v模式中等等。
  总之,语言作为我们观察和描述世界的基本要素,基本涵盖了我们生活的方方面面,在某些层面上也反映了客观世界的规律(如语言学的“组合原理”——组合性) . 在学习无法解决的问题时,语言模型或许能给你一点启发。
  参考
  [1] Kottur、Satwik 等人。“Visual word2vec (vis-w2v):使用抽象场景学习基于视觉的词嵌入。” IEEE 计算机视觉和模式识别会议论文集。2016.
  [2] 王,雪,等。“具有视觉监督的关系词的嵌入式表示。” 2019 第三届 IEEE 机器人计算国际会议 (IRC)。IEEE,2019 年。
  [3] 卢,策乌,等.“使用语言先验的视觉关系检测。” 欧洲计算机视觉会议。施普林格,查姆,2016 年。
  [4] Hahn、Meera、Andrew Silva 和 James M. Rehg。“Action2vec:一种用于动作学习的交叉模式嵌入方法。” arXiv 预印本 arXiv:1901.00484 (2019)。
  [5] A. Karpathy、G. Toderici、S. Shetty、T. Leung、R. Sukthankar 和 L. Fei-Fei。使用卷积神经网络进行大规模视频分类。在 CVPR,2014. 4
  [6] Chuan, C.-H., Agres, K., &amp; Herremans, D. (2018)。从上下文到概念:使用 word2vec 探索音乐中的语义关系。神经计算与应用。doi:10.1007/s00521-018 -3923-1
  [7] Vijayakumar、Ashwin K.、Ramakrishna Vedantam 和 Devi Parikh。“Sound-word2vec:学习以声音为基础的单词表征。” arXiv 预印本 arXiv:1703.01720 (2017)。
  [8] 马修斯、大卫等人。“从 Word2vec 到行为:形态有助于机器语言的基础。” arXiv 预印本 arXiv:1908.01211 (2019)。
  分析师介绍:
  这篇文章的作者是王自佳,目前正在帝国理工学院攻读人工智能硕士学位。主要研究方向为NLP推荐等,喜欢前沿技术,喜欢奇思妙想。他是一个不走寻常路,立志做研究员的男人!

干货教程:花哥:关于微信的搜一搜如何变现引流

采集交流优采云 发表了文章 • 0 个评论 • 116 次浏览 • 2022-11-25 00:20 • 来自相关话题

  干货教程:花哥:关于微信的搜一搜如何变现引流
  你可能不知道,不需要做短视频,不需要写文章,就可以精准引流,变现的方式有很多。
  我社区的一个小伙伴用过搜索的功能,现在已经实现了几十个w。华哥可以很肯定的告诉大家,一个精准搜索的流量至少要大于五十个一般流量。
  
  所以我希望每个人都可以探索地球上的搜索。这是很多人忽略的一种引流方式。那么如何找到项目并判断是否适合搜索引流呢?很简单,想想你所在行业的关键词,把这些关键词输入搜索,就可以看到同行的数据。
  比如女装,我们可以看到女装的关键词,下面很多同事都在引用。
  那么说明这个关键词是可操作的。但是这个学期的竞争太大了,不能浪费精力。可以通过小程序和微信指数查看每个词的近期热度。心里有了主意,就知道这个词是不是竞争激烈了。可以选择竞争少的长尾关键词,搜索细分词,下拉词等。比如我们以这个关键词为例,女装货源一键配送链。如果你用这个关键词点进去看之前的文章,如果阅读量还不错,说明这个词是有流量的。那么除此之外,我们还需要查看这个账号的注册日期。一般只要在三个月内注册账号,
  
  那么如果找到适合Search的项目,前期应该如何规划呢?首先,我们准备多注册几个公众号进行搜索。熟悉的朋友都知道,新注册的账号发布的文章是不能被搜索收录的,就像我们的个人账号一样。新注册的账号不能立即加为好友。如果你一开始就加了好友,那么官方可能会直接给你一个title。如果没有账号接受流量,流量来了也无计可施。所以这个时候我们就需要维护一个账号,这个也很简单,就是模拟真实的操作。比如先发文章,设置功能模块等,等你养的差不多了,就可以准备用文章引流了。可以观察同行文章整理关键词,这里可以使用批量采集软件下载整理。然后我们把所有的关键词加上营销词组合成一篇文章的标题。营销词就是多少钱,批发价,出厂价等等,一定要多梳理标题中收录
的关键词,引流越多效果越好。搞定之后,我们只需要批量发布文章即可,操作难度不高。请记住将您的个人联系信息放在文本中。标题中收录
的关键词一定要多梳理一下,引流越多效果越好。搞定之后,我们只需要批量发布文章即可,操作难度不高。请记住将您的个人联系信息放在文本中。标题中收录
的关键词一定要多梳理一下,引流越多效果越好。搞定之后,我们只需要批量发布文章即可,操作难度不高。请记住将您的个人联系信息放在文本中。
  总结起来有几点:
  这里有几个适合搜索没有想法的朋友的地方:
  华哥只是给大家讲了上面的内容,用文章去套用。当然,大家都知道,除此之外,搜索里面还有视频号和小程序,这里就不多说了。最后华哥为大家整理了一套详细的搜一搜吧屏引流技巧,里面的讲解非常全面。当然,还有批量采集
公众号文章的软件。我把它们都打包了。有兴趣的可以在我的公众号华歌课堂回复“搜索”付费获取。好了,今天就到这里吧,下次再见。
  分享文章:浅谈:站长如何增加伪原创文章
  
  学习SEO到现在,虽然没有什么大事发生,但是还是有一些零散的东西,比如哪个朋友的主页少了,想看看,哪个朋友的博客上线了,想测试看看,哪位朋友的内容不够好,让我关注等等。这些很快就过去了,还有一些让我很郁闷的,都是菜鸟问的菜鸟问题。真的很难回答,但是我还是要耐心的跟他们解释,作为一个新手,大家都是新手过来的,如果大家不帮助他们,那中国的互联网就发展不起来。但是我还是要再次建议大家,有问题之前一定要先搜索,找不到答案再问,这样提高会更快。因为网站内容为王,有内容才能谈其他,但不是每个站长都能天天发原创文章,这就导致了一种做法-伪原创,就是修改别人的原创articles ,并成为一篇新文章,之所以称为伪原创,是因为它是在原创的基础上发展起来的,大部分内容相关或观点相同,只是表达方式不同. 那么如何造假原创文章,里面确实有很多的想法。1.修改标题 好的标题是成功的。职称可以体现一个编辑的水平和素质。如果是有seo思维的编辑,就会知道它的重要性。将seo思维融入到文案的写作中能够起到事半功倍的作用,那么标题往往起到最大的作用,甚至直接影响到用户是否点击。如何提炼一个好的标题,我们之前已经讲过“seo软文,标题怎么写”,那么我们在伪原创的时候,就需要修改已有的标题,修改成符合自己的标题期望。原则是要符合搜索引擎的爬行习惯和用户的搜索习惯。内容很实用。最简单的例子,你不能用火星语写标题,不实用,搜索引擎也不一定能识别,而且用户永远不会去搜索这样的词。甚至直接影响到用户是否点击。如何提炼一个好的标题,我们之前已经讲过“seo软文,标题怎么写”,那么我们在伪原创的时候,就需要修改已有的标题,修改成符合自己的标题期望。原则是要符合搜索引擎的爬行习惯和用户的搜索习惯。内容很实用。最简单的例子,你不能用火星语写标题,不实用,搜索引擎也不一定能识别,而且用户永远不会去搜索这样的词。甚至直接影响到用户是否点击。如何提炼一个好的标题,我们之前已经讲过“seo软文,标题怎么写”,那么我们在伪原创的时候,就需要修改已有的标题,修改成符合自己的标题期望。原则是要符合搜索引擎的爬行习惯和用户的搜索习惯。内容很实用。最简单的例子,你不能用火星语写标题,不实用,搜索引擎也不一定能识别,而且用户永远不会去搜索这样的词。我们需要修改已有的title,修改成符合自己预期的title。原则是要符合搜索引擎的爬行习惯和用户的搜索习惯。内容很实用。最简单的例子,你不能用火星语写标题,不实用,搜索引擎也不一定能识别,而且用户永远不会去搜索这样的词。我们需要修改已有的title,修改成符合自己预期的title。原则是要符合搜索引擎的爬行习惯和用户的搜索习惯。内容很实用。最简单的例子,你不能用火星语写标题,不实用,搜索引擎也不一定能识别,而且用户永远不会去搜索这样的词。
  
  修改标题时,可以根据原标题进行二次创作,提出更符合文章主题、更符合逻辑的标题。2、内容段落错序排列 伪原创的好处是不用自己写,直接用别人的文章。修改的时候,把别人文章的段落颠倒一下就行了,每段的正文结构也会颠倒几个句子。,它就变成了“新文章”。3、关键词的替换和位置的替换对应第一种观点。我们伪原创的时候一定要修改关键词。毕竟别人的文章都是根据别人网站的主题提炼出来的。虽然有时两个网站的主题相同,关键词 需要修改和替换。匹配度高、精准度高的关键词,往往能抓住更精准的用户。不仅需要修改替换关键词,还需要替换位置,让文章更符合你的想法,更符合你的网站。4、新内容新观点的加入我们还可以在原有文章中加入新的内容和观点,让一篇文章更完整,观点更清晰,主题更完整,伪原创,增加更多内容是不是坏事,可以大大提高文章的可读性。对于已经发表的文章,搜索引擎抓取后会有记录,但是如果我们把假原创做好,搜索引擎可能会给出更高的评价。伪原创内容是站不住脚的观点。毕竟,修改过的文章也算是一篇新文章。只有“修改”的程度才能使“错误”的观点合理化。建议大家多写文章,多写原创,多修改伪原创。这样,你不仅可以提高自己的写作水平,还可以在写作中不断提升自己。婴儿爬行垫| 淘宝女装 并修改更多的伪原创。这样,你不仅可以提高自己的写作水平,还可以在写作中不断提升自己。婴儿爬行垫| 淘宝女装 并修改更多的伪原创。这样,你不仅可以提高自己的写作水平,还可以在写作中不断提升自己。婴儿爬行垫| 淘宝女装 查看全部

  干货教程:花哥:关于微信的搜一搜如何变现引流
  你可能不知道,不需要做短视频,不需要写文章,就可以精准引流,变现的方式有很多。
  我社区的一个小伙伴用过搜索的功能,现在已经实现了几十个w。华哥可以很肯定的告诉大家,一个精准搜索的流量至少要大于五十个一般流量。
  
  所以我希望每个人都可以探索地球上的搜索。这是很多人忽略的一种引流方式。那么如何找到项目并判断是否适合搜索引流呢?很简单,想想你所在行业的关键词,把这些关键词输入搜索,就可以看到同行的数据。
  比如女装,我们可以看到女装的关键词,下面很多同事都在引用。
  那么说明这个关键词是可操作的。但是这个学期的竞争太大了,不能浪费精力。可以通过小程序和微信指数查看每个词的近期热度。心里有了主意,就知道这个词是不是竞争激烈了。可以选择竞争少的长尾关键词,搜索细分词,下拉词等。比如我们以这个关键词为例,女装货源一键配送链。如果你用这个关键词点进去看之前的文章,如果阅读量还不错,说明这个词是有流量的。那么除此之外,我们还需要查看这个账号的注册日期。一般只要在三个月内注册账号,
  
  那么如果找到适合Search的项目,前期应该如何规划呢?首先,我们准备多注册几个公众号进行搜索。熟悉的朋友都知道,新注册的账号发布的文章是不能被搜索收录的,就像我们的个人账号一样。新注册的账号不能立即加为好友。如果你一开始就加了好友,那么官方可能会直接给你一个title。如果没有账号接受流量,流量来了也无计可施。所以这个时候我们就需要维护一个账号,这个也很简单,就是模拟真实的操作。比如先发文章,设置功能模块等,等你养的差不多了,就可以准备用文章引流了。可以观察同行文章整理关键词,这里可以使用批量采集软件下载整理。然后我们把所有的关键词加上营销词组合成一篇文章的标题。营销词就是多少钱,批发价,出厂价等等,一定要多梳理标题中收录
的关键词,引流越多效果越好。搞定之后,我们只需要批量发布文章即可,操作难度不高。请记住将您的个人联系信息放在文本中。标题中收录
的关键词一定要多梳理一下,引流越多效果越好。搞定之后,我们只需要批量发布文章即可,操作难度不高。请记住将您的个人联系信息放在文本中。标题中收录
的关键词一定要多梳理一下,引流越多效果越好。搞定之后,我们只需要批量发布文章即可,操作难度不高。请记住将您的个人联系信息放在文本中。
  总结起来有几点:
  这里有几个适合搜索没有想法的朋友的地方:
  华哥只是给大家讲了上面的内容,用文章去套用。当然,大家都知道,除此之外,搜索里面还有视频号和小程序,这里就不多说了。最后华哥为大家整理了一套详细的搜一搜吧屏引流技巧,里面的讲解非常全面。当然,还有批量采集
公众号文章的软件。我把它们都打包了。有兴趣的可以在我的公众号华歌课堂回复“搜索”付费获取。好了,今天就到这里吧,下次再见。
  分享文章:浅谈:站长如何增加伪原创文章
  
  学习SEO到现在,虽然没有什么大事发生,但是还是有一些零散的东西,比如哪个朋友的主页少了,想看看,哪个朋友的博客上线了,想测试看看,哪位朋友的内容不够好,让我关注等等。这些很快就过去了,还有一些让我很郁闷的,都是菜鸟问的菜鸟问题。真的很难回答,但是我还是要耐心的跟他们解释,作为一个新手,大家都是新手过来的,如果大家不帮助他们,那中国的互联网就发展不起来。但是我还是要再次建议大家,有问题之前一定要先搜索,找不到答案再问,这样提高会更快。因为网站内容为王,有内容才能谈其他,但不是每个站长都能天天发原创文章,这就导致了一种做法-伪原创,就是修改别人的原创articles ,并成为一篇新文章,之所以称为伪原创,是因为它是在原创的基础上发展起来的,大部分内容相关或观点相同,只是表达方式不同. 那么如何造假原创文章,里面确实有很多的想法。1.修改标题 好的标题是成功的。职称可以体现一个编辑的水平和素质。如果是有seo思维的编辑,就会知道它的重要性。将seo思维融入到文案的写作中能够起到事半功倍的作用,那么标题往往起到最大的作用,甚至直接影响到用户是否点击。如何提炼一个好的标题,我们之前已经讲过“seo软文,标题怎么写”,那么我们在伪原创的时候,就需要修改已有的标题,修改成符合自己的标题期望。原则是要符合搜索引擎的爬行习惯和用户的搜索习惯。内容很实用。最简单的例子,你不能用火星语写标题,不实用,搜索引擎也不一定能识别,而且用户永远不会去搜索这样的词。甚至直接影响到用户是否点击。如何提炼一个好的标题,我们之前已经讲过“seo软文,标题怎么写”,那么我们在伪原创的时候,就需要修改已有的标题,修改成符合自己的标题期望。原则是要符合搜索引擎的爬行习惯和用户的搜索习惯。内容很实用。最简单的例子,你不能用火星语写标题,不实用,搜索引擎也不一定能识别,而且用户永远不会去搜索这样的词。甚至直接影响到用户是否点击。如何提炼一个好的标题,我们之前已经讲过“seo软文,标题怎么写”,那么我们在伪原创的时候,就需要修改已有的标题,修改成符合自己的标题期望。原则是要符合搜索引擎的爬行习惯和用户的搜索习惯。内容很实用。最简单的例子,你不能用火星语写标题,不实用,搜索引擎也不一定能识别,而且用户永远不会去搜索这样的词。我们需要修改已有的title,修改成符合自己预期的title。原则是要符合搜索引擎的爬行习惯和用户的搜索习惯。内容很实用。最简单的例子,你不能用火星语写标题,不实用,搜索引擎也不一定能识别,而且用户永远不会去搜索这样的词。我们需要修改已有的title,修改成符合自己预期的title。原则是要符合搜索引擎的爬行习惯和用户的搜索习惯。内容很实用。最简单的例子,你不能用火星语写标题,不实用,搜索引擎也不一定能识别,而且用户永远不会去搜索这样的词。
  
  修改标题时,可以根据原标题进行二次创作,提出更符合文章主题、更符合逻辑的标题。2、内容段落错序排列 伪原创的好处是不用自己写,直接用别人的文章。修改的时候,把别人文章的段落颠倒一下就行了,每段的正文结构也会颠倒几个句子。,它就变成了“新文章”。3、关键词的替换和位置的替换对应第一种观点。我们伪原创的时候一定要修改关键词。毕竟别人的文章都是根据别人网站的主题提炼出来的。虽然有时两个网站的主题相同,关键词 需要修改和替换。匹配度高、精准度高的关键词,往往能抓住更精准的用户。不仅需要修改替换关键词,还需要替换位置,让文章更符合你的想法,更符合你的网站。4、新内容新观点的加入我们还可以在原有文章中加入新的内容和观点,让一篇文章更完整,观点更清晰,主题更完整,伪原创,增加更多内容是不是坏事,可以大大提高文章的可读性。对于已经发表的文章,搜索引擎抓取后会有记录,但是如果我们把假原创做好,搜索引擎可能会给出更高的评价。伪原创内容是站不住脚的观点。毕竟,修改过的文章也算是一篇新文章。只有“修改”的程度才能使“错误”的观点合理化。建议大家多写文章,多写原创,多修改伪原创。这样,你不仅可以提高自己的写作水平,还可以在写作中不断提升自己。婴儿爬行垫| 淘宝女装 并修改更多的伪原创。这样,你不仅可以提高自己的写作水平,还可以在写作中不断提升自己。婴儿爬行垫| 淘宝女装 并修改更多的伪原创。这样,你不仅可以提高自己的写作水平,还可以在写作中不断提升自己。婴儿爬行垫| 淘宝女装

总结:RACE数据集上各个模型文章的笔记

采集交流优采云 发表了文章 • 0 个评论 • 92 次浏览 • 2022-11-24 16:28 • 来自相关话题

  总结:RACE数据集上各个模型文章的笔记
  问师兄一些问题,他说让我可以关注这个数据集寻找答案。。。。今天的服务器真卡,真的没办法跑数据,所以就先写文章笔记。量子语言模型是真的牛逼,听着很牛逼,但是结果e被问了好多回答不了的问题。
  先多写几篇吧,等后面这些文章都写了笔记之后再一起按照排名整理。
  RACE数据集的简介:
  1. 中国中考、高考试卷阅读理解,其中年龄为12-18岁的学生,与之前的数据集不大相同
  2 .总共有 27933 Passages, 97687 Questions,每篇文章差不多 3-5个问题。
  3. 对于推理要求较高,比例较大,有 对于【文章的总结】 和 【态度分析】之类的推理问题,其他数据集基本没有。
  4. 推理类型比较多,总共有5类。
  5.评价方式为准确率
  6. 问题和答案 不仅仅是简单的对于原文词语的重复,很可能是原文词语的其他表达等等。
  7. 5种推理类型:
  1) Detail reasoning(细节推理)---文章细节,但不是简单匹配
  2) Whole-picture reasoning(全局推理)--需读懂全文才可以回答
  3) Passage summarization (文章总结)---1/4文章的摘要
  4) Attitude analysis(态度分析)---作者或者原文对于事情的态度
  5) World knowledge(世界外部知识)---常见此类问题涉及简单的 算术计算。
  Figure1:一个数据集的例子
  Figure2: 数据集划分比例
  数据集中长度统计
  数据集的统计信息以及推理分布
  ACC分析
  按照推理类型分布
  1.DCMN----
  2.OCN--|
  3.Bert_Large
  4.Reading Strategies Model
  5。Hierachical Attention Flow
  好了这周已经安排满了,下周也快满了,下周和公司的会议又要开了,又要赶东西了-----
  1. DCMN__
  【分类】---【MRC】---多选题---RACE
  一。RACE数据集介绍:
  初中、高中英语阅读理解的文章,多选题,其中要做出选择需要能够做推理等等。
  二。摘要:
  多选择题阅读理解是一项具有挑战性的任务,需要复杂的推理过程。 给定文章和问题,需要从一组候选答案中选择一个正确的答案。 【贡献】--本文中提出了 Dual Co-Matching Network (DCMN)--协同匹配网络来双向建模问答关系的网络。 【特别之处】--与现有方法模型的不同之处: 我们同时计算 passage-aware question representation and passage-aware answer representation ,以前只是计算问题感知文章,或者答案感知文章。 【结果】---RACE数据集上面取得了最先进的结果
  1. Introduction
  MRC对于AI而言很有意义,但是现在的阅读理解任务大多集中在浅层的QA任务上面,这些问题可以通过现有的检索技术有效的解决,例如 SQuAD和NewsQA(好像目前都已经超过人类水平了)---简单说,就是之前的太简单了,在我这里不行。这种MRC就是给定一个文档和问题,然后预期的答案是来自于文档中的短距离跨度(short span)。 问题上下文一般收录
足够的信息来识别收录
问答对的证据句子。 SQuAD中90.2的问题可以由文章中一句话回答。 即使在一些一对多回合会话QA任务中,现有的模型也是基于检索的,也就是说之前的都是检索匹配都太简单了。
  【贡献--难度】---
  本文主要的RACE数据集,每个问题都有一组答案,大多数问题的正确答案不可能出现在原文中,这使得很有挑战性,并允许出现丰富的问题类型,比如 短文总结,态度分析等等(匹配是解决不了的--)。 这就需要对于单个文档有更深入的理解,并利用外界知识来回答这些问题。 【另外】此外,与传统的MRC比较,我们需要考虑: passage-question-abswer三元组而不像之前的 passage-question pairwise 的匹配
  【自己的工作/贡献】
  提出DCMN,双向的match question-answer to given passage . 使用了Bert最后一层隐层向量对应的第一个input token(【cls】)被用作聚合表示【00001】,然后利用分类层计算标准分类损失【00002】.作者认为这种方法过于粗糙,无法处理 passage-question-answer triplet,因为他只是粗略的将 短文和问句 作为第一个序列串联起来,然后使用问句作为第二个序列,而没有考虑文章和问句之间的关系。 所以,我们提出了一种新的方法来建模 文章、问题、候选答案之间的关系
  【自己做法】
  首先作者使用 Bert作为编码层分别去获得 文章的上下文表示、问题的上下文表示、答案的上下文表示。 然后利用得到的这三个东西构造匹配层,得到 passage-question-answer的三元组匹配表示,这个匹配表示编码了问题在文章中的位置信息,以及候选答案关于文章中的特殊的context.最后,我们在匹配表示层上面使用 层次聚合的方法(Hierarchical aggregation),从word-leval 到 document-level ,然后从 sequence level 到 document level。 模型在bert-base 以及 bert-large的soat的模型上效果分别提升2.6 /3个点。
  【模型】---
  论文使用目前 NLP 最新的研究成果 BERT 分别为 P 和 Q 中的每一个 Token 进行编码。基于 BERT 的编码,可以得到的编码是一个收录
了 P 和 Q 中各自上下文信息的编码,而不是一个固定的静态编码,如上图中 Hp 与 Hq;
  其次,通过 Attention 的方式,实现 P 和 Q 的匹配。具体来讲,构建 P 中的每一个 Token 在 Q 中的 Attendances,即 Question-Aware 的 Passage,如上图中 Mp。这样得到的每一个 P 的 Token 编码收录
了与 Question 的匹配信息;
  为了充分利用 BERT 带来的上下文信息,以及 P 与 Q 匹配后的信息,将 P 中每个 Token 的 BERT 编码 Hp 与 P 中每个 Token 与 Q 匹配后的编码 Mp 进行融合,对 Hp 和 Mp 进行了元素减法及乘法操作,通过一个激活函数,得到了 P 与 Q 的最终融合表示,图中表示为 Spq;最后通过 maxpooling 操作得到 Cpq l 维向量用于最后的 loss 计算。
  2. 各种匹配策略研究
  除了 P 与 A 之间的匹配,还可以有 Q 与 A、P 与 Q 之间的匹配,以及不同匹配得到的匹配向量间的组合,这些不同的匹配与组合构成了不同的匹配策略。对七种不同的匹配策略分别进行试验,以找到更加合适的匹配策略,分别是:[P_Q; P_A; Q_A], [P_Q; P_A], [P_Q; Q_A], [P_A; Q_A], [PQ_A], [P_QA], [PA_Q]「PA」表示先将 P 和 A 连接为一个序列,再参与匹配,「PQ」与「QA」同理。符号「[ ; ]」表示将多种匹配的结果组合在一起。[P_Q; P_A; Q_A] 模式下的模型架构如下图:
  7 种不同策略通过试验,采用 PQ_A 的匹配策略,即先将 P 与 Q 连接,然后与 A 匹配,无论是在初中题目 (RACE-M)、高中题目 (RACE-H) 还是整体 (RACE),该策略都得到了更优的结果。
  在多选题MRC任务中,机器会给出一篇文章,一个问题和一组候选答案。 目的是从候选答案中选出正确答案。对于每个候选答案,模型构造了一个 问题感知的段落表示(question-aware passage representation) ,answer-aware passage representation question-aware answer representation(原文中是不是写错了). 在一个 max-pooling 层之后,这三个表示被连接起来作为候选答案的最终表示。然后使用所有候选答案的表示形式进行答案选择。
  2.1 介绍 the encoding mechanism
  2.2 介绍 the calculation procedure of the matching representation between the passage, the question and the candidate answer
  2.3 介绍 the aggregation method and the objective function.
  2.1 Encoding layer
  该层将文章和问题中的每个标记编码为一个固定长度的向量,包括 word embedding 和 contextualized embedding.使用bert的最终的隐藏状态作为 模型的最终embedding。 【说明】--在原创
的bert论文中,处理多选择问题的过程中是使用 与第一个输入令牌【cls】对应的最终隐藏状态作为文章、问题、候选答案的聚合表示,作者认为这种方法过于简单和粗糙。所以作者将文章、问题、候选答案分别编码为:
  2. Matching layer
  为了充分挖掘{P,Q,a}三元组中的信息,作者充分利用了注意力机制,得到了 文章和答案之间的双向聚合表示,同理也使用这种方法得到了 问题和文章之间的 双向聚合表示。 文章与答案之间的注意向量计算如下:
  2.3 Aggregation layer
  为了得到每个候选答案的最终表示,Sp和Sa在行方向上的max-pooling操作。
  3. 实验
  评估结果在RACE数据集上面,其中收录
两个子集,RACE-H来自高中考试,RACE-M来自初中考试。 RACE是两者的结合。将自己的模型和其他模型比较,也和Bert_base 和 bert_large 进行比较。 bert的base使用的就是原文中的使用最后一层的第一个token【cls】作为聚合表示。结果就是 bert_base 以及 bert_large都是好于之前的最好模型,而我们的模型又是好于这两者的。
  4.总结
  提出DCMN,双向建模 passage、question、候选answer之间的关系。通过结合bert,模型在race数据集上面有一个很高的结果。
  【注意】--我觉得本篇文章值得学习的点就是 做了一个匹配的多次尝试,至于中间的计算公式有必要去看一下他文章中提到的那篇文章证明的那个公式计算匹配的得到的效果会比较好。
  二.OCN
  OCN---选择比较网络
  多项选择题阅读理解(MCRC)是在给定文章和问题的多个选项中选择正确答案的任务。 现有的MCRC模型要么独立读取每个选项,要么在比较每个选项之前计算每个选项的固定长度表示。 然而,在详细阅读文本之前,人们常常会在多粒度级别(multiple-granularity)比较候选项,以提高推理的效率。 模拟人类,我们提出了一个选项比较网络(OCN)---MCRC,在词级别(word-level)比较候选项以至于更好的识别他们之间的相关性从而帮助进行推理。特别的,每个选项都使用一个略读器(skimmer)编码成一个向量序列,以尽可能的保持细粒度信息(fine-grained information).使用注意力机制来进行向量序列之间的逐个比较(sequences vector-by-vector),来识别他们之间的微妙关系,这对于推理而言可能是有价值的,。
  【效果】结果明显优于现在的模型,也是第一个超越亚马逊 Turker的模型。
  Intorduction
  MCRC的目的是从一组给定问题和文章的选项中选择正确答案。 作为MCRC既需要对于自然语言的理解,也需要对世界知识的理解,才能将正确答案和感染选项区分开来。 这对于机器来说是一个挑战,也是人工智能的一个良好测试平台。
  随着深度学习的快速发展,近年来针对MCRC提出了很多模型,取得很好的效果。在阅读理解之前比较选项是人类在解决MCRC问题时常用的策略。 通过对于选项之间的比较,可以识别出选项之间的相关性,人们在阅读文章时候只需要注意与相关性相关的信息。 因此,问题可以得到更有效的回答。通过比较选项B和D,人们可能会发现,问题答案的关键区别在于:作者是否愿意参观工厂,这可以通过浏览文章很容易的解决。然而,大多数现有的MCRC方法并没有采用该策略。 Stanford AR(2016)and GA Reader(2017)编码独立于选项的问题和文章,忽略了他们之间的相关性。 2018和2019--MCMN使用复杂的匹配机制来采集
信息,2018还有一个利用预先训练好的语言模型来提出信息。然而,他们都没有明确的考虑选项之间的相关性。 据我们所知,2018--Hierarchical attention flow for multiple-choice reading comprehension.是唯一明确考虑选项之间的相关性的研究。 然而,在进行比较之前,这些选项被压缩成固定长度的向量,这可能使得模型很难识别选项之间的细微差别或者相似性。
  为了更有效的采集
选项相关信息,我们提出了一种选项比较网络(OCN),他可以在单次级别显式的比较选项,从而模拟上述人工策略。
  【特别的】我们首先使用略读器网络(skimmer network将选项独立的编码成向量序列作为他们的特征----就是不混合上下文,希望得到他们之间原创
的细微差别》
  【然后】对于每个选项在向量空间中使用基于attention机制,在单词级别逐个的与其他选项进行比较,来确定他们之间的相关性。
  【最后】将采集
到的相关信息进行重读做推理(reread to reasoning)然后选择正确的答案。 通过选项在单词级别的比较,我们可以使得模型更容易的检测选项之间的细微差别。使用基于Bert的略读器,我们的方法在RACE数据集上面超过现sota.
  2. OCN---Option Comparison Network
  符号定义:
  Q:question P: passage O:选项1.2.3
  任务:给定Q--P,选出 O----
  模型分四个阶段从候选答案集中选择正确的答案。
  2.1 首先将每个(article,question,option)三元组连接成一个序列,并使用一个略读器将他们编码成向量序列。
  2.2 使用attention机制去比较选项
  2.3 使用上一个阶段采集
的相关信息,作为额外输入重新阅读。
  2.4 最后计算每个选项正确答案的概率。
  2.1 Option Feature Extraction
  一个略读器网络用于独立略读 选项、问题、文章以提取选项的特征。
  Bert已经被证明是一个功能强大的特征提取器。特别的,选项O_k和问题Q和文章P连接在一起,定义为:
  。然后这个序列反馈给Bert计算他们的向量空间编码
  定义为------------------
  2.2 Option Correlation Features Extraction
  这个模块用于word级别比较选项,提取选项相关信息用作推理。 对于每个选项,使用attention机制去对比它和所有其他的选项
  来采集
相关信息。
  公式-------
  选项相关特征的提取分为以下三个步骤:
  首先,将一个选项与所有其他三个选项逐一进行比较,以采集
成对的相关信息。 特别的,对于选项 O_k,信息-----收取通过如下方式:
  ------------
  然后将为每个选项采集
的两两相关信息进行融合,得到选项之间的相关信息,可以被定义为:
  ----------
  最后,通过元素 gating机制将 选项特征与选项关联信息进行融合, 生成选项关联特征。 门控机制定义:——————————
  2.3文章阅读
  模仿人类,本文将以 选项相关特性作为 额外输入重新阅读,已获得更深入的理解。 特别的采用: co-attention(2017)和self-attention机制进行重读。
  首先,对于每个选项 O_k,co-attention 定义为:
  最终的整个选项表示的计算公式:
  ————————————————
  2.4 Answer Prediction
  2.4.1 计算选项O_k,作为正确答案的得分:
  最终的概率:
  损失函数:
  3. 实验
  3.1 Dataset
  RACE数据集,RACE-M,初中英语考试RACE-H,高中英语考试由于文章、问题、选项是由英语教师生成的,用于评估人类的阅读理解能力,所以数据集比SQuAD本质上来说更加困难。数据集中有59.2的问题需要推理,这明显高于SQuAD。最常用的推理技能是 ------ 细节推理、whole-picture understanding,passage summarization、态度分析和世界知识。 因此,对于模型来说,RACE是非常具有挑战性的MCRC的数据集。
  3.2 Training Details
  optimizer: Adam
  Bert_Base
  epochs:3
  batch_size:12
  lr:3*10**-5
  Bert_Large
  5
  24
  1.5
  L2--II---0.01
  文章:400
  问题:30
  选项:16
  
  3.3 实验结果
  -------我觉得并不怎么work,完全就是 bert在起作用。
  好吧,RACE数据集上面有很多需要推理的技能,但是所谓的这些很多之处都还是通过匹配或者更精细,变着花样的匹配来实现的,作者在文章中说道相信自己的模型学到了推理,还diss人家mcmn模型使用了复杂的匹配过程,再看看自己的计算过程比那个复杂多了,而且通过消融实验我也没有看见作者所谓的 考虑问题之间的联系帮助最后选择正确的答案。
  首先,我觉得作者的思路是正确的,因为说实话----如果我们可以立马判断出来两个答案之间的关系,比如同意,反义或者收录
的关系,其实对于最后的选择答案就会容易很多,最起码对于人而言是这样的,但是这个工作我觉得并不work的主要原因有以下:
  1.作者想希望这种方式快速、并且高效(正确率高)的方式来做阅读理解,可能是作者设计的函数或者计算选项之间关系没有设计好,这本质上和直接拿 问题和答案与 文章进行计算相似度求答案没有区别,无非就是本文加了一个选项之间的关系,那又怎么样呢,希望通过这个关系告诉机器哪些情况下是对的?最起码的日常经验---如果两个答案是反义的那么他们之间有一个正确的概率比较大这一点都没有实现吧。 如果真的要计算这一点是不是最后选择答案的时候给他们两个匹配最后的分数的权重是不是高一些,但是这首先需要标注预料来指导进行,其实我觉得可以试试通过无监督的方法或者迁移学习的方法来做这一步,相当于一个额外的知识参与到最后的决策。 其实类比自己做阅读理解好像就是这样,会一定程度考虑答案之间的关系,排除法之类的也都会使用。
  2.可以很明显看见确实---RACE数据集其中是收录
很多需要推理的地方,这很容易向我们怀念曾经做过的英语考试阅读理解。 什么是推理呢?这是一个值得思考的问题,可能匹配是推理构成中的很大一部分吧。 对比人类的推理,计算机的优势在于一方面可以认为他掌握所有的词汇这个是人类做不到的,说实话当年我要所有的单词都认识,现在------另一方面,是计算机超强的匹配能力,不仅仅指的是他可以将同义词,反义词等都可以识别出来(虽然我觉得bert也不可以,分布式假设的通病)还有一点是计算机的记忆能力可以记住所有的匹配到相关的问题知识,所以现在检索式阅读理解我个人认为的重点是 怎样将计算机的这两个优点极大的利用。 而人类不同于机器的优点在于:可以结合常识做出推理,这种推理是高级别的,常识可能不仅仅包括日常知识,还有之前的经验等。人类可以很自然的机型推理,但是对于神经网络而言推理是一件很困难的事情,有专门的数据集和任务去做这些事情,如果可以通过无监督或者其他方法可以把这些外部的对于做阅读理解而言很重要的事情添加进来,我觉得最后的实验效果会好很多。
  Hierachical Attention Flow:
  暂时还没有找到关于本篇文章的笔记,后面等看见就更新吧,写了自己的笔记之后再看看
  别人的笔记真的会神清气爽。-----
  Abstract
  【贡献】--对于多项选择题QA,【1】提出了层次注意流机制,以充分利用选项 候选选项、问题、和文章之间的交互(Interaction). 作者注意到,利用候选选项来促进文章中搜集证据在MRC任务中起着至关重要的作用。但是在以前的工作中被忽略了。 此外,【2】我们还显式的建立了选项和注意力机制的关联模型,以获取更好的选项表示形式,并将其进一步送入双线性层中以获取每个选项的排名分数。在RACE数据集上面取得了很好的效果。
  Introdunction
  在本文中,我们研究了多项选择题阅读理解,每个问题都有四个选项,其中只有一个是正确的。M-MRC的特点:不限制答案精确匹配给出的文章的范围,相反,候选选项是人工生成的句子,这些句子可能不会出现在文章中。 RACE 和 MCTest都是多项选择题的数据集。 2016--使用Cnn构建具有注意力机制的不同层次的表示。 2016--提出使用分层结构从多个平行的角度进行匹配(这个看起来真的挺有意思的),在MCTest数据集上面使用一种训练技术。等等 其他工作-----具体来说,模型只利用问题采集
和总结文章证据,然后进行证据和候选选项之间的匹配。
  受到2016年那两篇文章的启发,我么提出了基于神经网络的分层注意流,充分利用候选选项来建立文章、问题、候选选项之间的单次级和句子级的交互。 【结构】---注意流按照以下层顺序组织。 首先,使用BiRNN分别对文章中的句子、问题候选答案进行编码。 然后单词级别注意层构建 问题感知(question-aware)文章和感知候选项的表示。【接下来】句子上下文编码器使用BiRNN对 文章句子进行上下文建模。(就是是文章变为收录
问题信息的上下文编码)。 【然后】---句子级别的注意力层采集
文章中与 问题和候选项相关的证据,【2】并且为更好的选项表示建立选项关联模型。 【最后】---线性层计算每个选项的排名分数。
  主要介绍三方面的主要贡献:
  1. 首先,我们建议使用候选选项从文章中采集
证据。 2017---中只是使用问题在文章中搜集证据。 而在多项选择题阅读理解中,问题有时候信息不够丰富,不够清晰,不足以指导采集
证据。 特别是对于那些有空格或者关于一般目的的问题,仅仅凭问题采集
部分的证据就可能导致模型做出错误的预测。 候选选项可以提供额外的信息来澄清问题的意图。 因此我们是用问题感知选项表示来增强模型中的问题采集
。 这样,模型除了 利用问题信息之外,还利用候选选项信息来采集
更充分的证据来区分选项和干扰答案。
  2.为了进一步挖掘候选选项,我们利用之前工作中忽略的【选项相关性】作为原创
独立选项表示的附加信息。 以前的工作中关于多项选择题每个选项独立得分。 我们比较各个选项建模他们之间的相关性。 关联被编码成一个具有句子层级注意的向量表示,然后连接到独立的选项表示。 (上面的几篇文章也考虑到了这一点,不过做法或者使用的阶段不一样,说白了这里的方法就是 还是问题--文章之间建立感知,然后问题-候选项之间建立感知,然后对于问题-文章的感知再进行一遍RNN,得到最终的O2P,然后和之前的Q2O进行匹配感知,只是另外的将 Q-O对于各个选项再进行一次相关性计算,然后使用这个约束参与最终的答案选择---和前面提到的方法真的基本没什么区别----)。 因此,我们提出的模型在考虑其他选项的情况下对于每个选项进行评分。
  3.在RACE数据集上进行测试,效果达到了最好。
  Model
  按照之前的模型图中自左至右,从下往上的顺序进行介绍模型的各个模块。
  Word Context Encoder
  Attention Flow
  模型中,采用两个组件之间的交互来强调和组织相关的关系。 每一次交互都使用同样的注意力机制。
  Attention Mechanism
  Question-to-Passage (Q2P)Word-level Atteention
  句子中的单词并不是同等重要的,其中的意义可能会随着问题的变化变化。 为了得到文章句子的向量表示,我们将问句question中的每个单词向量表示应用到文章中的第i个句子中的每个单词。 我们使用Quetion BiGRU的每一步的输出而不是上一步的输出(2017)。 然后就得到了 文章中句子级别的每个句子的 问题感知表示(Question-aware)
  Question-to-Option (Q2O)Word-level Attention
  2017--等人使用GRU的最后一个隐藏状态作为候选、生成问题的自由向量表示。 而选项的意思和问题结合起来更容易理解。 因此,我们结合问题信息 将选项的单词表示形式组合成一个固定大小的向量,并在单次级别使用注意力机制。同样得到第i个候选项问题感知的形式(Question-aware)
  Sentence Context Encoder
  Sentence Context Encoder
  文章中句子的顺序很重要,就像句子中单词的顺序一样。 但我们并行处理文章中的句子,生成上下文无关的句子表示形式ViP. 为了对句子上下文进行编码,类似于单词上下文建模,我们在ViP上面 应用了另一个GRU。 句子的上下文编码到:
  Option-to-Passage (O2P) Sentence-level Attention 在阅读理解任务中,文章一般收录
大量的事件、地点等信息。 当一个文章涉及某一方面时,文章中不相关的部分可能是冗余和噪声。 为了避免冗余信息的负面影响,2017--等奖整篇文章总结为一个单一的向量作为 证据,并对文章中注意事项提出质疑。 这是一种流行的cloze-style阅读理解模型。
  在我们的模型中,利用问题感知的候选选项表示Q2O得到的结果,利用【句子层次上的注意力机制】,提高了从段落句子中采集
证据的能力。 在注意力计算过程中,每个候选选项对于其对应的句子赋予更高的权重(这样我觉得不行,注意力的计算仅仅可能是单词级别的关联比较机制,可能没有理解文章中句子的语义等信息,这样到最后的计算就成了问题-候选项 和 文章中句子注意力机制的得分的比较,这样是不是很容易将原文中和问题中出现比较相似或者原文重复的句子作为最终的答案,而问题在这个部分中起到的作用将会被削弱很多),然后,我们对于每个段落句子分配的权重进行平均得到最终的 文章中每个句子对于问题-候选句子的权重。 不同于以往的工作,我们隐式的纳入了问题信息,这是由Q2Oword-level attention编码带来的效果。。 最后,候选选项连同问题,将证据总结为一个固定大小的向量:
  Option Correlations
  候选选项的表示由Q2O word attention 得到,他是对于问题感知的。 但是这种 表示独立于其他选项,并且不会对选项之间的比较信息进行编码。 为了建立 选项之间的相关性,我们将候选选项和注意力机制进行了比较。 在将选项与自身进行比较的情况下,我们将注意力权重矩阵的对角线设置为0(去除自己的权重)。 Si,j表示第j个选项和第i个选项的相关性得分,不需要像以前那样进行合并操作。 灵感来自于chen2017-----需要看一下这篇文章。 我们建模选项之间的相关性通过求差的方式,然后连接到 独立选项表示增强。
  Answer Prediction
  和2017--一样使用双线性函数和正确概率Pi计算归纳证据,,,,得到最后的匹配得分。
  训练:最小化-log概率。
  Experiments
  Dataset
  RACE共收录
27,933篇文章和97,687个问题,其中5%为开发集,5%为测试集。
  数据集划分
  文章、句子、候选的平均长度和句子数量
  Implementation Details
  RACE放在一起训练测试。分词--
  训练细节----
  Ablation Study
  去掉 --Sentence
  验证段落句子归纳对于上下文编码的影响---
  2. 去掉 O2P Attention:
  像2017--那样使用问题去代替问题-选项去搜索证据。 证明了问题-选项结合在一起的重要性。
  3.去掉 Option Corrections
  验证选项之间的关联性学习确实是有效果的。
  Discussion
  Evidence Gathering and Option Correlations
  为了研究 候选选项如何从文章中采集
证据,我们可视化了 O2P注意中的注意权重矩阵。
  较深的颜色代表较高的权重。 注意权重矩阵表明,与每个选项相关的证据在passage中分散分布。
  段落句子的集中注意力权重尽可能多的总结必要的信息。 但是问题是可能会遗漏关键的证据,特别是对于不收录
明显指示性词语或者短语的问题,就像上面图中的第二个问题一样。 只有与候选选项结合,模型才能得到 提示,来采集
证据,从而强调句子的重点“state, money, recycling, landfill, disposal, raw material”。
  选项关系相关性在某些情况下也很有用。 在上面的图中第一个问题为例子。 没有相关性的模型选择了得分高于C的错误选项A。 通过引入 选项之间的相关性,模型选择了 得分极高的正确选项C,得分为:0.987。
  Top-N Accuracy
  为了进一步调查我们的模型总体精度之外,我们还统计分析--排名得分--的发展。由于每个问题的答案对应于只有一个正确答案,我们取 正确答案的的前N个排名,并相应的计算准确性(Acc@)。 acc@2:70.2 acc@3 :87.2。 对于随机猜测期望的领先从另一个角度说明了我们提出模型的有效性,并揭示了通过ranking可以进行潜在改进。
  Difficulty Gap between RACE-M and RACE-H
  RACE-M:中学RACE-H:高中
  两者的差异主要体现在 文章长度、问题和候选的长度M都较短,M词汇量小于H。
  词汇差不多都是收录
词汇表。 以上这些影响了最后的结果的不同。
  Related Work
  Large-scale Datasets
  大规模数据集促进了阅读理解研究的重大进展。根据答案是否限制在引用段落的精确匹配范围内,我们可以将现有数据集分为两类.
  CNN/Daily Mail (Hermann et al. 2015), Childrens Book Test (CBT) (Hill et al. 2016) and Who Did What (WDW)(Onishi et al. 2016) 是自动生成的 clozestyle 大规模数据集,答案通常是文章中的一个词(通常是一个命名实体)。
  SQuAD(Rajpurkar et al. 2016)------答案是span
  RACE(Lai et al. 2017) and MS MARCO (Nguyen et al. 2016)---------答案肯能不会出现在原文中。这与人类的阅读理解最接近。 此外RACE是一个多选题数据集,答案是四个选项中的一个。
  Multiple-choice Reading Comprehension
  多选题是语言考试中常见的题目。 MCTest多选---难度仅限于7岁儿童。
  RACE数据集: 与MCTest数据集格式差不多,但是难度更高,28000文章,100000问题组成,转为12--18岁中国孩子设计的英语考试。
  Hierarchical Structure
  阅读理解模型中,把文章处理成为一个长序列是一种常用的方法,只有少数模型中收录
了文章结构。 2016(Schutze)---构建并结合了句子级别和相邻句子级别的模型。但是时间关系没有在任何层次上进行建模。 2016(Trischler)---等人采用层次结构来建模比较 段落--问题--候选,并使用基于位置的权重对于顺序信息进行建模。 2017(zhang)--结合句法信息来探索更好的理解和适应,但是仅仅局限于 问题。 2017(xie and xing)---利用句法信息对问句和文章进行编码,然后他们使用RNN在句子表示得到 基础 上对于文章进行编码。 我们将文章的层次结构引入到交互模型中,并在单次级别和句子级别使用RNN对于时态上下文进行建模。
  Attention Mechanisms in Reading Comprehension Models
  注意力机制在之前很多模型中都用到了。 主要被用来 【模拟交互和预测答案】。
  2015-2016使用单个问题向量来总结文章,不是使用单个向量来表示问题。
  2016-2017 利用问题中的每一个单词和文章进行交互。
  2017--问题中的单词在对文章进行RNN的时候每一个步骤时间点都进行 与 文章中的单词进对齐。
  2017(Socher)--问题和文章之间的注意力是双向计算的。
  不管问题和文章之间的注意力,2017--提出了自我匹配机制来匹配段落本身。
  2017(Dhingra)--提出门控--注意力机制 通过多跳(mutil-hop)来选择单个问题的相关段落。
  2016(Sordoni)--交替计算短文和问题之间的注意力。
  2017(Shen)--进一步使用强化学习动态确定迭代步骤。
  当涉及到答案的预测的时候,受到2015(Vin)--2016(Kadlec)等的启发 直接以注意力作为指针,预测填空式阅读理解的答案。
  2016(Sorddon)--2017(Cui)--2017(Dhingra)随后在答案预测层中采用了相同的方法。
  2017(Wang)等利用注意力机制来产生 答案相关的span的边界。 这对于 SQuA数据集来说是一个有效和主流的模型配置(设置)。
  2017(Socher)提出了动态指针解码器(Dynamic pointing decoder),使用迭代的方法生成answer的边界。
  2017(Lai)等利用双线性函数在RACE数据集上面计算每个选项的匹配得分。
  Conclusion and Future Work
  本文提出了选择题阅读理解的分层注意流。文章、问题和候选选项通过不同层次的注意力相互作用。
  为了充分利用候选选项,我们将选项合并到一起,用来增强证据采集
和增强具有相关性的选项表示,这在以前的工作中没有做过【---】。
  结果还可以--
  最后作者认为:句法和篇章关系可以作为附加结构作为补充信息。
  在未来的工作中,作者希望通过结合 句法信息或者话语关系来进一步探索篇章结构来获取更好的表达。
  【说实话自己觉得这篇文章】比之前的两篇文章更有价值更有意义,不管是文章的编辑还是文章关于RACE数据集的做法。
  【Improving Question Answering with External Knowledge】---------
  Abstract
  先验背景知识是人类阅读和理解的基础。 作者本文中,研究如何使用外部知识来提高问题的回答(QA)。主要关注多项选择题,这需要外部知识来回答。 研究了利用【外部域内】(external in-domain)选择题回答的数据集,并且利用【外部域外语料库】丰富参考语料库。实验结果表明,在ARC和OpenBookQA这两个具有挑战性的选择题答题任务上,外部知识是有效的。
  1. Introduction
  外部知识在人类阅读和理解中起着至关重要的作用,因为作者假定读者从文本之外的来源获得了一定数量的背景知识--2013;
  越来越多的研究集中在 多选MRC的模型构建--2016-2019;或者问答的任务--2018;
  对于MRC任务而言,大多数问题依然是根据所提供的参考文献内容设计的可回答的。 本文中,我们主要关注多项选择题QA任务:
  只提供一个参考语料库,我们需要使用不同类型的知识去选择正确的候选选项--2018.
  如何利用外部知识来进行多项选择题的回答,以填补人与机器之间的知识鸿沟,仍然是一个有待解决的问题。
  近期的研究(2017-2018)都是通过先 预训练深度神经模型在大规模的语料库上面使用语言模型预训练LSTMs,Transforms.
  通过在下游任务上对这些预先训练的模型进行微调,我们已经看到在广泛的自然语言处理任务上取得了显著的改进;
  然而,在预训练阶段引入外部知识相对耗时、资源广泛性较强。
  本文旨在利用外部知识,在微调(fine-tuning)阶段提高多项选择题的正确率。我们研究了两方面的影响:
  1)利用外部域内(in-domain)Q-A数据集增强训练数据。
  2)基于问题和答案选项的实体发现和链接,从外部开放域(open-domain)中检索额外的知识,来丰富参考语料库。
  我们使用了Bert作为基本QA模型在从考试中采集
的两个具有挑战性的ARC和OpenBookQA数据集上做了初步的实验。实验结果表明,利用外部知识可以获得较好的实验效果。
  2.Method
  2.1 介绍作者使用的QA模型的baseline.
  2.2 --2.3 介绍使用两种方法引入 外部域内 和 开放域的知识。
  2.1 Basic Framework
  首先微调(fine-tuning)一个预训练语言模型在大型的多选MRC数据集RACE(Lai--2017)上面,然后对于目标 多选Q-A数据集上面对于结果模型进行微调(fine-tunning).在本文中使用bert作为预训练语言模型。
  给定问题q、答案选项o和参考文档d,我们用特殊的标记@和#将它们连接起来,作为输入序列BERT_large by @d#q#o#,其中@和#分别代表BERT中的[CLS]和[SEP]。我们在q (exclusive)之前将A嵌入到每个token中,并将B嵌入到其他token中。对于ARC和OpenBookQA中的实例,d来自Lucene (McCandless et al., 2010)从其对应的参考语料库中检索到的前50个句子的串联,以q和o中的不间断单词作为查询(Sun et al.,2018)。 每个问题的最终预测由一个线性加softmax层在每个输入序列的【第一个token的最终隐藏状态的输出】上得到。我们向读者推荐Devlin et al。Sun等人了解更多细节
  2.2 Utilization of In-Domain Data
  我们的基本框架包括两个阶段:在大型开放域机器阅读理解数据集(比如RACE)微调(fine-tuning)一个预训练的语言模型,然后在目标问题回答Q-A数据集上微调产生的神经阅读器(Reader),对于后一个步骤,我们没有对单个目标数据集上的神经阅读器进行微调(Sun et al., 2018),而是同时对多个目标数据集上的神经阅读器进行微调.
  【概述】先拿一个预训练的语言模型出来,然后在其他大型的域内的数据集上进行微调,然后再在目标数据集和域内数据集上面一起进行微调。
  
  2.3 Utilization of Open-Domain Data
  我们使用实体发现和链接(EDL)来帮助我们丰富参考文档。
  【Entity discovery】: 实体发现任务 就是从实体提及(mention)中提取实体的任务。大多数实体发现系统 使用的都是 预先定义好的类(person,位置等). 然而,在ARC和OpenbookQA中,绝大多数实体都来自于丰富的领域(e.g., “skin surface”,“oil”, “magnet”, and “iron”)。由于目前科学领域还没有一个强有力的系统,我们只是把所有的名词短语都看作是一个实体。
  【Entity Linking】:实体链接任务可分为两个子任务:【候选生成】和【实体消歧】。给定一组提取的实体提及M = {m1, m2,…,}我们首先对于每一个实体提及m生成一个候选实体的初始列表Em = {e1, e2,…, en},然后对每个实体进行排序,选择得分最高的候选实体作为合适的链接实体。
  采用基于字典的候选生成方法(Medelyan和Legg, 2008):
  其中m是一组锚点链接,其中m是相同的锚点文本,而Am_e是其中的子集;
  然后,根据三个指标对每个初始候选实体列表进行重新排序:【显著性、相似性和一致性------salience, similarity, and coherence 】(Pan et al., 2015)。
  【显著性】是通过使用Wikipedia锚链接计算的:
  其中A*e是一组指向实体e的锚点链接,A**其中的所有锚点链接的集合在维基百科中。
  【相似性】是指 mention-entity pair之间的上下文相似性。 我们采用了 一种神经网络模型,该模型可以从 Wikipedia中联合学习单词和实体(word and entity)的embedding。 对于每一个提及到的实体m,作者使用上下文中的每个单词(出去自己和停用词)的向量表示来构建它的上下文向量Vt的向量表示。使用Cos来计算实体提及和候选实体之间的相似性。
  【一致性】一致性是由这样一种假设驱动的:如果多个实体提及同时出现在一个句子中,那么它们的引用实体在知识库中更有可能是一致的。
  跟随黄(2017),构造加权无向图G = (E, D) 从KB中,其中E是KB中所有实体的集合,dij∈D表示两个实体ei和ej共享一些KB属性。
  dij, wij :
  其中pi、pj分别为ei和ej的KB属性集合。在构建知识图之后,我们利用Tang等人(2015)提出的图嵌入框架,为KB中的所有实体生成知识表示.两个实体之间的一致性coh(ei, ej)是利用这两个实体的向量表示之间的余弦相似性来建模的。
  给定一个实体提及m及其候选实体e,一致性得分定义为:
  其中Cm是对实体提及m的实体联合。
  最后,我们结合这些度量来计算每个实体候选e的最终得分。
  我们将上述EDL系统应用于所有【问题和候选答案】的文本中。对于每个已发现和链接的实体,其Wikipedia摘要将被提取并附加到每个(问题,答案选项)对的相应参考文档中。
  3 Experiments
  3.1 Datasets
  在我们的实验中,我们使用RACE (Lai等--2017),这是目前最大的多项选择MRC数据集,作为迁移学习的源任务。我们对我们的方法的性能进行了评估在ARC (Clark-2016, 2018)和OpenbookQA (Mihaylov2-018)数据集上面。。所有这些任务都是从人类专家为了QA精心设计的考试中采集
而来的,其中收录
大量需要外部知识才可以回答的问题。但是 人类和机器之间还是存在着巨大的性能差异。 下图展示了这些数据集的统计数据:
  3.2 Experimental Settings
  使用 预训练的 BERT_largr。
  batch_size: 24
  lr: 2e-5
  maxlen = 512.
  RACE --fine:5 epochs---------other 数据集 8 epochs
  下图展示了 RACE数据集中的BERT baseline
  3.3 Experimental Results
  由下图看出,在应用EDL以丰富每个问题的参考文档之后,所有任务的准确性都得到了提高。 文章中举了‘磁铁’的例子,说明有的答案只有通过wikipidia之后才会回答起来容易很多。
  在初步实验的基础上,通过微调发现很多多选MRC数据集的性能都有了提升。
  4 Related Work
  4.1 Question Answering
  近年来有很多数据集和模型推动了QA的发展。
  在数据集方面,作者的工作主要集中在 教育专家设计的 多选择题考试数据集(2017-lai,Clark2018,2018...2019....).,因此这些数据集都是 干净的、无错误的、具有挑战性的。
  在模型方面,作者遵循了 针对 Q-A任务 有区别的微调 预训练语言模型的一般框架。
  4.2 Utilization of External Knowledge
  以前的工作探索了 许多利用外部知识的方法。 wang-2018,Sun-2019利用常识的概念图(Speer-2017).
  Chen提出使用维基百科回答开放域Q-A的方法。
  Ni等人研究了使用 重要基本术语 改进信息检索。
  【作为对比--作者】提出了 通过利用 外部 域内 和外部开放域的知识,尤其是第一个工作中的使用EDL的方法,,来提升多项选择QA.
  5 Conclusion
  在本研究中,我们研究了利用域内的外部问题回答数据集和利用域外外部语料库来丰富参考语料库,从而改进问题回答。在ARC和OpenBookQA数据集上的初步实验结果证明了我们提出的方法的有效性
  Improving Machine Reading Comprehension with General Reading Strategies
  Abstract
  阅读策略已被证明可以提高理解水平,特别是对于缺乏足够的先验知识的读者。 正如人类读者的知识积累过程是一个耗时的过程一样,通过预培训将丰富的一般领域知识传授给一个深层的语言模型也是一个资源需求的过程。受认知科学中确定的阅读策略的启发,在有限的计算资源(只有一个预先训练的模型和固定数量的训练实例)下,我们提出了三个旨在提高非抽取式机器阅读理解(MRC)的一般策略:
  1) 反复阅读,认为原创
和倒序输入序列(BACK AND FORTH READING)
  2)高亮显示,这增加了可训练的嵌入的文本嵌入标记相关的问题和候选答案(HIGHLIGHTING)
  3)直接从文本以一种无监督的方式,自我评估产生实践问题和候选答(SELFASSESSMENT)
  使用作者提出的策略通过微调pre-trained语言模型(雷德福et al ., 2018),在大型多选MRMC的数据集RACE上面,比不使用作者提出的阅读策略微调预训练的模型ACC提升 5.8;
  我们进一步对目标MRC任务上的结果模型进行微调,从而得到了在不同领域绝对的改进在6个6个非抽取式的MRC数据集(即, ARC, OpenBookQA, MCTest,SemEval-2018 Task 11, ROCStories,和MultiRC)。这些结果证明了我们提出的策略的有效性和通用性。
  1 Introduction
  本文主要研究非萃取性MRC (Khashabi et al., 2018;Ostermann等,2018)其中,很大比例的候选答案不受参考文档或语料库 文本跨度的限制。
  与提取MRC任务(第2.1节)相比,非提取任务MRC (Section 2.2)要求不同的阅读技能,因此,机器阅读者在这些任务上的表现更准确地反映了机器阅读者在现实环境(如考试)中的理解能力。最近,通过对预先训练好的通用语言模型进行微调,许多自然语言处理任务都取得了重大进展,包括MRC (Radford et al., 2018;Devlin等,2018)。 然而,与人类读者的知识积累过程类似,通过预训练将大量的外部语料库中的一般领域知识传授给一个深层的语言模型,既费时又费力。
  从实践的角度出发,给出了有限的训练实例和预训练模型,我们能否在微调过程中提高机器阅读理解能力,而不是通过昂贵的预培训将更多的先验知识传授给模型?灵感来自认知科学研究中确定的阅读策略,这些策略已被证明在提高人类读者的理解水平方面有效,特别是那些对文本主题缺乏足够先验知识的读者。
  基于现有的预训练transformer(3.1节),我们提出了三种相应的领域无关策略来改进MRC:
  1)来回阅读(“我在文本中来回查找思想之间的关系”):考虑输入序列的原创
顺序和倒序(第3.2节)。
  2)突出显示(“我在文本中突出显示信息,以帮助我记住它。”):在文本中添加可训练的嵌入,嵌入那些被认为与问题和候选答案相关的标记(第3.3节)。
  3)自我评估(“我问自己一些问题,我想在文本中回答这个问题,然后检查一下我对文本的猜测是对还是错。”)从现有参考文件中生成练习问题及其相关的基于span的候选答案(第3.4节).
  根据我们对语言考试中采集
到的最大通用域 多选--MRC数据集RACE (Lai等,2017)提出的策略,对一个预训练的transformer (Radford et al., 2018)进行微调,我们获得一个在不使用策略的情况下,相同的预训练变压器在种族上进行微调,其精度比以前的最佳结果提高了5:8%(第4.2节)。。 我们在目标上进一步微调得到的模型MRC的任务。实验表明,我们的方法在6个典型的非抽取MRC数据集上取得了最新的研究成果,这些数据集需要一系列的阅读技巧,如常识和多句推理(4.4)。这些结果表明了本文所提方法策略的有效性。我们的微调模型纳入了这些策略的通用性。
  2 Task Introduction
  我们将机器阅读理解任务大致分为两组: 根据预期答案类型抽取(第2.1节) 和 非抽取(第2.2节)
  2.1 Extractive MRC
  近年来,大规模的提取MRC数据集已经建成,例如 SQuAD 和 NewsQA. |给定一个参考文档和一个问题,预期的答案与文档的跨度很短。相比之下,答案在SearchQA等数据集(邓恩et al ., 2017)和NarrativeQA (Kociskˇy et al。”,2018)是基于给定文档的自由形式的人类生成文本。然而,由于注释者倾向于直接将span复制为答案,所以大多数答案仍然是抽取的。
  2.2 Non-Extractive MRC
  在本节中,我们主要讨论multiplechoice MRC数据集,其中答案选项不受提取文本范围的限制。给定一个问题和一个参考文档/语料库,将提供多个答案选项,其中至少有一个选项是正确的。构建这样一个数据集需要大量的人力工作(如 MCTest (Richardson et al., 2013), SemEval-2018 Task 11 (Ostermann et al., 2018)、MultiRC (Khashabi et al., 2018)和OpenBookQA (Mihaylov et al., 2018)通过众包完成。除了众包,数据集如RACE (Lai等,2017)和ARC (Clark等,2018)采集
自教育专家设计的语言或科学考试(Penas et al.,2014;Shibuki等,2014;Tseng et al., 2016)来评估人类参与者的理解水平。
  与提取MRC任务中的问题相比,除了表面匹配外,复杂的问题还有很多,如数学单词问题、归纳问题、逻辑推理问题、情绪分析问题,,需要先进的阅读技巧以及先验的世界知识。
  此外,在大多数情况下,我们可以采用准确性等客观评价标准来评价系统性能(Clark et al., 2016;Lai等,2017)。 由于这类数据集的构建和采集
相对困难,现有的数据集大多规模较小,阻碍了最先进的深度神经模型的发展。
  为此,本文以7个具有代表性的多选题MRC数据集为例,探讨了如何利用有限的资源来改进MRC。如表1所示,大多数数据集中(ARC和MCTest除外)的大多数正确答案选项都是非抽取的。除了MultiRC,每个问题都有一个正确的答案选项。对于ARC和OpenBookQA,将提供一个参考语料库,而不是与每个问题关联的单个参考文档。
  这里我们给出了一个正式的任务定义。 给定参考文档d、问题q和相关的回答选项o;目标是选择正确的答案选项。 我们可以很容易地使我们的方法适应只提供参考语料库的MRC任务(第4.4节) 。
  3 Approach
  我们首先介绍了一个基于预训练transformer的神经阅读器(第3.1节),然后详细阐述了微调阶段使用的策略——来回阅读(第3.2节)、高亮显示(第3.3节)和自我评估(第3.4节)。
  3.1 Framework Overview
  我们的神经阅读器遵循有区别地微调生成预训练变压器(GPT)的框架(Radford et al., 2018)。 我们的神经阅读器遵循有区别地微调生成预训练变压器(GPT)的框架(Radford et al., 2018)。 采用预训练的多层变压器(Vaswani et al., 2017;Liu等,2018)标记数据集C的语言模型.每个实例由输入令牌 x1 的序列;例如:;xn组成.加上标签y,通过最大化 :
  L是语言模型的可能性,λ是语言模型的重量,然后呢P (yjx1;例如:;xn)是通过线性分类层对最后一层transformer的语言模型的激活得到的。MRC的任务,x1;例如:;xn来自开始令牌、引用文档、问题、分隔符令牌、回答选项和结束令牌的连接;y表示答案选项的正确性。更多详情请参考Radford等人(2018) .
  除了设置分隔符将答案选项与文档和问题分隔开之外,最初的框架很少关注MRC任务中特定于任务的结构。受阅读策略的启发,利用有限的资源和一个预先训练的转换器,我们提出了三种策略来提高机器阅读理解。我们在图1中显示了整个框架----
  3.2 Back and Forth Reading (BF)
  为简单起见,我们表示微调期间GPT的原创
输入序列(Radford et al.,)作为[dq $ o],其中[、$和]分别表示开始令牌、分隔符令牌和结束令牌。受来回阅读的启发,我们考虑了原创
顺序[dq $ o]和反向顺序[o $ qd],仍然保留d、q和o中的令牌顺序.我们分别对使用[dq $ o]和[o $ qd]作为输入序列的两个GPTs进行微调,然后对这两个模型进行集成。我们还在实验中考虑了其他类似的输入序列对,如[qd $ o]和[o $ dq](第4.3节)。
  3.3 Highlighting (HL)
  在最初的实现中(Radford等,2018年),在GPT微调阶段,文档的文本嵌入 独立于 相关的问答选项。 受人类阅读中使用的高亮显示的启发,我们的目标是使文档编码意识到相关的问答选项对(q, oi)。我们关注问题和答案选项中的实词,因为它们似乎提供了更多有用的信息(Mirza和Bernardi, 2013),我们通过词性标记(POS)来识别它们,其中之一是:名词、动词、形容词、副词、数字或外来词.
  形式上,我们设T为内容词的POS标签集合。我们让d表示文档d的文本嵌入顺序,用dj表示d中的第j个令牌,dj表示dj的文本嵌入。给定d和a (q, oi)对,我们为d中的第j个令牌定义一个高亮嵌入hj i
  根据上述定义,高亮嵌入的序列hi = h1 i;h2。当我们编码一个文档时,我们用di = d + hi替换d。更具体地说,我们使用b ,di, q, l oi,的串联在整合和,e 是GPT在为微调阶段新的输入(3.1节),b, l,和e独立表示嵌入的开始令牌,分隔符令牌,和结束标记,q和oi代表q和oi的文本嵌入的序列。
  3.4 Self-Assessment (SA)
  在之前的工作中(Radford et al., 2018),原创
的GPT是直接在MRC结束任务上进行微调的,而我们根据自我评估阅读策略开发了一种新的微调方法。特别地,我们提出了一个简单的方法来生成问题及其相关的多个基于span的答案选项,这些选项涵盖了参考文档中多个句子的内容。通过首先对这些实践实例上的预训练模型进行微调,我们的目标是使最终的fine-tuned模型更加可以感知(了解)输入结构,并在回答给定问题时可能需要的多个句子之间集成信息。
  具体来说,我们随机生成不超过nq的问题 和
  相关的回答选项 依托于给定任务的文档(document)。 步骤描述如下。
  Input: a reference document from the end task 最终任务相关的参考文档
  输出: 与参考文档关联 的 一个问题和四个回答选项。
  1. 从文档中随机选择不超过ns的句子,并将这些句子连接在一起。
  2. 从连接的句子中随机选择不超过nc非重叠跨度。 每个span在一个句子中随机收录
不超过nt标记。我们将选择的span连接起来,形成正确的答案选项。我们从连接的句子中删除选定的span,并使用剩余的文本作为问题。
  3.产生三个干扰物(如 ;错误的答案选项)使用文档中随机选择的span替换正确答案选项中的span。
  其中,nq、ns、nc和nt用于控制问题的数量和难度级别。
  4 Experiment
  4.1 Experiment Settings
  对于大多数超参数,我们遵循Radford等人(2018)的工作。我们使用相同的预处理程序和释放的预训练变压器。 我们根据RACE的训练和开发集合中的参考文档生成119k个实例(Lai等人,其中nq = 10, ns = 3, nc = 4, nt = 4(3.4节)。我们首先在这些 自动生成的实例上对原创
的预训练模型进行微调,使用1个训练历元(数据流1在图1中框起来) ,然后在 RACE数据集上面对于上述模型进行5个epoch的微调(fine-turning)(图1中框入数据流2)。我们在前面提到的六个out- domain MRC数据集上对结果模型进行微调(最多10个epoch)(图1中框起来的数据流3)当我们微调模型在不同的数据集,我们将批量大小设置为8,语言模型权重λ=2。我们通过平均线性层后的对数来集成模型。对于策略高亮(3.3节),the contentword POS tagset T = fNN, NNP, NNPS, NNS,VB, VBD, VBG, VBN, VBP, VBZ, JJ, JJR, JJS,RB, RBR, RBS, CD, FW},我们随机初始化+和-。
  4.2 Evaluation on RACE
  在表2中,我们首先报告了最先进模型(MMN和原创
finetuned GPT)和Amazon Turkers(人类性能)的准确性。 然后,我们报告我们实现的经过微调的GPT基线和我们的模型(GPT+策略)的性能。结果显示在RACE dataset (Lai et al., 2017)及其两个子任务上:从初中考试中采集
的RACE- m和从高中考试中采集
的RACE- h。
  我们的单一和综合模式优于以往的先进水平(即 GPT和GPT(9×)) 相差较大(63:8% vs. 59:0%;66:7%比60:6%)。这两种单模型策略——自我评估和突出显示——分别比单模型微调的GPT基线(58:7%)提高了1:7%和4:5%。 使用前后阅读策略,包括两个模型,与两个原创
的finetuned GPTs(59:6%)相比,准确率提高了3个点。策略组合进一步提升绩效。通过结合自我评估和高亮显示,我们的单一模型在经过微调的GPT基线(63:8% vs. 58:7%)上实现了5 %的准确性改进。 我们通过对两个这样的单一模型进行集成来应用所有的策略,这两个模型以原创
或相反的顺序读取输入序列,从而使与 两个原创
的微调GPTs集成相比,准确率提高了5:8% (65:4% vs. 59:6%)
  为了进一步分析性能,我们大致将问题类型分为五类: 细节(事实和细节)、 推理(推理能力)、主旨(文档的主要思想或目的)、 态度(作者对主题或文档语气/源的态度) 和 词汇(词汇 问题)(Qian and Schedl, 2004;Lai等人,2017),并注释了所有RACE开发集的实例(按照这5类对于问题进行了注释)。如图2所示,与经过调优的GPT基线相比,我们的单模型策略(SA和HL)在所有类别中持续改进结果。与其他策略相比,对大多数问题类型来说,突出显示可能会带来更大的收益。
  与人类性能相比,仍有相当大的改进空间,尤其是在RACE-M上。我们仔细查看RACE-M开发集中 所有实现都不能正确回答的实例。我们注意到,其中82.0%需要一种或多种类型的世界知识(如否定决议、常识、释义和数学/逻辑知识)(Sugawara et al., 2017b,a,2018年)),尤其是在参考文献中没有明确提到正确答案选项的情况下。 例如:For example, we need the knowledge —“the type of thing that is written by a writer canprobably be a book” — to answer the question “follow your heart is a ” from the context“ Follow
  your heart by Andrew Matthews, an Australian writer, tells us that making our dreams real is life’s biggest challenge”.此外,19:7%的错误case需要使用 共指消解。利用共指消解可以连接不相邻的相关句子可能是有希望解决这类问题的。
  4.3 Further Discussions on Strategies
  除了第三节中介绍的策略,我们也探索 摘要 等阅读策略(““I take an overall view of the text to see what it is about before carefully reading it.”)通过在每个参考文档前附加一个摘录摘要(Boudin et al., 2015)。实验结果表明,与我们所关注的策略相比,该策略对机器阅读理解的效果较差。在本节中,我们将进一步讨论这三种策略 :
  Back and Forth Reading:
  我们注意到,两个集成模型之间的输入顺序差异很可能产生性能收益。除了集成两个使用输入序列的模型外[dq $ o]和[o $ qd],我们还研究了其他反向或几乎反向对。例如,我们可以通过组合[qd $ o]和[o $ dq](61:0%)或[qd $ o]和[o $ qd]来获得更好的结果(61:7%),相比之下,原来的两个微调的GPTs(他们都使用[d $ qo])用于种族数据集(表2中59:6%) .
  Highlighting:
  我们尝试了两种变体来定义突出显示嵌入(3.3节中的公式2)---通过只考虑问题的内容或只考虑回答选项.实验表明,使用部分信息的准确率(分别为60:6%和61:0%)有所下降相比于 同时考虑 问题的内容和答案选项 63:2%(表2),
  我们还试图 突出内容词的共指提及(coreferential mentions),但是这并不能带来进一步的收益。
  Self-Assessment
  我们探索生成问题的其他方法。 例如,我们使用来自SQuAD的Wikipedia文章(Rajpurkar et al., 2016),而不是来自end task RACE的一般域文档。按照第3.4节中提到的相同步骤,我们生成的问题数量与使用RACE生成的问题数量相同。 实验表明,该方法还提高了微调GPT基线的精度(59:7% vs. 58:7%)。由于自我评价在某种程度上可以被看作是一种数据增强方法,我们研究了其他非监督问题生成方法,如 句子变换 和 反译释义 (Ding and Zhou, 2018;Yu等,2018)。我们的实验表明,这两种方法都不能提高RACE数据集的性能。
  4.4 Adaptation to Other Non-Extractive Machine Reading Comprehension Tasks
  我们遵循的理念是将知识从对源任务的大规模监督数据进行预处理的高性能模型转移到只有少量训练数据的目标任务(Chung et al., 2018)。RACE用于为其他MRC任务预训练模型,因为它收录
了最多的一般领域非抽取问题(表1)(Ostermann et al.2018;王2018年)。在我们的实验中,我们也将RACE作为源任务,并将六个具有代表性的来自多个领域的非抽取的多选题MRC数据集作为目标任务。虑到这些数据集的不同结构,我们需要一些特定于任务的修改。在ARC和OpenBookQA中,没有与每个问题相关的参考文档。相反,它提供了一个参考语料库,由与问题相关的无序的科学相关句子组成。因此,我们首先使用Lucene (McCandless et al., 2010)通过在一个 问题中使用 不间断(non-stop)的单词及其每个答案选项作为查询来检索前50个句子。 检索到的句子用于形成每个答案选项的参考文档。MultiRC数据集中一个问题可以有多个正确答案选项。因此,我们在最后一层使用sigmoid函数代替softmax(图1),并将任务视为二进制(对错)即每个(文档、问题、答案选项)实例的分类问题.当我们将我们的方法应用于非传统的MRC数据集ROCStories时,它的目标是从两个答案选项中选择一个四句话不完整的故事的正确结尾(Mostafazadeh等人, ,由于没有提供明确的问题,我们将问题上下文留空。由于MultiRC数据集的测试集不可公开使用,我们报告了在开发集上获得最高微平均F1 (F1a)的模型的性能。对于其他任务,我们选择在开发集上达到最高精度的模型,并报告在测试集上的精度 。
  我们首先使用我们提出的关于RACE 的三种策略对GPT进行微调,然后对 六个目标任务之一的结果模型 进行进一步的微调(参见表3)。在后一个微调阶段,除了继承前一个微调阶段的突出嵌入外,我们还采用了前后阅读的策略,由于模型已经在第一个微调阶段从高质量的RACE数据集中的实例中获益,所以我们没有考虑自我评估策略。
  我们将首先对RACE数据集上面进行微调,然后在不使用策略的情况下对目标任务进行微调的基线进行比较,这些基线已经在6个数据集中的4个(OpenBookQA, semevall -2018任务11、ROCStories 和 MultiRC))上超过了之前的最先进(SOTA)。通过使用这些策略,我们获得了比集成基线(58:5%)平均准确度提高了7:8%的绝对准确度,比以前的SOTA(60:1%)提高了6:2%的绝对准确度。为了进一步研究这些策略的作用,我们直接对目标任务进行GPT微调,而不使用RACE中的标记数据(即与未使用策略进行微调的基线(54:6%)相比,我们获得了平均准确率10 . 4%的相对提高(60:3%),尤其是在数据集ARC、OpenBookQA和MCTest上的较大改进(表4)。
  5 Related Work
  5.1 Methods for Multiple-Choice Machine Reading Comprehension|
  我们主要讨论应用于大规模数据集的方法,如RACE (Lai等,2017)。研究人员开发了多种具有注意机制的方法(Chen et al., 2016;Dhingra等,2017;徐等,2018;Tay等2018;Tang等2019年)进行改进,如添加消除模块(Parikh等人2018)或应用分层注意策略(Zhu等人2018;王等,2018b)。这些方法很少考虑丰富的外部知识(除了预先训练好的单词嵌入)。相反,我们基于现有的预训练tr 查看全部

  总结:RACE数据集上各个模型文章的笔记
  问师兄一些问题,他说让我可以关注这个数据集寻找答案。。。。今天的服务器真卡,真的没办法跑数据,所以就先写文章笔记。量子语言模型是真的牛逼,听着很牛逼,但是结果e被问了好多回答不了的问题。
  先多写几篇吧,等后面这些文章都写了笔记之后再一起按照排名整理。
  RACE数据集的简介:
  1. 中国中考、高考试卷阅读理解,其中年龄为12-18岁的学生,与之前的数据集不大相同
  2 .总共有 27933 Passages, 97687 Questions,每篇文章差不多 3-5个问题。
  3. 对于推理要求较高,比例较大,有 对于【文章的总结】 和 【态度分析】之类的推理问题,其他数据集基本没有。
  4. 推理类型比较多,总共有5类。
  5.评价方式为准确率
  6. 问题和答案 不仅仅是简单的对于原文词语的重复,很可能是原文词语的其他表达等等。
  7. 5种推理类型:
  1) Detail reasoning(细节推理)---文章细节,但不是简单匹配
  2) Whole-picture reasoning(全局推理)--需读懂全文才可以回答
  3) Passage summarization (文章总结)---1/4文章的摘要
  4) Attitude analysis(态度分析)---作者或者原文对于事情的态度
  5) World knowledge(世界外部知识)---常见此类问题涉及简单的 算术计算。
  Figure1:一个数据集的例子
  Figure2: 数据集划分比例
  数据集中长度统计
  数据集的统计信息以及推理分布
  ACC分析
  按照推理类型分布
  1.DCMN----
  2.OCN--|
  3.Bert_Large
  4.Reading Strategies Model
  5。Hierachical Attention Flow
  好了这周已经安排满了,下周也快满了,下周和公司的会议又要开了,又要赶东西了-----
  1. DCMN__
  【分类】---【MRC】---多选题---RACE
  一。RACE数据集介绍:
  初中、高中英语阅读理解的文章,多选题,其中要做出选择需要能够做推理等等。
  二。摘要:
  多选择题阅读理解是一项具有挑战性的任务,需要复杂的推理过程。 给定文章和问题,需要从一组候选答案中选择一个正确的答案。 【贡献】--本文中提出了 Dual Co-Matching Network (DCMN)--协同匹配网络来双向建模问答关系的网络。 【特别之处】--与现有方法模型的不同之处: 我们同时计算 passage-aware question representation and passage-aware answer representation ,以前只是计算问题感知文章,或者答案感知文章。 【结果】---RACE数据集上面取得了最先进的结果
  1. Introduction
  MRC对于AI而言很有意义,但是现在的阅读理解任务大多集中在浅层的QA任务上面,这些问题可以通过现有的检索技术有效的解决,例如 SQuAD和NewsQA(好像目前都已经超过人类水平了)---简单说,就是之前的太简单了,在我这里不行。这种MRC就是给定一个文档和问题,然后预期的答案是来自于文档中的短距离跨度(short span)。 问题上下文一般收录
足够的信息来识别收录
问答对的证据句子。 SQuAD中90.2的问题可以由文章中一句话回答。 即使在一些一对多回合会话QA任务中,现有的模型也是基于检索的,也就是说之前的都是检索匹配都太简单了。
  【贡献--难度】---
  本文主要的RACE数据集,每个问题都有一组答案,大多数问题的正确答案不可能出现在原文中,这使得很有挑战性,并允许出现丰富的问题类型,比如 短文总结,态度分析等等(匹配是解决不了的--)。 这就需要对于单个文档有更深入的理解,并利用外界知识来回答这些问题。 【另外】此外,与传统的MRC比较,我们需要考虑: passage-question-abswer三元组而不像之前的 passage-question pairwise 的匹配
  【自己的工作/贡献】
  提出DCMN,双向的match question-answer to given passage . 使用了Bert最后一层隐层向量对应的第一个input token(【cls】)被用作聚合表示【00001】,然后利用分类层计算标准分类损失【00002】.作者认为这种方法过于粗糙,无法处理 passage-question-answer triplet,因为他只是粗略的将 短文和问句 作为第一个序列串联起来,然后使用问句作为第二个序列,而没有考虑文章和问句之间的关系。 所以,我们提出了一种新的方法来建模 文章、问题、候选答案之间的关系
  【自己做法】
  首先作者使用 Bert作为编码层分别去获得 文章的上下文表示、问题的上下文表示、答案的上下文表示。 然后利用得到的这三个东西构造匹配层,得到 passage-question-answer的三元组匹配表示,这个匹配表示编码了问题在文章中的位置信息,以及候选答案关于文章中的特殊的context.最后,我们在匹配表示层上面使用 层次聚合的方法(Hierarchical aggregation),从word-leval 到 document-level ,然后从 sequence level 到 document level。 模型在bert-base 以及 bert-large的soat的模型上效果分别提升2.6 /3个点。
  【模型】---
  论文使用目前 NLP 最新的研究成果 BERT 分别为 P 和 Q 中的每一个 Token 进行编码。基于 BERT 的编码,可以得到的编码是一个收录
了 P 和 Q 中各自上下文信息的编码,而不是一个固定的静态编码,如上图中 Hp 与 Hq;
  其次,通过 Attention 的方式,实现 P 和 Q 的匹配。具体来讲,构建 P 中的每一个 Token 在 Q 中的 Attendances,即 Question-Aware 的 Passage,如上图中 Mp。这样得到的每一个 P 的 Token 编码收录
了与 Question 的匹配信息;
  为了充分利用 BERT 带来的上下文信息,以及 P 与 Q 匹配后的信息,将 P 中每个 Token 的 BERT 编码 Hp 与 P 中每个 Token 与 Q 匹配后的编码 Mp 进行融合,对 Hp 和 Mp 进行了元素减法及乘法操作,通过一个激活函数,得到了 P 与 Q 的最终融合表示,图中表示为 Spq;最后通过 maxpooling 操作得到 Cpq l 维向量用于最后的 loss 计算。
  2. 各种匹配策略研究
  除了 P 与 A 之间的匹配,还可以有 Q 与 A、P 与 Q 之间的匹配,以及不同匹配得到的匹配向量间的组合,这些不同的匹配与组合构成了不同的匹配策略。对七种不同的匹配策略分别进行试验,以找到更加合适的匹配策略,分别是:[P_Q; P_A; Q_A], [P_Q; P_A], [P_Q; Q_A], [P_A; Q_A], [PQ_A], [P_QA], [PA_Q]「PA」表示先将 P 和 A 连接为一个序列,再参与匹配,「PQ」与「QA」同理。符号「[ ; ]」表示将多种匹配的结果组合在一起。[P_Q; P_A; Q_A] 模式下的模型架构如下图:
  7 种不同策略通过试验,采用 PQ_A 的匹配策略,即先将 P 与 Q 连接,然后与 A 匹配,无论是在初中题目 (RACE-M)、高中题目 (RACE-H) 还是整体 (RACE),该策略都得到了更优的结果。
  在多选题MRC任务中,机器会给出一篇文章,一个问题和一组候选答案。 目的是从候选答案中选出正确答案。对于每个候选答案,模型构造了一个 问题感知的段落表示(question-aware passage representation) ,answer-aware passage representation question-aware answer representation(原文中是不是写错了). 在一个 max-pooling 层之后,这三个表示被连接起来作为候选答案的最终表示。然后使用所有候选答案的表示形式进行答案选择。
  2.1 介绍 the encoding mechanism
  2.2 介绍 the calculation procedure of the matching representation between the passage, the question and the candidate answer
  2.3 介绍 the aggregation method and the objective function.
  2.1 Encoding layer
  该层将文章和问题中的每个标记编码为一个固定长度的向量,包括 word embedding 和 contextualized embedding.使用bert的最终的隐藏状态作为 模型的最终embedding。 【说明】--在原创
的bert论文中,处理多选择问题的过程中是使用 与第一个输入令牌【cls】对应的最终隐藏状态作为文章、问题、候选答案的聚合表示,作者认为这种方法过于简单和粗糙。所以作者将文章、问题、候选答案分别编码为:
  2. Matching layer
  为了充分挖掘{P,Q,a}三元组中的信息,作者充分利用了注意力机制,得到了 文章和答案之间的双向聚合表示,同理也使用这种方法得到了 问题和文章之间的 双向聚合表示。 文章与答案之间的注意向量计算如下:
  2.3 Aggregation layer
  为了得到每个候选答案的最终表示,Sp和Sa在行方向上的max-pooling操作。
  3. 实验
  评估结果在RACE数据集上面,其中收录
两个子集,RACE-H来自高中考试,RACE-M来自初中考试。 RACE是两者的结合。将自己的模型和其他模型比较,也和Bert_base 和 bert_large 进行比较。 bert的base使用的就是原文中的使用最后一层的第一个token【cls】作为聚合表示。结果就是 bert_base 以及 bert_large都是好于之前的最好模型,而我们的模型又是好于这两者的。
  4.总结
  提出DCMN,双向建模 passage、question、候选answer之间的关系。通过结合bert,模型在race数据集上面有一个很高的结果。
  【注意】--我觉得本篇文章值得学习的点就是 做了一个匹配的多次尝试,至于中间的计算公式有必要去看一下他文章中提到的那篇文章证明的那个公式计算匹配的得到的效果会比较好。
  二.OCN
  OCN---选择比较网络
  多项选择题阅读理解(MCRC)是在给定文章和问题的多个选项中选择正确答案的任务。 现有的MCRC模型要么独立读取每个选项,要么在比较每个选项之前计算每个选项的固定长度表示。 然而,在详细阅读文本之前,人们常常会在多粒度级别(multiple-granularity)比较候选项,以提高推理的效率。 模拟人类,我们提出了一个选项比较网络(OCN)---MCRC,在词级别(word-level)比较候选项以至于更好的识别他们之间的相关性从而帮助进行推理。特别的,每个选项都使用一个略读器(skimmer)编码成一个向量序列,以尽可能的保持细粒度信息(fine-grained information).使用注意力机制来进行向量序列之间的逐个比较(sequences vector-by-vector),来识别他们之间的微妙关系,这对于推理而言可能是有价值的,。
  【效果】结果明显优于现在的模型,也是第一个超越亚马逊 Turker的模型。
  Intorduction
  MCRC的目的是从一组给定问题和文章的选项中选择正确答案。 作为MCRC既需要对于自然语言的理解,也需要对世界知识的理解,才能将正确答案和感染选项区分开来。 这对于机器来说是一个挑战,也是人工智能的一个良好测试平台。
  随着深度学习的快速发展,近年来针对MCRC提出了很多模型,取得很好的效果。在阅读理解之前比较选项是人类在解决MCRC问题时常用的策略。 通过对于选项之间的比较,可以识别出选项之间的相关性,人们在阅读文章时候只需要注意与相关性相关的信息。 因此,问题可以得到更有效的回答。通过比较选项B和D,人们可能会发现,问题答案的关键区别在于:作者是否愿意参观工厂,这可以通过浏览文章很容易的解决。然而,大多数现有的MCRC方法并没有采用该策略。 Stanford AR(2016)and GA Reader(2017)编码独立于选项的问题和文章,忽略了他们之间的相关性。 2018和2019--MCMN使用复杂的匹配机制来采集
信息,2018还有一个利用预先训练好的语言模型来提出信息。然而,他们都没有明确的考虑选项之间的相关性。 据我们所知,2018--Hierarchical attention flow for multiple-choice reading comprehension.是唯一明确考虑选项之间的相关性的研究。 然而,在进行比较之前,这些选项被压缩成固定长度的向量,这可能使得模型很难识别选项之间的细微差别或者相似性。
  为了更有效的采集
选项相关信息,我们提出了一种选项比较网络(OCN),他可以在单次级别显式的比较选项,从而模拟上述人工策略。
  【特别的】我们首先使用略读器网络(skimmer network将选项独立的编码成向量序列作为他们的特征----就是不混合上下文,希望得到他们之间原创
的细微差别》
  【然后】对于每个选项在向量空间中使用基于attention机制,在单词级别逐个的与其他选项进行比较,来确定他们之间的相关性。
  【最后】将采集
到的相关信息进行重读做推理(reread to reasoning)然后选择正确的答案。 通过选项在单词级别的比较,我们可以使得模型更容易的检测选项之间的细微差别。使用基于Bert的略读器,我们的方法在RACE数据集上面超过现sota.
  2. OCN---Option Comparison Network
  符号定义:
  Q:question P: passage O:选项1.2.3
  任务:给定Q--P,选出 O----
  模型分四个阶段从候选答案集中选择正确的答案。
  2.1 首先将每个(article,question,option)三元组连接成一个序列,并使用一个略读器将他们编码成向量序列。
  2.2 使用attention机制去比较选项
  2.3 使用上一个阶段采集
的相关信息,作为额外输入重新阅读。
  2.4 最后计算每个选项正确答案的概率。
  2.1 Option Feature Extraction
  一个略读器网络用于独立略读 选项、问题、文章以提取选项的特征。
  Bert已经被证明是一个功能强大的特征提取器。特别的,选项O_k和问题Q和文章P连接在一起,定义为:
  。然后这个序列反馈给Bert计算他们的向量空间编码
  定义为------------------
  2.2 Option Correlation Features Extraction
  这个模块用于word级别比较选项,提取选项相关信息用作推理。 对于每个选项,使用attention机制去对比它和所有其他的选项
  来采集
相关信息。
  公式-------
  选项相关特征的提取分为以下三个步骤:
  首先,将一个选项与所有其他三个选项逐一进行比较,以采集
成对的相关信息。 特别的,对于选项 O_k,信息-----收取通过如下方式:
  ------------
  然后将为每个选项采集
的两两相关信息进行融合,得到选项之间的相关信息,可以被定义为:
  ----------
  最后,通过元素 gating机制将 选项特征与选项关联信息进行融合, 生成选项关联特征。 门控机制定义:——————————
  2.3文章阅读
  模仿人类,本文将以 选项相关特性作为 额外输入重新阅读,已获得更深入的理解。 特别的采用: co-attention(2017)和self-attention机制进行重读。
  首先,对于每个选项 O_k,co-attention 定义为:
  最终的整个选项表示的计算公式:
  ————————————————
  2.4 Answer Prediction
  2.4.1 计算选项O_k,作为正确答案的得分:
  最终的概率:
  损失函数:
  3. 实验
  3.1 Dataset
  RACE数据集,RACE-M,初中英语考试RACE-H,高中英语考试由于文章、问题、选项是由英语教师生成的,用于评估人类的阅读理解能力,所以数据集比SQuAD本质上来说更加困难。数据集中有59.2的问题需要推理,这明显高于SQuAD。最常用的推理技能是 ------ 细节推理、whole-picture understanding,passage summarization、态度分析和世界知识。 因此,对于模型来说,RACE是非常具有挑战性的MCRC的数据集。
  3.2 Training Details
  optimizer: Adam
  Bert_Base
  epochs:3
  batch_size:12
  lr:3*10**-5
  Bert_Large
  5
  24
  1.5
  L2--II---0.01
  文章:400
  问题:30
  选项:16
  
  3.3 实验结果
  -------我觉得并不怎么work,完全就是 bert在起作用。
  好吧,RACE数据集上面有很多需要推理的技能,但是所谓的这些很多之处都还是通过匹配或者更精细,变着花样的匹配来实现的,作者在文章中说道相信自己的模型学到了推理,还diss人家mcmn模型使用了复杂的匹配过程,再看看自己的计算过程比那个复杂多了,而且通过消融实验我也没有看见作者所谓的 考虑问题之间的联系帮助最后选择正确的答案。
  首先,我觉得作者的思路是正确的,因为说实话----如果我们可以立马判断出来两个答案之间的关系,比如同意,反义或者收录
的关系,其实对于最后的选择答案就会容易很多,最起码对于人而言是这样的,但是这个工作我觉得并不work的主要原因有以下:
  1.作者想希望这种方式快速、并且高效(正确率高)的方式来做阅读理解,可能是作者设计的函数或者计算选项之间关系没有设计好,这本质上和直接拿 问题和答案与 文章进行计算相似度求答案没有区别,无非就是本文加了一个选项之间的关系,那又怎么样呢,希望通过这个关系告诉机器哪些情况下是对的?最起码的日常经验---如果两个答案是反义的那么他们之间有一个正确的概率比较大这一点都没有实现吧。 如果真的要计算这一点是不是最后选择答案的时候给他们两个匹配最后的分数的权重是不是高一些,但是这首先需要标注预料来指导进行,其实我觉得可以试试通过无监督的方法或者迁移学习的方法来做这一步,相当于一个额外的知识参与到最后的决策。 其实类比自己做阅读理解好像就是这样,会一定程度考虑答案之间的关系,排除法之类的也都会使用。
  2.可以很明显看见确实---RACE数据集其中是收录
很多需要推理的地方,这很容易向我们怀念曾经做过的英语考试阅读理解。 什么是推理呢?这是一个值得思考的问题,可能匹配是推理构成中的很大一部分吧。 对比人类的推理,计算机的优势在于一方面可以认为他掌握所有的词汇这个是人类做不到的,说实话当年我要所有的单词都认识,现在------另一方面,是计算机超强的匹配能力,不仅仅指的是他可以将同义词,反义词等都可以识别出来(虽然我觉得bert也不可以,分布式假设的通病)还有一点是计算机的记忆能力可以记住所有的匹配到相关的问题知识,所以现在检索式阅读理解我个人认为的重点是 怎样将计算机的这两个优点极大的利用。 而人类不同于机器的优点在于:可以结合常识做出推理,这种推理是高级别的,常识可能不仅仅包括日常知识,还有之前的经验等。人类可以很自然的机型推理,但是对于神经网络而言推理是一件很困难的事情,有专门的数据集和任务去做这些事情,如果可以通过无监督或者其他方法可以把这些外部的对于做阅读理解而言很重要的事情添加进来,我觉得最后的实验效果会好很多。
  Hierachical Attention Flow:
  暂时还没有找到关于本篇文章的笔记,后面等看见就更新吧,写了自己的笔记之后再看看
  别人的笔记真的会神清气爽。-----
  Abstract
  【贡献】--对于多项选择题QA,【1】提出了层次注意流机制,以充分利用选项 候选选项、问题、和文章之间的交互(Interaction). 作者注意到,利用候选选项来促进文章中搜集证据在MRC任务中起着至关重要的作用。但是在以前的工作中被忽略了。 此外,【2】我们还显式的建立了选项和注意力机制的关联模型,以获取更好的选项表示形式,并将其进一步送入双线性层中以获取每个选项的排名分数。在RACE数据集上面取得了很好的效果。
  Introdunction
  在本文中,我们研究了多项选择题阅读理解,每个问题都有四个选项,其中只有一个是正确的。M-MRC的特点:不限制答案精确匹配给出的文章的范围,相反,候选选项是人工生成的句子,这些句子可能不会出现在文章中。 RACE 和 MCTest都是多项选择题的数据集。 2016--使用Cnn构建具有注意力机制的不同层次的表示。 2016--提出使用分层结构从多个平行的角度进行匹配(这个看起来真的挺有意思的),在MCTest数据集上面使用一种训练技术。等等 其他工作-----具体来说,模型只利用问题采集
和总结文章证据,然后进行证据和候选选项之间的匹配。
  受到2016年那两篇文章的启发,我么提出了基于神经网络的分层注意流,充分利用候选选项来建立文章、问题、候选选项之间的单次级和句子级的交互。 【结构】---注意流按照以下层顺序组织。 首先,使用BiRNN分别对文章中的句子、问题候选答案进行编码。 然后单词级别注意层构建 问题感知(question-aware)文章和感知候选项的表示。【接下来】句子上下文编码器使用BiRNN对 文章句子进行上下文建模。(就是是文章变为收录
问题信息的上下文编码)。 【然后】---句子级别的注意力层采集
文章中与 问题和候选项相关的证据,【2】并且为更好的选项表示建立选项关联模型。 【最后】---线性层计算每个选项的排名分数。
  主要介绍三方面的主要贡献:
  1. 首先,我们建议使用候选选项从文章中采集
证据。 2017---中只是使用问题在文章中搜集证据。 而在多项选择题阅读理解中,问题有时候信息不够丰富,不够清晰,不足以指导采集
证据。 特别是对于那些有空格或者关于一般目的的问题,仅仅凭问题采集
部分的证据就可能导致模型做出错误的预测。 候选选项可以提供额外的信息来澄清问题的意图。 因此我们是用问题感知选项表示来增强模型中的问题采集
。 这样,模型除了 利用问题信息之外,还利用候选选项信息来采集
更充分的证据来区分选项和干扰答案。
  2.为了进一步挖掘候选选项,我们利用之前工作中忽略的【选项相关性】作为原创
独立选项表示的附加信息。 以前的工作中关于多项选择题每个选项独立得分。 我们比较各个选项建模他们之间的相关性。 关联被编码成一个具有句子层级注意的向量表示,然后连接到独立的选项表示。 (上面的几篇文章也考虑到了这一点,不过做法或者使用的阶段不一样,说白了这里的方法就是 还是问题--文章之间建立感知,然后问题-候选项之间建立感知,然后对于问题-文章的感知再进行一遍RNN,得到最终的O2P,然后和之前的Q2O进行匹配感知,只是另外的将 Q-O对于各个选项再进行一次相关性计算,然后使用这个约束参与最终的答案选择---和前面提到的方法真的基本没什么区别----)。 因此,我们提出的模型在考虑其他选项的情况下对于每个选项进行评分。
  3.在RACE数据集上进行测试,效果达到了最好。
  Model
  按照之前的模型图中自左至右,从下往上的顺序进行介绍模型的各个模块。
  Word Context Encoder
  Attention Flow
  模型中,采用两个组件之间的交互来强调和组织相关的关系。 每一次交互都使用同样的注意力机制。
  Attention Mechanism
  Question-to-Passage (Q2P)Word-level Atteention
  句子中的单词并不是同等重要的,其中的意义可能会随着问题的变化变化。 为了得到文章句子的向量表示,我们将问句question中的每个单词向量表示应用到文章中的第i个句子中的每个单词。 我们使用Quetion BiGRU的每一步的输出而不是上一步的输出(2017)。 然后就得到了 文章中句子级别的每个句子的 问题感知表示(Question-aware)
  Question-to-Option (Q2O)Word-level Attention
  2017--等人使用GRU的最后一个隐藏状态作为候选、生成问题的自由向量表示。 而选项的意思和问题结合起来更容易理解。 因此,我们结合问题信息 将选项的单词表示形式组合成一个固定大小的向量,并在单次级别使用注意力机制。同样得到第i个候选项问题感知的形式(Question-aware)
  Sentence Context Encoder
  Sentence Context Encoder
  文章中句子的顺序很重要,就像句子中单词的顺序一样。 但我们并行处理文章中的句子,生成上下文无关的句子表示形式ViP. 为了对句子上下文进行编码,类似于单词上下文建模,我们在ViP上面 应用了另一个GRU。 句子的上下文编码到:
  Option-to-Passage (O2P) Sentence-level Attention 在阅读理解任务中,文章一般收录
大量的事件、地点等信息。 当一个文章涉及某一方面时,文章中不相关的部分可能是冗余和噪声。 为了避免冗余信息的负面影响,2017--等奖整篇文章总结为一个单一的向量作为 证据,并对文章中注意事项提出质疑。 这是一种流行的cloze-style阅读理解模型。
  在我们的模型中,利用问题感知的候选选项表示Q2O得到的结果,利用【句子层次上的注意力机制】,提高了从段落句子中采集
证据的能力。 在注意力计算过程中,每个候选选项对于其对应的句子赋予更高的权重(这样我觉得不行,注意力的计算仅仅可能是单词级别的关联比较机制,可能没有理解文章中句子的语义等信息,这样到最后的计算就成了问题-候选项 和 文章中句子注意力机制的得分的比较,这样是不是很容易将原文中和问题中出现比较相似或者原文重复的句子作为最终的答案,而问题在这个部分中起到的作用将会被削弱很多),然后,我们对于每个段落句子分配的权重进行平均得到最终的 文章中每个句子对于问题-候选句子的权重。 不同于以往的工作,我们隐式的纳入了问题信息,这是由Q2Oword-level attention编码带来的效果。。 最后,候选选项连同问题,将证据总结为一个固定大小的向量:
  Option Correlations
  候选选项的表示由Q2O word attention 得到,他是对于问题感知的。 但是这种 表示独立于其他选项,并且不会对选项之间的比较信息进行编码。 为了建立 选项之间的相关性,我们将候选选项和注意力机制进行了比较。 在将选项与自身进行比较的情况下,我们将注意力权重矩阵的对角线设置为0(去除自己的权重)。 Si,j表示第j个选项和第i个选项的相关性得分,不需要像以前那样进行合并操作。 灵感来自于chen2017-----需要看一下这篇文章。 我们建模选项之间的相关性通过求差的方式,然后连接到 独立选项表示增强。
  Answer Prediction
  和2017--一样使用双线性函数和正确概率Pi计算归纳证据,,,,得到最后的匹配得分。
  训练:最小化-log概率。
  Experiments
  Dataset
  RACE共收录
27,933篇文章和97,687个问题,其中5%为开发集,5%为测试集。
  数据集划分
  文章、句子、候选的平均长度和句子数量
  Implementation Details
  RACE放在一起训练测试。分词--
  训练细节----
  Ablation Study
  去掉 --Sentence
  验证段落句子归纳对于上下文编码的影响---
  2. 去掉 O2P Attention:
  像2017--那样使用问题去代替问题-选项去搜索证据。 证明了问题-选项结合在一起的重要性。
  3.去掉 Option Corrections
  验证选项之间的关联性学习确实是有效果的。
  Discussion
  Evidence Gathering and Option Correlations
  为了研究 候选选项如何从文章中采集
证据,我们可视化了 O2P注意中的注意权重矩阵。
  较深的颜色代表较高的权重。 注意权重矩阵表明,与每个选项相关的证据在passage中分散分布。
  段落句子的集中注意力权重尽可能多的总结必要的信息。 但是问题是可能会遗漏关键的证据,特别是对于不收录
明显指示性词语或者短语的问题,就像上面图中的第二个问题一样。 只有与候选选项结合,模型才能得到 提示,来采集
证据,从而强调句子的重点“state, money, recycling, landfill, disposal, raw material”。
  选项关系相关性在某些情况下也很有用。 在上面的图中第一个问题为例子。 没有相关性的模型选择了得分高于C的错误选项A。 通过引入 选项之间的相关性,模型选择了 得分极高的正确选项C,得分为:0.987。
  Top-N Accuracy
  为了进一步调查我们的模型总体精度之外,我们还统计分析--排名得分--的发展。由于每个问题的答案对应于只有一个正确答案,我们取 正确答案的的前N个排名,并相应的计算准确性(Acc@)。 acc@2:70.2 acc@3 :87.2。 对于随机猜测期望的领先从另一个角度说明了我们提出模型的有效性,并揭示了通过ranking可以进行潜在改进。
  Difficulty Gap between RACE-M and RACE-H
  RACE-M:中学RACE-H:高中
  两者的差异主要体现在 文章长度、问题和候选的长度M都较短,M词汇量小于H。
  词汇差不多都是收录
词汇表。 以上这些影响了最后的结果的不同。
  Related Work
  Large-scale Datasets
  大规模数据集促进了阅读理解研究的重大进展。根据答案是否限制在引用段落的精确匹配范围内,我们可以将现有数据集分为两类.
  CNN/Daily Mail (Hermann et al. 2015), Childrens Book Test (CBT) (Hill et al. 2016) and Who Did What (WDW)(Onishi et al. 2016) 是自动生成的 clozestyle 大规模数据集,答案通常是文章中的一个词(通常是一个命名实体)。
  SQuAD(Rajpurkar et al. 2016)------答案是span
  RACE(Lai et al. 2017) and MS MARCO (Nguyen et al. 2016)---------答案肯能不会出现在原文中。这与人类的阅读理解最接近。 此外RACE是一个多选题数据集,答案是四个选项中的一个。
  Multiple-choice Reading Comprehension
  多选题是语言考试中常见的题目。 MCTest多选---难度仅限于7岁儿童。
  RACE数据集: 与MCTest数据集格式差不多,但是难度更高,28000文章,100000问题组成,转为12--18岁中国孩子设计的英语考试。
  Hierarchical Structure
  阅读理解模型中,把文章处理成为一个长序列是一种常用的方法,只有少数模型中收录
了文章结构。 2016(Schutze)---构建并结合了句子级别和相邻句子级别的模型。但是时间关系没有在任何层次上进行建模。 2016(Trischler)---等人采用层次结构来建模比较 段落--问题--候选,并使用基于位置的权重对于顺序信息进行建模。 2017(zhang)--结合句法信息来探索更好的理解和适应,但是仅仅局限于 问题。 2017(xie and xing)---利用句法信息对问句和文章进行编码,然后他们使用RNN在句子表示得到 基础 上对于文章进行编码。 我们将文章的层次结构引入到交互模型中,并在单次级别和句子级别使用RNN对于时态上下文进行建模。
  Attention Mechanisms in Reading Comprehension Models
  注意力机制在之前很多模型中都用到了。 主要被用来 【模拟交互和预测答案】。
  2015-2016使用单个问题向量来总结文章,不是使用单个向量来表示问题。
  2016-2017 利用问题中的每一个单词和文章进行交互。
  2017--问题中的单词在对文章进行RNN的时候每一个步骤时间点都进行 与 文章中的单词进对齐。
  2017(Socher)--问题和文章之间的注意力是双向计算的。
  不管问题和文章之间的注意力,2017--提出了自我匹配机制来匹配段落本身。
  2017(Dhingra)--提出门控--注意力机制 通过多跳(mutil-hop)来选择单个问题的相关段落。
  2016(Sordoni)--交替计算短文和问题之间的注意力。
  2017(Shen)--进一步使用强化学习动态确定迭代步骤。
  当涉及到答案的预测的时候,受到2015(Vin)--2016(Kadlec)等的启发 直接以注意力作为指针,预测填空式阅读理解的答案。
  2016(Sorddon)--2017(Cui)--2017(Dhingra)随后在答案预测层中采用了相同的方法。
  2017(Wang)等利用注意力机制来产生 答案相关的span的边界。 这对于 SQuA数据集来说是一个有效和主流的模型配置(设置)。
  2017(Socher)提出了动态指针解码器(Dynamic pointing decoder),使用迭代的方法生成answer的边界。
  2017(Lai)等利用双线性函数在RACE数据集上面计算每个选项的匹配得分。
  Conclusion and Future Work
  本文提出了选择题阅读理解的分层注意流。文章、问题和候选选项通过不同层次的注意力相互作用。
  为了充分利用候选选项,我们将选项合并到一起,用来增强证据采集
和增强具有相关性的选项表示,这在以前的工作中没有做过【---】。
  结果还可以--
  最后作者认为:句法和篇章关系可以作为附加结构作为补充信息。
  在未来的工作中,作者希望通过结合 句法信息或者话语关系来进一步探索篇章结构来获取更好的表达。
  【说实话自己觉得这篇文章】比之前的两篇文章更有价值更有意义,不管是文章的编辑还是文章关于RACE数据集的做法。
  【Improving Question Answering with External Knowledge】---------
  Abstract
  先验背景知识是人类阅读和理解的基础。 作者本文中,研究如何使用外部知识来提高问题的回答(QA)。主要关注多项选择题,这需要外部知识来回答。 研究了利用【外部域内】(external in-domain)选择题回答的数据集,并且利用【外部域外语料库】丰富参考语料库。实验结果表明,在ARC和OpenBookQA这两个具有挑战性的选择题答题任务上,外部知识是有效的。
  1. Introduction
  外部知识在人类阅读和理解中起着至关重要的作用,因为作者假定读者从文本之外的来源获得了一定数量的背景知识--2013;
  越来越多的研究集中在 多选MRC的模型构建--2016-2019;或者问答的任务--2018;
  对于MRC任务而言,大多数问题依然是根据所提供的参考文献内容设计的可回答的。 本文中,我们主要关注多项选择题QA任务:
  只提供一个参考语料库,我们需要使用不同类型的知识去选择正确的候选选项--2018.
  如何利用外部知识来进行多项选择题的回答,以填补人与机器之间的知识鸿沟,仍然是一个有待解决的问题。
  近期的研究(2017-2018)都是通过先 预训练深度神经模型在大规模的语料库上面使用语言模型预训练LSTMs,Transforms.
  通过在下游任务上对这些预先训练的模型进行微调,我们已经看到在广泛的自然语言处理任务上取得了显著的改进;
  然而,在预训练阶段引入外部知识相对耗时、资源广泛性较强。
  本文旨在利用外部知识,在微调(fine-tuning)阶段提高多项选择题的正确率。我们研究了两方面的影响:
  1)利用外部域内(in-domain)Q-A数据集增强训练数据。
  2)基于问题和答案选项的实体发现和链接,从外部开放域(open-domain)中检索额外的知识,来丰富参考语料库。
  我们使用了Bert作为基本QA模型在从考试中采集
的两个具有挑战性的ARC和OpenBookQA数据集上做了初步的实验。实验结果表明,利用外部知识可以获得较好的实验效果。
  2.Method
  2.1 介绍作者使用的QA模型的baseline.
  2.2 --2.3 介绍使用两种方法引入 外部域内 和 开放域的知识。
  2.1 Basic Framework
  首先微调(fine-tuning)一个预训练语言模型在大型的多选MRC数据集RACE(Lai--2017)上面,然后对于目标 多选Q-A数据集上面对于结果模型进行微调(fine-tunning).在本文中使用bert作为预训练语言模型。
  给定问题q、答案选项o和参考文档d,我们用特殊的标记@和#将它们连接起来,作为输入序列BERT_large by @d#q#o#,其中@和#分别代表BERT中的[CLS]和[SEP]。我们在q (exclusive)之前将A嵌入到每个token中,并将B嵌入到其他token中。对于ARC和OpenBookQA中的实例,d来自Lucene (McCandless et al., 2010)从其对应的参考语料库中检索到的前50个句子的串联,以q和o中的不间断单词作为查询(Sun et al.,2018)。 每个问题的最终预测由一个线性加softmax层在每个输入序列的【第一个token的最终隐藏状态的输出】上得到。我们向读者推荐Devlin et al。Sun等人了解更多细节
  2.2 Utilization of In-Domain Data
  我们的基本框架包括两个阶段:在大型开放域机器阅读理解数据集(比如RACE)微调(fine-tuning)一个预训练的语言模型,然后在目标问题回答Q-A数据集上微调产生的神经阅读器(Reader),对于后一个步骤,我们没有对单个目标数据集上的神经阅读器进行微调(Sun et al., 2018),而是同时对多个目标数据集上的神经阅读器进行微调.
  【概述】先拿一个预训练的语言模型出来,然后在其他大型的域内的数据集上进行微调,然后再在目标数据集和域内数据集上面一起进行微调。
  
  2.3 Utilization of Open-Domain Data
  我们使用实体发现和链接(EDL)来帮助我们丰富参考文档。
  【Entity discovery】: 实体发现任务 就是从实体提及(mention)中提取实体的任务。大多数实体发现系统 使用的都是 预先定义好的类(person,位置等). 然而,在ARC和OpenbookQA中,绝大多数实体都来自于丰富的领域(e.g., “skin surface”,“oil”, “magnet”, and “iron”)。由于目前科学领域还没有一个强有力的系统,我们只是把所有的名词短语都看作是一个实体。
  【Entity Linking】:实体链接任务可分为两个子任务:【候选生成】和【实体消歧】。给定一组提取的实体提及M = {m1, m2,…,}我们首先对于每一个实体提及m生成一个候选实体的初始列表Em = {e1, e2,…, en},然后对每个实体进行排序,选择得分最高的候选实体作为合适的链接实体。
  采用基于字典的候选生成方法(Medelyan和Legg, 2008):
  其中m是一组锚点链接,其中m是相同的锚点文本,而Am_e是其中的子集;
  然后,根据三个指标对每个初始候选实体列表进行重新排序:【显著性、相似性和一致性------salience, similarity, and coherence 】(Pan et al., 2015)。
  【显著性】是通过使用Wikipedia锚链接计算的:
  其中A*e是一组指向实体e的锚点链接,A**其中的所有锚点链接的集合在维基百科中。
  【相似性】是指 mention-entity pair之间的上下文相似性。 我们采用了 一种神经网络模型,该模型可以从 Wikipedia中联合学习单词和实体(word and entity)的embedding。 对于每一个提及到的实体m,作者使用上下文中的每个单词(出去自己和停用词)的向量表示来构建它的上下文向量Vt的向量表示。使用Cos来计算实体提及和候选实体之间的相似性。
  【一致性】一致性是由这样一种假设驱动的:如果多个实体提及同时出现在一个句子中,那么它们的引用实体在知识库中更有可能是一致的。
  跟随黄(2017),构造加权无向图G = (E, D) 从KB中,其中E是KB中所有实体的集合,dij∈D表示两个实体ei和ej共享一些KB属性。
  dij, wij :
  其中pi、pj分别为ei和ej的KB属性集合。在构建知识图之后,我们利用Tang等人(2015)提出的图嵌入框架,为KB中的所有实体生成知识表示.两个实体之间的一致性coh(ei, ej)是利用这两个实体的向量表示之间的余弦相似性来建模的。
  给定一个实体提及m及其候选实体e,一致性得分定义为:
  其中Cm是对实体提及m的实体联合。
  最后,我们结合这些度量来计算每个实体候选e的最终得分。
  我们将上述EDL系统应用于所有【问题和候选答案】的文本中。对于每个已发现和链接的实体,其Wikipedia摘要将被提取并附加到每个(问题,答案选项)对的相应参考文档中。
  3 Experiments
  3.1 Datasets
  在我们的实验中,我们使用RACE (Lai等--2017),这是目前最大的多项选择MRC数据集,作为迁移学习的源任务。我们对我们的方法的性能进行了评估在ARC (Clark-2016, 2018)和OpenbookQA (Mihaylov2-018)数据集上面。。所有这些任务都是从人类专家为了QA精心设计的考试中采集
而来的,其中收录
大量需要外部知识才可以回答的问题。但是 人类和机器之间还是存在着巨大的性能差异。 下图展示了这些数据集的统计数据:
  3.2 Experimental Settings
  使用 预训练的 BERT_largr。
  batch_size: 24
  lr: 2e-5
  maxlen = 512.
  RACE --fine:5 epochs---------other 数据集 8 epochs
  下图展示了 RACE数据集中的BERT baseline
  3.3 Experimental Results
  由下图看出,在应用EDL以丰富每个问题的参考文档之后,所有任务的准确性都得到了提高。 文章中举了‘磁铁’的例子,说明有的答案只有通过wikipidia之后才会回答起来容易很多。
  在初步实验的基础上,通过微调发现很多多选MRC数据集的性能都有了提升。
  4 Related Work
  4.1 Question Answering
  近年来有很多数据集和模型推动了QA的发展。
  在数据集方面,作者的工作主要集中在 教育专家设计的 多选择题考试数据集(2017-lai,Clark2018,2018...2019....).,因此这些数据集都是 干净的、无错误的、具有挑战性的。
  在模型方面,作者遵循了 针对 Q-A任务 有区别的微调 预训练语言模型的一般框架。
  4.2 Utilization of External Knowledge
  以前的工作探索了 许多利用外部知识的方法。 wang-2018,Sun-2019利用常识的概念图(Speer-2017).
  Chen提出使用维基百科回答开放域Q-A的方法。
  Ni等人研究了使用 重要基本术语 改进信息检索。
  【作为对比--作者】提出了 通过利用 外部 域内 和外部开放域的知识,尤其是第一个工作中的使用EDL的方法,,来提升多项选择QA.
  5 Conclusion
  在本研究中,我们研究了利用域内的外部问题回答数据集和利用域外外部语料库来丰富参考语料库,从而改进问题回答。在ARC和OpenBookQA数据集上的初步实验结果证明了我们提出的方法的有效性
  Improving Machine Reading Comprehension with General Reading Strategies
  Abstract
  阅读策略已被证明可以提高理解水平,特别是对于缺乏足够的先验知识的读者。 正如人类读者的知识积累过程是一个耗时的过程一样,通过预培训将丰富的一般领域知识传授给一个深层的语言模型也是一个资源需求的过程。受认知科学中确定的阅读策略的启发,在有限的计算资源(只有一个预先训练的模型和固定数量的训练实例)下,我们提出了三个旨在提高非抽取式机器阅读理解(MRC)的一般策略:
  1) 反复阅读,认为原创
和倒序输入序列(BACK AND FORTH READING)
  2)高亮显示,这增加了可训练的嵌入的文本嵌入标记相关的问题和候选答案(HIGHLIGHTING)
  3)直接从文本以一种无监督的方式,自我评估产生实践问题和候选答(SELFASSESSMENT)
  使用作者提出的策略通过微调pre-trained语言模型(雷德福et al ., 2018),在大型多选MRMC的数据集RACE上面,比不使用作者提出的阅读策略微调预训练的模型ACC提升 5.8;
  我们进一步对目标MRC任务上的结果模型进行微调,从而得到了在不同领域绝对的改进在6个6个非抽取式的MRC数据集(即, ARC, OpenBookQA, MCTest,SemEval-2018 Task 11, ROCStories,和MultiRC)。这些结果证明了我们提出的策略的有效性和通用性。
  1 Introduction
  本文主要研究非萃取性MRC (Khashabi et al., 2018;Ostermann等,2018)其中,很大比例的候选答案不受参考文档或语料库 文本跨度的限制。
  与提取MRC任务(第2.1节)相比,非提取任务MRC (Section 2.2)要求不同的阅读技能,因此,机器阅读者在这些任务上的表现更准确地反映了机器阅读者在现实环境(如考试)中的理解能力。最近,通过对预先训练好的通用语言模型进行微调,许多自然语言处理任务都取得了重大进展,包括MRC (Radford et al., 2018;Devlin等,2018)。 然而,与人类读者的知识积累过程类似,通过预训练将大量的外部语料库中的一般领域知识传授给一个深层的语言模型,既费时又费力。
  从实践的角度出发,给出了有限的训练实例和预训练模型,我们能否在微调过程中提高机器阅读理解能力,而不是通过昂贵的预培训将更多的先验知识传授给模型?灵感来自认知科学研究中确定的阅读策略,这些策略已被证明在提高人类读者的理解水平方面有效,特别是那些对文本主题缺乏足够先验知识的读者。
  基于现有的预训练transformer(3.1节),我们提出了三种相应的领域无关策略来改进MRC:
  1)来回阅读(“我在文本中来回查找思想之间的关系”):考虑输入序列的原创
顺序和倒序(第3.2节)。
  2)突出显示(“我在文本中突出显示信息,以帮助我记住它。”):在文本中添加可训练的嵌入,嵌入那些被认为与问题和候选答案相关的标记(第3.3节)。
  3)自我评估(“我问自己一些问题,我想在文本中回答这个问题,然后检查一下我对文本的猜测是对还是错。”)从现有参考文件中生成练习问题及其相关的基于span的候选答案(第3.4节).
  根据我们对语言考试中采集
到的最大通用域 多选--MRC数据集RACE (Lai等,2017)提出的策略,对一个预训练的transformer (Radford et al., 2018)进行微调,我们获得一个在不使用策略的情况下,相同的预训练变压器在种族上进行微调,其精度比以前的最佳结果提高了5:8%(第4.2节)。。 我们在目标上进一步微调得到的模型MRC的任务。实验表明,我们的方法在6个典型的非抽取MRC数据集上取得了最新的研究成果,这些数据集需要一系列的阅读技巧,如常识和多句推理(4.4)。这些结果表明了本文所提方法策略的有效性。我们的微调模型纳入了这些策略的通用性。
  2 Task Introduction
  我们将机器阅读理解任务大致分为两组: 根据预期答案类型抽取(第2.1节) 和 非抽取(第2.2节)
  2.1 Extractive MRC
  近年来,大规模的提取MRC数据集已经建成,例如 SQuAD 和 NewsQA. |给定一个参考文档和一个问题,预期的答案与文档的跨度很短。相比之下,答案在SearchQA等数据集(邓恩et al ., 2017)和NarrativeQA (Kociskˇy et al。”,2018)是基于给定文档的自由形式的人类生成文本。然而,由于注释者倾向于直接将span复制为答案,所以大多数答案仍然是抽取的。
  2.2 Non-Extractive MRC
  在本节中,我们主要讨论multiplechoice MRC数据集,其中答案选项不受提取文本范围的限制。给定一个问题和一个参考文档/语料库,将提供多个答案选项,其中至少有一个选项是正确的。构建这样一个数据集需要大量的人力工作(如 MCTest (Richardson et al., 2013), SemEval-2018 Task 11 (Ostermann et al., 2018)、MultiRC (Khashabi et al., 2018)和OpenBookQA (Mihaylov et al., 2018)通过众包完成。除了众包,数据集如RACE (Lai等,2017)和ARC (Clark等,2018)采集
自教育专家设计的语言或科学考试(Penas et al.,2014;Shibuki等,2014;Tseng et al., 2016)来评估人类参与者的理解水平。
  与提取MRC任务中的问题相比,除了表面匹配外,复杂的问题还有很多,如数学单词问题、归纳问题、逻辑推理问题、情绪分析问题,,需要先进的阅读技巧以及先验的世界知识。
  此外,在大多数情况下,我们可以采用准确性等客观评价标准来评价系统性能(Clark et al., 2016;Lai等,2017)。 由于这类数据集的构建和采集
相对困难,现有的数据集大多规模较小,阻碍了最先进的深度神经模型的发展。
  为此,本文以7个具有代表性的多选题MRC数据集为例,探讨了如何利用有限的资源来改进MRC。如表1所示,大多数数据集中(ARC和MCTest除外)的大多数正确答案选项都是非抽取的。除了MultiRC,每个问题都有一个正确的答案选项。对于ARC和OpenBookQA,将提供一个参考语料库,而不是与每个问题关联的单个参考文档。
  这里我们给出了一个正式的任务定义。 给定参考文档d、问题q和相关的回答选项o;目标是选择正确的答案选项。 我们可以很容易地使我们的方法适应只提供参考语料库的MRC任务(第4.4节) 。
  3 Approach
  我们首先介绍了一个基于预训练transformer的神经阅读器(第3.1节),然后详细阐述了微调阶段使用的策略——来回阅读(第3.2节)、高亮显示(第3.3节)和自我评估(第3.4节)。
  3.1 Framework Overview
  我们的神经阅读器遵循有区别地微调生成预训练变压器(GPT)的框架(Radford et al., 2018)。 我们的神经阅读器遵循有区别地微调生成预训练变压器(GPT)的框架(Radford et al., 2018)。 采用预训练的多层变压器(Vaswani et al., 2017;Liu等,2018)标记数据集C的语言模型.每个实例由输入令牌 x1 的序列;例如:;xn组成.加上标签y,通过最大化 :
  L是语言模型的可能性,λ是语言模型的重量,然后呢P (yjx1;例如:;xn)是通过线性分类层对最后一层transformer的语言模型的激活得到的。MRC的任务,x1;例如:;xn来自开始令牌、引用文档、问题、分隔符令牌、回答选项和结束令牌的连接;y表示答案选项的正确性。更多详情请参考Radford等人(2018) .
  除了设置分隔符将答案选项与文档和问题分隔开之外,最初的框架很少关注MRC任务中特定于任务的结构。受阅读策略的启发,利用有限的资源和一个预先训练的转换器,我们提出了三种策略来提高机器阅读理解。我们在图1中显示了整个框架----
  3.2 Back and Forth Reading (BF)
  为简单起见,我们表示微调期间GPT的原创
输入序列(Radford et al.,)作为[dq $ o],其中[、$和]分别表示开始令牌、分隔符令牌和结束令牌。受来回阅读的启发,我们考虑了原创
顺序[dq $ o]和反向顺序[o $ qd],仍然保留d、q和o中的令牌顺序.我们分别对使用[dq $ o]和[o $ qd]作为输入序列的两个GPTs进行微调,然后对这两个模型进行集成。我们还在实验中考虑了其他类似的输入序列对,如[qd $ o]和[o $ dq](第4.3节)。
  3.3 Highlighting (HL)
  在最初的实现中(Radford等,2018年),在GPT微调阶段,文档的文本嵌入 独立于 相关的问答选项。 受人类阅读中使用的高亮显示的启发,我们的目标是使文档编码意识到相关的问答选项对(q, oi)。我们关注问题和答案选项中的实词,因为它们似乎提供了更多有用的信息(Mirza和Bernardi, 2013),我们通过词性标记(POS)来识别它们,其中之一是:名词、动词、形容词、副词、数字或外来词.
  形式上,我们设T为内容词的POS标签集合。我们让d表示文档d的文本嵌入顺序,用dj表示d中的第j个令牌,dj表示dj的文本嵌入。给定d和a (q, oi)对,我们为d中的第j个令牌定义一个高亮嵌入hj i
  根据上述定义,高亮嵌入的序列hi = h1 i;h2。当我们编码一个文档时,我们用di = d + hi替换d。更具体地说,我们使用b ,di, q, l oi,的串联在整合和,e 是GPT在为微调阶段新的输入(3.1节),b, l,和e独立表示嵌入的开始令牌,分隔符令牌,和结束标记,q和oi代表q和oi的文本嵌入的序列。
  3.4 Self-Assessment (SA)
  在之前的工作中(Radford et al., 2018),原创
的GPT是直接在MRC结束任务上进行微调的,而我们根据自我评估阅读策略开发了一种新的微调方法。特别地,我们提出了一个简单的方法来生成问题及其相关的多个基于span的答案选项,这些选项涵盖了参考文档中多个句子的内容。通过首先对这些实践实例上的预训练模型进行微调,我们的目标是使最终的fine-tuned模型更加可以感知(了解)输入结构,并在回答给定问题时可能需要的多个句子之间集成信息。
  具体来说,我们随机生成不超过nq的问题 和
  相关的回答选项 依托于给定任务的文档(document)。 步骤描述如下。
  Input: a reference document from the end task 最终任务相关的参考文档
  输出: 与参考文档关联 的 一个问题和四个回答选项。
  1. 从文档中随机选择不超过ns的句子,并将这些句子连接在一起。
  2. 从连接的句子中随机选择不超过nc非重叠跨度。 每个span在一个句子中随机收录
不超过nt标记。我们将选择的span连接起来,形成正确的答案选项。我们从连接的句子中删除选定的span,并使用剩余的文本作为问题。
  3.产生三个干扰物(如 ;错误的答案选项)使用文档中随机选择的span替换正确答案选项中的span。
  其中,nq、ns、nc和nt用于控制问题的数量和难度级别。
  4 Experiment
  4.1 Experiment Settings
  对于大多数超参数,我们遵循Radford等人(2018)的工作。我们使用相同的预处理程序和释放的预训练变压器。 我们根据RACE的训练和开发集合中的参考文档生成119k个实例(Lai等人,其中nq = 10, ns = 3, nc = 4, nt = 4(3.4节)。我们首先在这些 自动生成的实例上对原创
的预训练模型进行微调,使用1个训练历元(数据流1在图1中框起来) ,然后在 RACE数据集上面对于上述模型进行5个epoch的微调(fine-turning)(图1中框入数据流2)。我们在前面提到的六个out- domain MRC数据集上对结果模型进行微调(最多10个epoch)(图1中框起来的数据流3)当我们微调模型在不同的数据集,我们将批量大小设置为8,语言模型权重λ=2。我们通过平均线性层后的对数来集成模型。对于策略高亮(3.3节),the contentword POS tagset T = fNN, NNP, NNPS, NNS,VB, VBD, VBG, VBN, VBP, VBZ, JJ, JJR, JJS,RB, RBR, RBS, CD, FW},我们随机初始化+和-。
  4.2 Evaluation on RACE
  在表2中,我们首先报告了最先进模型(MMN和原创
finetuned GPT)和Amazon Turkers(人类性能)的准确性。 然后,我们报告我们实现的经过微调的GPT基线和我们的模型(GPT+策略)的性能。结果显示在RACE dataset (Lai et al., 2017)及其两个子任务上:从初中考试中采集
的RACE- m和从高中考试中采集
的RACE- h。
  我们的单一和综合模式优于以往的先进水平(即 GPT和GPT(9×)) 相差较大(63:8% vs. 59:0%;66:7%比60:6%)。这两种单模型策略——自我评估和突出显示——分别比单模型微调的GPT基线(58:7%)提高了1:7%和4:5%。 使用前后阅读策略,包括两个模型,与两个原创
的finetuned GPTs(59:6%)相比,准确率提高了3个点。策略组合进一步提升绩效。通过结合自我评估和高亮显示,我们的单一模型在经过微调的GPT基线(63:8% vs. 58:7%)上实现了5 %的准确性改进。 我们通过对两个这样的单一模型进行集成来应用所有的策略,这两个模型以原创
或相反的顺序读取输入序列,从而使与 两个原创
的微调GPTs集成相比,准确率提高了5:8% (65:4% vs. 59:6%)
  为了进一步分析性能,我们大致将问题类型分为五类: 细节(事实和细节)、 推理(推理能力)、主旨(文档的主要思想或目的)、 态度(作者对主题或文档语气/源的态度) 和 词汇(词汇 问题)(Qian and Schedl, 2004;Lai等人,2017),并注释了所有RACE开发集的实例(按照这5类对于问题进行了注释)。如图2所示,与经过调优的GPT基线相比,我们的单模型策略(SA和HL)在所有类别中持续改进结果。与其他策略相比,对大多数问题类型来说,突出显示可能会带来更大的收益。
  与人类性能相比,仍有相当大的改进空间,尤其是在RACE-M上。我们仔细查看RACE-M开发集中 所有实现都不能正确回答的实例。我们注意到,其中82.0%需要一种或多种类型的世界知识(如否定决议、常识、释义和数学/逻辑知识)(Sugawara et al., 2017b,a,2018年)),尤其是在参考文献中没有明确提到正确答案选项的情况下。 例如:For example, we need the knowledge —“the type of thing that is written by a writer canprobably be a book” — to answer the question “follow your heart is a ” from the context“ Follow
  your heart by Andrew Matthews, an Australian writer, tells us that making our dreams real is life’s biggest challenge”.此外,19:7%的错误case需要使用 共指消解。利用共指消解可以连接不相邻的相关句子可能是有希望解决这类问题的。
  4.3 Further Discussions on Strategies
  除了第三节中介绍的策略,我们也探索 摘要 等阅读策略(““I take an overall view of the text to see what it is about before carefully reading it.”)通过在每个参考文档前附加一个摘录摘要(Boudin et al., 2015)。实验结果表明,与我们所关注的策略相比,该策略对机器阅读理解的效果较差。在本节中,我们将进一步讨论这三种策略 :
  Back and Forth Reading:
  我们注意到,两个集成模型之间的输入顺序差异很可能产生性能收益。除了集成两个使用输入序列的模型外[dq $ o]和[o $ qd],我们还研究了其他反向或几乎反向对。例如,我们可以通过组合[qd $ o]和[o $ dq](61:0%)或[qd $ o]和[o $ qd]来获得更好的结果(61:7%),相比之下,原来的两个微调的GPTs(他们都使用[d $ qo])用于种族数据集(表2中59:6%) .
  Highlighting:
  我们尝试了两种变体来定义突出显示嵌入(3.3节中的公式2)---通过只考虑问题的内容或只考虑回答选项.实验表明,使用部分信息的准确率(分别为60:6%和61:0%)有所下降相比于 同时考虑 问题的内容和答案选项 63:2%(表2),
  我们还试图 突出内容词的共指提及(coreferential mentions),但是这并不能带来进一步的收益。
  Self-Assessment
  我们探索生成问题的其他方法。 例如,我们使用来自SQuAD的Wikipedia文章(Rajpurkar et al., 2016),而不是来自end task RACE的一般域文档。按照第3.4节中提到的相同步骤,我们生成的问题数量与使用RACE生成的问题数量相同。 实验表明,该方法还提高了微调GPT基线的精度(59:7% vs. 58:7%)。由于自我评价在某种程度上可以被看作是一种数据增强方法,我们研究了其他非监督问题生成方法,如 句子变换 和 反译释义 (Ding and Zhou, 2018;Yu等,2018)。我们的实验表明,这两种方法都不能提高RACE数据集的性能。
  4.4 Adaptation to Other Non-Extractive Machine Reading Comprehension Tasks
  我们遵循的理念是将知识从对源任务的大规模监督数据进行预处理的高性能模型转移到只有少量训练数据的目标任务(Chung et al., 2018)。RACE用于为其他MRC任务预训练模型,因为它收录
了最多的一般领域非抽取问题(表1)(Ostermann et al.2018;王2018年)。在我们的实验中,我们也将RACE作为源任务,并将六个具有代表性的来自多个领域的非抽取的多选题MRC数据集作为目标任务。虑到这些数据集的不同结构,我们需要一些特定于任务的修改。在ARC和OpenBookQA中,没有与每个问题相关的参考文档。相反,它提供了一个参考语料库,由与问题相关的无序的科学相关句子组成。因此,我们首先使用Lucene (McCandless et al., 2010)通过在一个 问题中使用 不间断(non-stop)的单词及其每个答案选项作为查询来检索前50个句子。 检索到的句子用于形成每个答案选项的参考文档。MultiRC数据集中一个问题可以有多个正确答案选项。因此,我们在最后一层使用sigmoid函数代替softmax(图1),并将任务视为二进制(对错)即每个(文档、问题、答案选项)实例的分类问题.当我们将我们的方法应用于非传统的MRC数据集ROCStories时,它的目标是从两个答案选项中选择一个四句话不完整的故事的正确结尾(Mostafazadeh等人, ,由于没有提供明确的问题,我们将问题上下文留空。由于MultiRC数据集的测试集不可公开使用,我们报告了在开发集上获得最高微平均F1 (F1a)的模型的性能。对于其他任务,我们选择在开发集上达到最高精度的模型,并报告在测试集上的精度 。
  我们首先使用我们提出的关于RACE 的三种策略对GPT进行微调,然后对 六个目标任务之一的结果模型 进行进一步的微调(参见表3)。在后一个微调阶段,除了继承前一个微调阶段的突出嵌入外,我们还采用了前后阅读的策略,由于模型已经在第一个微调阶段从高质量的RACE数据集中的实例中获益,所以我们没有考虑自我评估策略。
  我们将首先对RACE数据集上面进行微调,然后在不使用策略的情况下对目标任务进行微调的基线进行比较,这些基线已经在6个数据集中的4个(OpenBookQA, semevall -2018任务11、ROCStories 和 MultiRC))上超过了之前的最先进(SOTA)。通过使用这些策略,我们获得了比集成基线(58:5%)平均准确度提高了7:8%的绝对准确度,比以前的SOTA(60:1%)提高了6:2%的绝对准确度。为了进一步研究这些策略的作用,我们直接对目标任务进行GPT微调,而不使用RACE中的标记数据(即与未使用策略进行微调的基线(54:6%)相比,我们获得了平均准确率10 . 4%的相对提高(60:3%),尤其是在数据集ARC、OpenBookQA和MCTest上的较大改进(表4)。
  5 Related Work
  5.1 Methods for Multiple-Choice Machine Reading Comprehension|
  我们主要讨论应用于大规模数据集的方法,如RACE (Lai等,2017)。研究人员开发了多种具有注意机制的方法(Chen et al., 2016;Dhingra等,2017;徐等,2018;Tay等2018;Tang等2019年)进行改进,如添加消除模块(Parikh等人2018)或应用分层注意策略(Zhu等人2018;王等,2018b)。这些方法很少考虑丰富的外部知识(除了预先训练好的单词嵌入)。相反,我们基于现有的预训练tr

汇总:关键词搜索查找软件-批量关键词搜索查询导出工具免费

采集交流优采云 发表了文章 • 0 个评论 • 113 次浏览 • 2022-11-23 22:25 • 来自相关话题

  汇总:关键词搜索查找软件-批量关键词搜索查询导出工具免费
  关键词 搜索查找器,什么是 关键词 搜索查找器。关键词搜索工具就是搜索大量有流量的关键词,方便我们做排名。或者从媒体中选择一个主题。今天我想和大家分享一个免费的关键词搜索工具。免费的一键式批量搜索工具。自动查找最新流量关键词。详细参考图(支持批量关键词搜索搜索,支持文章自动采集,视频自动采集,图片自动采集,批量内容伪原创等)
  网站关键词优化是网站优化过程中非常重要的一步。网站关键词排名优化做好后,网站会在搜索引擎搜索结果页面快速展示给用户,达到增加网站流量、访问量和用户转化率。
  网站关键词优化难度的判断有几种方式,如:关键词的搜索索引、百度竞价后台的关键词策划师、关键词的类型、网站优化水平等。
  确定网站 关键词 优化的轻松级别之一:关键词 的搜索索引
  所谓关键词搜索指数可以从百度指数、360指数等中查看选择。关键词指数越高,关键词的优化难度就越大,反之亦然。
  
  查看关键词索引的平台不一定包括所有关键词。如果不收录
,则不会显示索引数据。购买后才能看到关键词的索引。
  确定网站关键词优化难度二:招标后台的关键词策划师
  在关键词 planner中,不仅可以展开相关的关键词,还可以分析关键词的相关索引。关键词规划器中的指标可以从这几点得出 分析:关键词显示原因,关键词整体日均搜索量,移动端日均搜索量,竞争激烈,referral bid(如果单词更改为出价),等等。
  确定网站 关键词 优化级别 3 的难度:关键词 的多样性
  所谓关键词类型,大致分为这四类:品牌词、产品词、转化词、流量词。这四类词的搜索优化难度越来越大。在选择关键词的类型时,需要从这四个词中进行选择,选择最有利于优化和用户搜索习惯的词。
  
  关于官网优化,如今的SEO优化已经成为很多企业网络营销推广的基本手段。除了为平台带来充沛的流量,也让更多的用户了解品牌和产品。它确实很受现代公司和企业的欢迎。告别。但是对于一些电商来说,他们会更看重这种推广方式的转化率。想要进一步提升效果,这些优化技巧还得自己把控。下面小编就给大家介绍一下如何优化官网提升效果?
  说到SEO优化技巧,不得不说的就是优化的频率和数量。由于优化的目的是提高关键词的排名,所以优化的时间点比较讲究。这个需要根据用户的搜索习惯来设置时间。例如,搜索时间是根据用户的正常工作时间来设置的,午餐和下班的时间可能会比较多。
  因此,需要提高这些节点的更新频率,集中精力提升关键词的排名,可以给商家带来更大的曝光度,从而吸引更大的流量,从而拥有更大的收益。是时候完成转换了。此外,写关键词软文还有一些要求,比如对原创性的要求,可以让平台给到更多的推荐,在一定程度上帮助提升排名。
  还有关键词优化的提升技巧。不仅需要熟悉网络平台的推广规则,还需要在标题上给予一定的引导,让用户产生点击进入观看的欲望。这样吸纳之后,后期准备的软文发布就会起到营销效果。所以在一般的关键词搜索中,SEO优化其实是一个综合的过程。
  以上是51小鱼网整理发布的用户投稿,希望对大家有所帮助!
  教程:使用网站采集软件必备伪原创秘笈
  这里的好文章是最好的原创文章,来源可以是博客、英文网站、周刊等原创性强的渠道。
  伪原创第二步:批量修改。(如果你使用的是优采云
Collector V9旗舰版,可以直接安装优采云
collector【伪原创插件下载】.types的伪原创插件。)
  1.标题一定要修改
  修改标题的重要性不用我强调,但需要强调的是,标题不要因为修改过多而失去点击价值或与文章内容不一致。比如可以把愚人节改成好玩的愚人节而不是节日。这可以在优采云
采集器数据处理中的同义词替换、参数组合等功能中实现。这取决于您喜欢使用哪一种。文本也可以替换同义词。
  2.修改文字
  
  修改文本的方法真的是多种多样,只要掌握好,就可以游刃有余了。我们来看看具体方法:
  2.1 修改开头和结尾
  搜索引擎在抓取文章时,首页主要看标题和文章的首末段。因此,更改第一段和最后一段的内容非常重要。在第一段和最后一段,可以选择优采云
Collector V9中的“随机插入”,插入有价值的关键词和关键句,或者使用“内容加后缀”等方式,可以提高质量第一段和最后一段,但足以保证意思不被修改。
  2.2 拼音转换
  优采云
采集器可以为新文章自动生成新摘要,数据处理可以选择“自动转拼音”,拼音显示部分可以提高一定的原创性。
  
  2.3 内容翻译
  您可以将从英文网站或文献中采集
的文章翻译成中文或英文,让您的文章绝对原创。在优采云
采集器V9中,内置了数据转换功能,默认为中译英。
  2.4 段落重新排序
  对于方法类文章,改变原文的结构和段落顺序对原文的意思影响不大,也可以使文章流畅。但是这个方法还是不推荐,因为对于采集
来说可能效果不是很好。
  大家在使用网站采集软件抓取数据时,可以试试上面的伪原创方法。如果你应用得好,加入有价值的观点,你可以改进一篇文章。如果只是改一段话,改几个字,是加不了什么新东西的。,还是没有什么价值,所以我们还是支持和鼓励有脑洞的伪原创。 查看全部

  汇总:关键词搜索查找软件-批量关键词搜索查询导出工具免费
  关键词 搜索查找器,什么是 关键词 搜索查找器。关键词搜索工具就是搜索大量有流量的关键词,方便我们做排名。或者从媒体中选择一个主题。今天我想和大家分享一个免费的关键词搜索工具。免费的一键式批量搜索工具。自动查找最新流量关键词。详细参考图(支持批量关键词搜索搜索,支持文章自动采集,视频自动采集,图片自动采集,批量内容伪原创等)
  网站关键词优化是网站优化过程中非常重要的一步。网站关键词排名优化做好后,网站会在搜索引擎搜索结果页面快速展示给用户,达到增加网站流量、访问量和用户转化率。
  网站关键词优化难度的判断有几种方式,如:关键词的搜索索引、百度竞价后台的关键词策划师、关键词的类型、网站优化水平等。
  确定网站 关键词 优化的轻松级别之一:关键词 的搜索索引
  所谓关键词搜索指数可以从百度指数、360指数等中查看选择。关键词指数越高,关键词的优化难度就越大,反之亦然。
  
  查看关键词索引的平台不一定包括所有关键词。如果不收录
,则不会显示索引数据。购买后才能看到关键词的索引。
  确定网站关键词优化难度二:招标后台的关键词策划师
  在关键词 planner中,不仅可以展开相关的关键词,还可以分析关键词的相关索引。关键词规划器中的指标可以从这几点得出 分析:关键词显示原因,关键词整体日均搜索量,移动端日均搜索量,竞争激烈,referral bid(如果单词更改为出价),等等。
  确定网站 关键词 优化级别 3 的难度:关键词 的多样性
  所谓关键词类型,大致分为这四类:品牌词、产品词、转化词、流量词。这四类词的搜索优化难度越来越大。在选择关键词的类型时,需要从这四个词中进行选择,选择最有利于优化和用户搜索习惯的词。
  
  关于官网优化,如今的SEO优化已经成为很多企业网络营销推广的基本手段。除了为平台带来充沛的流量,也让更多的用户了解品牌和产品。它确实很受现代公司和企业的欢迎。告别。但是对于一些电商来说,他们会更看重这种推广方式的转化率。想要进一步提升效果,这些优化技巧还得自己把控。下面小编就给大家介绍一下如何优化官网提升效果?
  说到SEO优化技巧,不得不说的就是优化的频率和数量。由于优化的目的是提高关键词的排名,所以优化的时间点比较讲究。这个需要根据用户的搜索习惯来设置时间。例如,搜索时间是根据用户的正常工作时间来设置的,午餐和下班的时间可能会比较多。
  因此,需要提高这些节点的更新频率,集中精力提升关键词的排名,可以给商家带来更大的曝光度,从而吸引更大的流量,从而拥有更大的收益。是时候完成转换了。此外,写关键词软文还有一些要求,比如对原创性的要求,可以让平台给到更多的推荐,在一定程度上帮助提升排名。
  还有关键词优化的提升技巧。不仅需要熟悉网络平台的推广规则,还需要在标题上给予一定的引导,让用户产生点击进入观看的欲望。这样吸纳之后,后期准备的软文发布就会起到营销效果。所以在一般的关键词搜索中,SEO优化其实是一个综合的过程。
  以上是51小鱼网整理发布的用户投稿,希望对大家有所帮助!
  教程:使用网站采集软件必备伪原创秘笈
  这里的好文章是最好的原创文章,来源可以是博客、英文网站、周刊等原创性强的渠道。
  伪原创第二步:批量修改。(如果你使用的是优采云
Collector V9旗舰版,可以直接安装优采云
collector【伪原创插件下载】.types的伪原创插件。)
  1.标题一定要修改
  修改标题的重要性不用我强调,但需要强调的是,标题不要因为修改过多而失去点击价值或与文章内容不一致。比如可以把愚人节改成好玩的愚人节而不是节日。这可以在优采云
采集器数据处理中的同义词替换、参数组合等功能中实现。这取决于您喜欢使用哪一种。文本也可以替换同义词。
  2.修改文字
  
  修改文本的方法真的是多种多样,只要掌握好,就可以游刃有余了。我们来看看具体方法:
  2.1 修改开头和结尾
  搜索引擎在抓取文章时,首页主要看标题和文章的首末段。因此,更改第一段和最后一段的内容非常重要。在第一段和最后一段,可以选择优采云
Collector V9中的“随机插入”,插入有价值的关键词和关键句,或者使用“内容加后缀”等方式,可以提高质量第一段和最后一段,但足以保证意思不被修改。
  2.2 拼音转换
  优采云
采集器可以为新文章自动生成新摘要,数据处理可以选择“自动转拼音”,拼音显示部分可以提高一定的原创性。
  
  2.3 内容翻译
  您可以将从英文网站或文献中采集
的文章翻译成中文或英文,让您的文章绝对原创。在优采云
采集器V9中,内置了数据转换功能,默认为中译英。
  2.4 段落重新排序
  对于方法类文章,改变原文的结构和段落顺序对原文的意思影响不大,也可以使文章流畅。但是这个方法还是不推荐,因为对于采集
来说可能效果不是很好。
  大家在使用网站采集软件抓取数据时,可以试试上面的伪原创方法。如果你应用得好,加入有价值的观点,你可以改进一篇文章。如果只是改一段话,改几个字,是加不了什么新东西的。,还是没有什么价值,所以我们还是支持和鼓励有脑洞的伪原创。

测评:文章句子采集效率提高50%,美丽说a5站长网-唯一自营商城

采集交流优采云 发表了文章 • 0 个评论 • 320 次浏览 • 2022-11-23 11:34 • 来自相关话题

  测评:文章句子采集效率提高50%,美丽说a5站长网-唯一自营商城
  文章句子采集软件可以在百度知道的文章里找各种人物动作描述。类似你可以把各种社交网站里的,写各种故事的文章都采集下来。理解了人物的行为,就有了脑图画。
  百度问答真是一个好产品,没有比它更好的社区了。找两句最典型的关键词,在贴吧发一个帖子。将你感兴趣的关键词收集起来,并一个个增加到采集列表里。将你感兴趣的关键词每天发十次,尽量找到高频词语。同样的方法运用在知乎和公众号领域。并且一定要采集到该领域的高频关键词,并且加上标注。发出去后随机组织内容,以下分享比较多的篇幅:我的时间有限,问答只有十几二十条左右,今天就分享到这里。以上,其他人感兴趣再更新。
  
  采集效率提高50%,采集长尾关键词比较好,
  我的seo过程中关注seo网站,像a5站长网、七度网、爱站这些网站都是不错的学习站,长尾关键词也是比较好的选择,能够发现很多潜在用户。具体教程:美丽说a5站长网-唯一自营商城、唯一自营站、唯一自营商城美丽说a5站长网注册地址:,
  
  这些问题,其实可以通过一些工具来完成。通过思维导图来帮助自己记忆,这样会事半功倍,可以从三个方面来记忆:1,为什么要采集?2,为什么采集多的?3,下采集到的文章该怎么排名?以上三个问题,只是引子,最终目的是:我需要的是清晰的业务线的数据,如果有价值可以用来做数据分析。方法一,抓取任意网站中长尾关键词,譬如说有大量的在线产品信息,我们可以分析网站流量,那么,我需要的是:图片类信息,产品信息,按钮信息。
  其中,产品信息对应很多类型,不同的用户在不同的网站寻找产品信息。比如,平安车险理赔,保险推销,二手车买卖,美容养生之类的信息。这些文章同类的下采集量多,一次性采集成千上万篇,出来后再按需采集,精简,然后做,同类信息一起,结合内容进行融合。方法二,抓取长尾词。这就是小众行业为什么容易发展,因为用户太少,大部分用户用不到(权重高的词),有价值的信息可以进行输出。
  方法三,采集文章标题。这个方法方法很简单,就是采集在各种网站中,一篇或者一段文章中关键词数量多,每一句或者每一个词语,我们用“/”代替。其他也可以换成单独词语。最好,最直接的就是采集,收集大量好文章,然后,再用excel表格进行统计分析。采集长尾词我觉得效率还是非常高的,从我自己来看,我能够找到大量长尾词,内容都和我内容有关,属于好内容。当然,一开始肯定会有痛苦,因为你要。 查看全部

  测评:文章句子采集效率提高50%,美丽说a5站长网-唯一自营商城
  文章句子采集软件可以在百度知道的文章里找各种人物动作描述。类似你可以把各种社交网站里的,写各种故事的文章都采集下来。理解了人物的行为,就有了脑图画。
  百度问答真是一个好产品,没有比它更好的社区了。找两句最典型的关键词,在贴吧发一个帖子。将你感兴趣的关键词收集起来,并一个个增加到采集列表里。将你感兴趣的关键词每天发十次,尽量找到高频词语。同样的方法运用在知乎和公众号领域。并且一定要采集到该领域的高频关键词,并且加上标注。发出去后随机组织内容,以下分享比较多的篇幅:我的时间有限,问答只有十几二十条左右,今天就分享到这里。以上,其他人感兴趣再更新。
  
  采集效率提高50%,采集长尾关键词比较好,
  我的seo过程中关注seo网站,像a5站长网、七度网、爱站这些网站都是不错的学习站,长尾关键词也是比较好的选择,能够发现很多潜在用户。具体教程:美丽说a5站长网-唯一自营商城、唯一自营站、唯一自营商城美丽说a5站长网注册地址:,
  
  这些问题,其实可以通过一些工具来完成。通过思维导图来帮助自己记忆,这样会事半功倍,可以从三个方面来记忆:1,为什么要采集?2,为什么采集多的?3,下采集到的文章该怎么排名?以上三个问题,只是引子,最终目的是:我需要的是清晰的业务线的数据,如果有价值可以用来做数据分析。方法一,抓取任意网站中长尾关键词,譬如说有大量的在线产品信息,我们可以分析网站流量,那么,我需要的是:图片类信息,产品信息,按钮信息。
  其中,产品信息对应很多类型,不同的用户在不同的网站寻找产品信息。比如,平安车险理赔,保险推销,二手车买卖,美容养生之类的信息。这些文章同类的下采集量多,一次性采集成千上万篇,出来后再按需采集,精简,然后做,同类信息一起,结合内容进行融合。方法二,抓取长尾词。这就是小众行业为什么容易发展,因为用户太少,大部分用户用不到(权重高的词),有价值的信息可以进行输出。
  方法三,采集文章标题。这个方法方法很简单,就是采集在各种网站中,一篇或者一段文章中关键词数量多,每一句或者每一个词语,我们用“/”代替。其他也可以换成单独词语。最好,最直接的就是采集,收集大量好文章,然后,再用excel表格进行统计分析。采集长尾词我觉得效率还是非常高的,从我自己来看,我能够找到大量长尾词,内容都和我内容有关,属于好内容。当然,一开始肯定会有痛苦,因为你要。

教程:文章句子采集软件:采集源文件链接(https)/git>

采集交流优采云 发表了文章 • 0 个评论 • 115 次浏览 • 2022-11-23 00:19 • 来自相关话题

  教程:文章句子采集软件:采集源文件链接(https)/git>
  文章句子采集软件:
  1、采集源文件链接(https)//git>gitclonecdpicture
  2、使用迅雷下载采集picture
  3、ps处理
  4、保存为pdfpdf
  5、保存到印象笔记中备用
  
  1.先去ieeedoc论文中找到“aaai2014”标题2.中文论文都比较长,按照超链接链接规则的第一种方法读取(图片)3.读取后将字段一一对应pdf文件中的论文标题,
  去了解什么是论文的摘要、简介、绪论、论文与展望、引言、前言等,自己琢磨怎么写摘要、简介、绪论。
  保存到印象笔记中
  你选择读取,
  中文论文太长,采集不了,可以试试百度文库里面的英文数据。
  找一个程序员服务商,比如抓取虫。找他们做采集服务。
  
  联系freecodecamp吧~
  知乎不支持外链链接服务,这个方法不是很适用于中文字段,可以用第三方工具进行文件读取,有些是可以自定义文件名的,
  gitindexhttps-pipedfastclip2.x
  我试了下ieeedoc,pdf,
  使用网易公开课
  不知道这个够不够用,
  1.安装node.js2.修改code.js,修改为index.js,安装成功后直接把png文件类型的变量post到code.js中,post进来的是code.js文件中的pdf链接地址, 查看全部

  教程:文章句子采集软件:采集源文件链接(https)/git>
  文章句子采集软件
  1、采集源文件链接(https)//git>gitclonecdpicture
  2、使用迅雷下载采集picture
  3、ps处理
  4、保存为pdfpdf
  5、保存到印象笔记中备用
  
  1.先去ieeedoc论文中找到“aaai2014”标题2.中文论文都比较长,按照超链接链接规则的第一种方法读取(图片)3.读取后将字段一一对应pdf文件中的论文标题,
  去了解什么是论文的摘要、简介、绪论、论文与展望、引言、前言等,自己琢磨怎么写摘要、简介、绪论。
  保存到印象笔记中
  你选择读取,
  中文论文太长,采集不了,可以试试百度文库里面的英文数据。
  找一个程序员服务商,比如抓取虫。找他们做采集服务。
  
  联系freecodecamp吧~
  知乎不支持外链链接服务,这个方法不是很适用于中文字段,可以用第三方工具进行文件读取,有些是可以自定义文件名的,
  gitindexhttps-pipedfastclip2.x
  我试了下ieeedoc,pdf,
  使用网易公开课
  不知道这个够不够用,
  1.安装node.js2.修改code.js,修改为index.js,安装成功后直接把png文件类型的变量post到code.js中,post进来的是code.js文件中的pdf链接地址,

解决方案:助力句子变换:35W抽象、43W同义、13W简称三大知识库对外开源

采集交流优采云 发表了文章 • 0 个评论 • 82 次浏览 • 2022-12-20 13:27 • 来自相关话题

  解决方案:助力句子变换:35W抽象、43W同义、13W简称三大知识库对外开源
  句子变换是指在给定的汉语句子的基础上,借助一定的语言处理方法,扩展出一组具有一定数据量的汉语句子。 是一个从1到N的过程)、抽取(数据回标)、推荐生成(关联引导)等工业级应用任务。
  我们发现,在处理上述任务的过程中,都是以句子中的词为基本单位来实现句子级的操作,即词的替换和删除、词序和组合规则的重组等。是基本手段。 .
  有效地组织和形式化词的运算基础是一项重要的任务。 在实际开发过程中,我们进一步将这项工作的结果分为“抽象知识”、“同义知识”和“缩写知识”。 Knowledge”三类知识库,并将部分数据集开放给OpenKG,供大家下载使用。
  本期内容围绕开放句变换,介绍了常见句变换操作的典型应用场景,数据视界开放的三大知识三元组概览,以及它们在实际句变换中所能发挥的作用。
  一、句子转换操作的典型应用场景
  句子转换用于典型的NLP传统任务,如搜索(查询扩展)、分类(样本扩展)、抽取(数据回标)、推荐和生成(关联引导)。 具体体现在三个方面:基于句子标准化的舆情文本聚合、基于句子扩展的信息采集与推荐、基于句子变换的数据扩展与数据回标。
  1. 基于句子标准化的舆情文本聚合
  文本去重是舆情分析中的一项重要任务。 解决方案包括基于标题的去重、基于全文的去重、基于文档摘要的去重、基于标题和文档元数据的去重等。
  处理速度和计算复杂度是去重过程中需要考虑的两个重要因素。 尤其是在项目工期紧、需要进行大规模文本去重的情况下,对特定文本的代表性内容进行标准化和规范化成为一项重要的工作。 方法。
  图 1 - 文本去重系统中的指纹架构图
  内容的标准化和规范化是指为一个源内容生成唯一的md5指纹,指纹的价值取决于标准的结果。 一般来说,常规操作包括对内容进行停用词处理、短句统一重排等,并在此基础上进一步规范词义映射、句子缩写、句子重复、句子翻译等。 此外,还加入了一些其他信息,如文本的时间信息、作者信息等,用于标准化融合。
  2. 基于句子扩展的信息采集与推荐
  定点搜索和定点采集也是舆情处理过程中的两个重要手段。 定点搜索是指扩展关键词或由关键词组成的query,是搜索和采集的前置操作:比如在监控“营业收入下降”的节点时,考虑到目标文档中可能存在的不一致,需要Expand形成“收入下降”“收入下降”“营业收入下降”等多个关键词。
  图2——基于同义知识库的句子扩展
  基于句子扩展的关联推荐也是一个重要的应用。 通过识别原给定query中的关键信息,利用外部知识库,替换关键信息集中的元素,如获取抽象关系实体,替换同层次(属于同一抽象类)的实体,得到推荐“美元贬值”等结果扩大为“人民币贬值”和“本币贬值”。
  3. 基于句子变换的数据扩充和数据回标
  无论是分类任务还是抽取任务,都存在样本不足和训练数据不足的问题。 为此,数据扩展和数据回标是两种主要方法。 其中,数据扩充主要包括词替换、回译等几种方法。
  单词替换是指在不改变句子意思的情况下,替换文中出现的单词。 实现方式包括基于同义词库的替换、基于词嵌入的替换、基于TF-IDF的词替换等。基于TF-IDF的词替换也常用于识别给定句子中需要替换的词成分; 带有反向翻译的数据扩充也是一种解决方案,其中使用机器翻译来解释文本,使用这个新句子作为原创文本的扩充结果。
  
  图3——基于远程监管思想的数据回溯
  远程监督思想下基于现有知识库的数据反标注是获取大规模标注数据的重要方法。 它需要在给定知识三元组的条件下,在非结构化文本中进行回溯检查,假设两个实体句子可能存在实体关系。 但是这个操作在实际处理过程中会产生噪音。 因此,为了扩大候选召回,可以借助外部知识库对两个实体进行扩展,同时引入实体之间的关系标记词和标记词的扩展词为提高准确率的附加条件。
  2. 句子转换中的开放知识三元组
  准确、大规模地记录词与词之间的同义、抽象、同义关系的知识三元组是完成上述三个应用任务的坚实基础。 在OpenKG中,我们开源了一些积累的中文摘要知识、中文同义词知识、中文缩写三元组数据集,供大家下载使用。 下面是数据集的介绍:
  1. 35万中文抽象知识三元组
  1)地址:
  图4-35万中文摘要知识三元组详情截图
  2)样品及介绍
  该数据集开放了346048个中文摘要知识三元组的优质知识库,来自公网文本摘要三元组挖掘、人工整理等多种渠道,涵盖商品、行业、行为、特征、名义实体等诸多方面类型。 示例如下图所示:
  图5-35万中文抽象知识实例截图
  该知识库可用于查询扩展、句子改写、句子相似度计算、句子推荐等多种应用场景。
  2. 43万中文同义知识三元组
  1)地址:
  数据集开放了43万个中文同义词知识三元组,来自公开数据文本同义词挖掘、词典整理、人工纠错等多个渠道。 示例如下图所示:
  图7- 43万中文同义词知识示例截图
  该知识库可用于同义词扩展相关的应用,如搜索扩展查询、句子相似度计算、数据增强等。
  3. 130,000个中文缩写知识三元组
  
  地址:
  图8-13 中文缩写知识详情截图
  2)介绍和样品
  该数据集通过提取公网文本缩写、人工整理等多种渠道,发布了136081个中文缩写知识三元组,涉及大学、产品名称、公司缩写等多个领域。 示例如下图所示:
  图9-13 中文缩写知识示例截图
  中文缩略语知识库可用于缩略语抽取评估、实体链接、搜索查询扩展、句子改写等多种场景。
  三、总结
  句子级的操作是以句子中的词为基本单位来实现的,即词的替换、删除、词序和组合规则重组等操作是基本手段。 有效地组织和形式化词的运算基础是一项重要的任务。 我们进一步将这种形式化的结果分为三大类:“抽象知识”、“同义知识”和“缩略知识”。 类知识库,并向 OpenKG 开放一些数据集:
  346,048个中文摘要知识三元组知识库,可用于查询扩展、句子改写、句子相似度计算、句子推荐等多种应用场景;
  43万中文同义词知识三元组,可用于同义词扩展相关的应用,如搜索扩展查询、句子相似度计算、数据增强等场景;
  136081个中文缩写知识三元组,涉及大学、产品名称、公司简称等领域,可用于缩写抽取评估、实体链接、搜索查询扩展、句子改写等多个场景。
  底层知识三元组可以在句子转换中发挥重要作用,具体体现在基于句子标准化的舆情文本聚合、句子扩展的信息采集和推荐、基于句子转换的数据扩展和数据回标等。
  我们认为,底层知识库是自然语言处理的坚实基础,能够对业界各种算法的落地起到基础性和实践性的支撑作用。
  参考链接
  1、
  2、
  3.
  4.
  5.
  解决方案:梅州小程序商城制作开发网络推广SEO优化公司,网络推广排名
  系统开发
  网站制作 | 网络推广
  小程序商城系统| 微商城制作
  电话:(微信)
  点击一个按钮拨打电话:
  微信小程序商城一年运营成本团购外卖制作网站改版企业微信商城开发网站网络营销优化微信公众号推文如何制作小程序分发系统企业官网设计企业官网建造
  
  公司主营业务:微信公众号推广开发、小程序制作、网站制作、网络关键词推广排名、APP制作开发、微信商城制作等。
  为网站选择合适的目标关键词,然后优化这些目标关键词的排名。 这个过程就是关键词优化。 我们也可以把关键词优化定义为网站关键词的排名过程。 对于长尾关键词,排名的前提是保证内容页面“被百度快速收录”,主要原因是承担快速排名的责任。 使用标签的标题属性。
  在不影响页面功能的情况下,我们可以尝试在标签中加入title属性,更有利于蜘蛛抓取信息。 直击引流推广 站内整站优化:所谓整站优化是网站搜索引擎优化(SEO)的高级应用,是一种高级的网站营销策略。 整个网站的优化服务并不是针对特定的关键词,而是以提高网站搜索引擎的友好度为核心,通过提高网站的质量,可以获得更好的排名权重和搜索流量。 为避免关键词堆积,这里主要指新闻源站软件发布,通常是根据不同站点的价格来计算。 如果能利用关键字相关的“软文”来实现首页SEO,那么这方面的收益是相当可观的。
  这个决定也会影响你的 SEO 策略。 我强调转型或品牌强化。 大多数实际案例告诉我们,在弱品牌的情况下,基于网络平台的大规模广告转化率是比较低的,往往是你力所不及的。
  将百度蜘蛛引入目标站点,其实就是做百度快搜的过程,通常是以下形式: 锚链接是否与关键词相关? SEO不变 外部入口 很多SEO人员,在做长尾关键词排名的时候,经常会问一个问题,那就是我可以使用:长尾关键词排名系统吗? 需要明确的是:长尾关键词的排名是为了获得点击,所以尽量避免长尾内容的贡献。 在回答这个问题之前,我们先简单了解一下长尾关键词排名系统。 类似于市场上推出的所谓云推广。 它使用蜘蛛池来引导爬取这些需要排名的长尾页面。 总的原则是使用大量的网站。 操作。
  关键词优化只是对一小部分网站进行修改和优化。 优化效果无法一直保持,存在一定的风险。 只能优化少量关键词,不利于效果的转化。 百度相关关键词及常见问题 理论上应该给核心关键词加上反向链接。 为了避免链接分离和简化,我们通常会在相关关键词的锚文本中添加一些合理的链接,使链接结构看起来自然而不做作。
  第一种情况,自加权重慢,但广告单价高,流量精准有价值。 使用新闻台制作所谓的“新闻投稿”已经存在多年。 通常结算费用是按50元300条新闻链计算的。 一般情况下是一系列文章。 网站的结构是扁平树,目录结构不宜太深。 每个页面从主页点击不超过 3 次,这对于搜索引擎来说太深了。
  
  关键词优化和整站优化效果 此前,很多专家博主强调利用社交媒体跑长尾SEO,就是通过社交媒体发布长尾内容。 这其实是一个错误的想法,主要原因是:大型网站转发。 搜索引擎优化的变化关键词优化只能保证排名,而排名必须靠点击才能获得流量和访客,而访客是转化的基础。 在图像上使用 alt 属性。
  该属性可以在图片无法加载时在页面显示相关的文字信息,效果相同。 虽然我们可以利用长尾关键词对站内流量入口进行排名,但是对于蜘蛛来说,我们需要在站外建立少量的优质链接,引导蜘蛛继续爬行。 长尾关键词排名常见问题 权威网站一旦转发了长尾内容,自己的网站就很难排在大网站的前列。 至少现阶段,即使有原创链接,作用也有限。
  提高页面加载速度。 可以用css来解决不能使用背景图片的问题,也可以尝试压缩背景图片的大小,可以在一张图片上放几个图标,使用CSSsprite,利用背景位置找到想要的图片位置. 减少 HTTP 请求次数,提高网页加载速度。
  提高内容相关性随着雄跑的引入,SEO技术的排名方式正在被削弱。 也就是说,过去基于超链接技术的搜索排名将被打破,这使得新的SEO更加注重内容质量和社会影响力。 集中网站权重。
  由于蜘蛛给每个页面分配的权重是确定的,并且这些权重会平均分配给每个链接,为了集中网站的权重,我们可以使用“rel=nofollow”属性,告诉蜘蛛分配权重到其他链接而不是爬取目标页面是没有必要的。 关键词优化和全站优化的转化效果 第二种情况,自己的网站获得了快速的流量,但是广告单价低,泛滥,转化率不高。 主要区别:使用关键字挖掘工具进行查询。
  当你试图写文章关于热门关键词的文章时,我们通常会检查相关关键词的数量。 通过对多个相关关键词进行分类,合理分布在段落内容中,可以增加内容的广度,从而提高核心关键词和文章的权威性。 “内容为王”仍然发挥着非常重要的作用,尤其是在新搜索时代,百度对优质内容的支持不断加深,基于区块链技术对原创内容进行识别和保护,让优质内容能够获得合理陈列。 查看全部

  解决方案:助力句子变换:35W抽象、43W同义、13W简称三大知识库对外开源
  句子变换是指在给定的汉语句子的基础上,借助一定的语言处理方法,扩展出一组具有一定数据量的汉语句子。 是一个从1到N的过程)、抽取(数据回标)、推荐生成(关联引导)等工业级应用任务。
  我们发现,在处理上述任务的过程中,都是以句子中的词为基本单位来实现句子级的操作,即词的替换和删除、词序和组合规则的重组等。是基本手段。 .
  有效地组织和形式化词的运算基础是一项重要的任务。 在实际开发过程中,我们进一步将这项工作的结果分为“抽象知识”、“同义知识”和“缩写知识”。 Knowledge”三类知识库,并将部分数据集开放给OpenKG,供大家下载使用。
  本期内容围绕开放句变换,介绍了常见句变换操作的典型应用场景,数据视界开放的三大知识三元组概览,以及它们在实际句变换中所能发挥的作用。
  一、句子转换操作的典型应用场景
  句子转换用于典型的NLP传统任务,如搜索(查询扩展)、分类(样本扩展)、抽取(数据回标)、推荐和生成(关联引导)。 具体体现在三个方面:基于句子标准化的舆情文本聚合、基于句子扩展的信息采集与推荐、基于句子变换的数据扩展与数据回标。
  1. 基于句子标准化的舆情文本聚合
  文本去重是舆情分析中的一项重要任务。 解决方案包括基于标题的去重、基于全文的去重、基于文档摘要的去重、基于标题和文档元数据的去重等。
  处理速度和计算复杂度是去重过程中需要考虑的两个重要因素。 尤其是在项目工期紧、需要进行大规模文本去重的情况下,对特定文本的代表性内容进行标准化和规范化成为一项重要的工作。 方法。
  图 1 - 文本去重系统中的指纹架构图
  内容的标准化和规范化是指为一个源内容生成唯一的md5指纹,指纹的价值取决于标准的结果。 一般来说,常规操作包括对内容进行停用词处理、短句统一重排等,并在此基础上进一步规范词义映射、句子缩写、句子重复、句子翻译等。 此外,还加入了一些其他信息,如文本的时间信息、作者信息等,用于标准化融合。
  2. 基于句子扩展的信息采集与推荐
  定点搜索和定点采集也是舆情处理过程中的两个重要手段。 定点搜索是指扩展关键词或由关键词组成的query,是搜索和采集的前置操作:比如在监控“营业收入下降”的节点时,考虑到目标文档中可能存在的不一致,需要Expand形成“收入下降”“收入下降”“营业收入下降”等多个关键词。
  图2——基于同义知识库的句子扩展
  基于句子扩展的关联推荐也是一个重要的应用。 通过识别原给定query中的关键信息,利用外部知识库,替换关键信息集中的元素,如获取抽象关系实体,替换同层次(属于同一抽象类)的实体,得到推荐“美元贬值”等结果扩大为“人民币贬值”和“本币贬值”。
  3. 基于句子变换的数据扩充和数据回标
  无论是分类任务还是抽取任务,都存在样本不足和训练数据不足的问题。 为此,数据扩展和数据回标是两种主要方法。 其中,数据扩充主要包括词替换、回译等几种方法。
  单词替换是指在不改变句子意思的情况下,替换文中出现的单词。 实现方式包括基于同义词库的替换、基于词嵌入的替换、基于TF-IDF的词替换等。基于TF-IDF的词替换也常用于识别给定句子中需要替换的词成分; 带有反向翻译的数据扩充也是一种解决方案,其中使用机器翻译来解释文本,使用这个新句子作为原创文本的扩充结果。
  
  图3——基于远程监管思想的数据回溯
  远程监督思想下基于现有知识库的数据反标注是获取大规模标注数据的重要方法。 它需要在给定知识三元组的条件下,在非结构化文本中进行回溯检查,假设两个实体句子可能存在实体关系。 但是这个操作在实际处理过程中会产生噪音。 因此,为了扩大候选召回,可以借助外部知识库对两个实体进行扩展,同时引入实体之间的关系标记词和标记词的扩展词为提高准确率的附加条件。
  2. 句子转换中的开放知识三元组
  准确、大规模地记录词与词之间的同义、抽象、同义关系的知识三元组是完成上述三个应用任务的坚实基础。 在OpenKG中,我们开源了一些积累的中文摘要知识、中文同义词知识、中文缩写三元组数据集,供大家下载使用。 下面是数据集的介绍:
  1. 35万中文抽象知识三元组
  1)地址:
  图4-35万中文摘要知识三元组详情截图
  2)样品及介绍
  该数据集开放了346048个中文摘要知识三元组的优质知识库,来自公网文本摘要三元组挖掘、人工整理等多种渠道,涵盖商品、行业、行为、特征、名义实体等诸多方面类型。 示例如下图所示:
  图5-35万中文抽象知识实例截图
  该知识库可用于查询扩展、句子改写、句子相似度计算、句子推荐等多种应用场景。
  2. 43万中文同义知识三元组
  1)地址:
  数据集开放了43万个中文同义词知识三元组,来自公开数据文本同义词挖掘、词典整理、人工纠错等多个渠道。 示例如下图所示:
  图7- 43万中文同义词知识示例截图
  该知识库可用于同义词扩展相关的应用,如搜索扩展查询、句子相似度计算、数据增强等。
  3. 130,000个中文缩写知识三元组
  
  地址:
  图8-13 中文缩写知识详情截图
  2)介绍和样品
  该数据集通过提取公网文本缩写、人工整理等多种渠道,发布了136081个中文缩写知识三元组,涉及大学、产品名称、公司缩写等多个领域。 示例如下图所示:
  图9-13 中文缩写知识示例截图
  中文缩略语知识库可用于缩略语抽取评估、实体链接、搜索查询扩展、句子改写等多种场景。
  三、总结
  句子级的操作是以句子中的词为基本单位来实现的,即词的替换、删除、词序和组合规则重组等操作是基本手段。 有效地组织和形式化词的运算基础是一项重要的任务。 我们进一步将这种形式化的结果分为三大类:“抽象知识”、“同义知识”和“缩略知识”。 类知识库,并向 OpenKG 开放一些数据集:
  346,048个中文摘要知识三元组知识库,可用于查询扩展、句子改写、句子相似度计算、句子推荐等多种应用场景;
  43万中文同义词知识三元组,可用于同义词扩展相关的应用,如搜索扩展查询、句子相似度计算、数据增强等场景;
  136081个中文缩写知识三元组,涉及大学、产品名称、公司简称等领域,可用于缩写抽取评估、实体链接、搜索查询扩展、句子改写等多个场景。
  底层知识三元组可以在句子转换中发挥重要作用,具体体现在基于句子标准化的舆情文本聚合、句子扩展的信息采集和推荐、基于句子转换的数据扩展和数据回标等。
  我们认为,底层知识库是自然语言处理的坚实基础,能够对业界各种算法的落地起到基础性和实践性的支撑作用。
  参考链接
  1、
  2、
  3.
  4.
  5.
  解决方案:梅州小程序商城制作开发网络推广SEO优化公司,网络推广排名
  系统开发
  网站制作 | 网络推广
  小程序商城系统| 微商城制作
  电话:(微信)
  点击一个按钮拨打电话:
  微信小程序商城一年运营成本团购外卖制作网站改版企业微信商城开发网站网络营销优化微信公众号推文如何制作小程序分发系统企业官网设计企业官网建造
  
  公司主营业务:微信公众号推广开发、小程序制作、网站制作、网络关键词推广排名、APP制作开发、微信商城制作等。
  为网站选择合适的目标关键词,然后优化这些目标关键词的排名。 这个过程就是关键词优化。 我们也可以把关键词优化定义为网站关键词的排名过程。 对于长尾关键词,排名的前提是保证内容页面“被百度快速收录”,主要原因是承担快速排名的责任。 使用标签的标题属性。
  在不影响页面功能的情况下,我们可以尝试在标签中加入title属性,更有利于蜘蛛抓取信息。 直击引流推广 站内整站优化:所谓整站优化是网站搜索引擎优化(SEO)的高级应用,是一种高级的网站营销策略。 整个网站的优化服务并不是针对特定的关键词,而是以提高网站搜索引擎的友好度为核心,通过提高网站的质量,可以获得更好的排名权重和搜索流量。 为避免关键词堆积,这里主要指新闻源站软件发布,通常是根据不同站点的价格来计算。 如果能利用关键字相关的“软文”来实现首页SEO,那么这方面的收益是相当可观的。
  这个决定也会影响你的 SEO 策略。 我强调转型或品牌强化。 大多数实际案例告诉我们,在弱品牌的情况下,基于网络平台的大规模广告转化率是比较低的,往往是你力所不及的。
  将百度蜘蛛引入目标站点,其实就是做百度快搜的过程,通常是以下形式: 锚链接是否与关键词相关? SEO不变 外部入口 很多SEO人员,在做长尾关键词排名的时候,经常会问一个问题,那就是我可以使用:长尾关键词排名系统吗? 需要明确的是:长尾关键词的排名是为了获得点击,所以尽量避免长尾内容的贡献。 在回答这个问题之前,我们先简单了解一下长尾关键词排名系统。 类似于市场上推出的所谓云推广。 它使用蜘蛛池来引导爬取这些需要排名的长尾页面。 总的原则是使用大量的网站。 操作。
  关键词优化只是对一小部分网站进行修改和优化。 优化效果无法一直保持,存在一定的风险。 只能优化少量关键词,不利于效果的转化。 百度相关关键词及常见问题 理论上应该给核心关键词加上反向链接。 为了避免链接分离和简化,我们通常会在相关关键词的锚文本中添加一些合理的链接,使链接结构看起来自然而不做作。
  第一种情况,自加权重慢,但广告单价高,流量精准有价值。 使用新闻台制作所谓的“新闻投稿”已经存在多年。 通常结算费用是按50元300条新闻链计算的。 一般情况下是一系列文章。 网站的结构是扁平树,目录结构不宜太深。 每个页面从主页点击不超过 3 次,这对于搜索引擎来说太深了。
  
  关键词优化和整站优化效果 此前,很多专家博主强调利用社交媒体跑长尾SEO,就是通过社交媒体发布长尾内容。 这其实是一个错误的想法,主要原因是:大型网站转发。 搜索引擎优化的变化关键词优化只能保证排名,而排名必须靠点击才能获得流量和访客,而访客是转化的基础。 在图像上使用 alt 属性。
  该属性可以在图片无法加载时在页面显示相关的文字信息,效果相同。 虽然我们可以利用长尾关键词对站内流量入口进行排名,但是对于蜘蛛来说,我们需要在站外建立少量的优质链接,引导蜘蛛继续爬行。 长尾关键词排名常见问题 权威网站一旦转发了长尾内容,自己的网站就很难排在大网站的前列。 至少现阶段,即使有原创链接,作用也有限。
  提高页面加载速度。 可以用css来解决不能使用背景图片的问题,也可以尝试压缩背景图片的大小,可以在一张图片上放几个图标,使用CSSsprite,利用背景位置找到想要的图片位置. 减少 HTTP 请求次数,提高网页加载速度。
  提高内容相关性随着雄跑的引入,SEO技术的排名方式正在被削弱。 也就是说,过去基于超链接技术的搜索排名将被打破,这使得新的SEO更加注重内容质量和社会影响力。 集中网站权重。
  由于蜘蛛给每个页面分配的权重是确定的,并且这些权重会平均分配给每个链接,为了集中网站的权重,我们可以使用“rel=nofollow”属性,告诉蜘蛛分配权重到其他链接而不是爬取目标页面是没有必要的。 关键词优化和全站优化的转化效果 第二种情况,自己的网站获得了快速的流量,但是广告单价低,泛滥,转化率不高。 主要区别:使用关键字挖掘工具进行查询。
  当你试图写文章关于热门关键词的文章时,我们通常会检查相关关键词的数量。 通过对多个相关关键词进行分类,合理分布在段落内容中,可以增加内容的广度,从而提高核心关键词和文章的权威性。 “内容为王”仍然发挥着非常重要的作用,尤其是在新搜索时代,百度对优质内容的支持不断加深,基于区块链技术对原创内容进行识别和保护,让优质内容能够获得合理陈列。

限时免费:伪原创助手(伪原创app下载)

采集交流优采云 发表了文章 • 0 个评论 • 88 次浏览 • 2022-12-16 19:42 • 来自相关话题

  限时免费:伪原创助手(伪原创app下载)
  内容导航:今日头条安全中心关于2021年11月26日持续打击非法账号的公告优采云一键伪原创生成原创文章,这是真的吗文章流畅的伪原创工具好用 有没有采集网站content 文章文章伪原创的软件 我用过这样的软件,推荐一下吧,感谢今日头条平台关于继续打击非法账号的公告2021年2月5日自媒体写文章好帮手,文章伪原创洗1.今日头条安全中心关于持续打击非法账号的公告 2021-11-26
  为营造清朗明朗的网络生态环境,营造安全、健康、绿色的网络空间。今日头条安全中心继续自查自纠,清理违规账号,处理自媒体账号乱象。2021年11月19日至11月25日,平台对违规账户进行封禁1个、扣分/封禁1个、清除账户信息(即“重置”)等处理。接到用户举报后,发现部分作者利用平台功能(私信等)违规宣传或辱骂他人。平台主动排查,并根据相关规定,对相关账号进行封禁、​​禁言、禁私信、并清空账户数据。不同程度的治疗。
  1. 出现以下严重违规行为的,账号将被平台封禁或封禁:
  1. 违反公序良俗
  部分违规账号名单包括:依依爱分享、油腻小鲜肉、稻香村捡柴人、留什么给你、用户林纯等。
  处置案例:
  2、其他严重违规行为被用户举报
  部分违规账号名单,如:冉琪雅、得了吧、野外阿初姐、无声编辑666、小周湘琪等。
  处置案例:
  2、如有以下违规行为,将被平台扣分或清零:
  1、模仿专业机构账户的特点
  处置案例:
  
  2.标题党
  处置案例:
  3. 引导互粉/非法增粉
  处置案例:
  今日头条坚定不移打击各类违法内容,规范头条平台运营,定期公布账号处置名单,及时辟谣,严厉打击头条党、低俗色情、谣言、恶意攻击、花钱购买虚假读数、伪原创、恶意营销等违规行为。我们将进一步加强今日头条账号管理和内容管理,构建更加健康、优质、有益、多元的网络生态。
  今日头条安全中心
  2021 年 11 月 26 日
  2. 优采云单击伪原创 生成原创文章,这是真的吗?
  是假的,即使有了这个一键式伪原创工具,生成的文章也不流畅。
  优采云软文助手是一款针对互联网垂直SEO开发的软文写作工具。优采云 颠覆行业传统写作模式,利用爬虫技术采集抓取同行业数据,利用深度学习方法进行句法语义分析。
  利用指纹索引技术,精准推荐用户需要的相关内容,智能伪原创和相似度检测分析,实现软文写作简单、高效、智能使用工具。优采云将文章采集、AI伪原创、原创检测整合在一起,实现从互联网到互联网的生态链。
  扩展信息
  如何判断伪原创的文章
  
  1、内容相似度是搜索引擎最常用的算法。使用最多的是TF/IDF算法,也是一种计算相关性的算法。TF-IDF的主要含义是:如果一个词或词组在一个文章中频繁出现而在另一个文章中很少出现,则认为该词或词组具有很好的识别能力区分类别,适合分类。
  2、数据指纹,搜索引擎在通过相似度采集文章时,需要判断是否是重复的文章。经常使用数据指纹。数据指纹的算法有很多,常见的如 文章 的标点符号提出来进行比较;
  很难想象两个不同的 文章 具有一致的标点符号。还有就是向量的比较,就是TF词频(关键词密度)等等来判断。
  现在很多伪原创工具只是替换关键词,标点符号的指纹保持不变,甚至TF词的频率也保持不变。重做文章的段落,这确实把标点打乱了,但是向量和词频的问题依然存在。
  3.代码噪音。一般Google会区分code layout和noise ratio,哪些是navigation哪些是text,可以忽略一些典型的代码。整个页面降噪,方便搜索引擎确认文字,但文字区域要适当干燥,增加搜索引擎识别重复的难度。
  3. 哪个文章流畅的伪原创工具好用?试试类AI复制伪原创工具,现在这种伪原创 文章还是很流畅的,不再是那种替换同义词或者打乱文章顺序的老办法了&gt;。前段时间在百度上找到了一个智能媒体ai写作助手来处理文章。很顺利,如果你还没有找到,你可以试试。4、文章文章伪原创采集网站内容有没有可以快速使用的软件?请推荐这种软件,谢谢。我现在在用一个叫虫虫营销助手的软件,功能非常强大,可以将大量的采集信息进行到“伪原创”,轻松发布到大型门户论坛、博客、效果不错。5.
  为切实履行企业主体责任,营造健康有序的网络环境,根据网信部门要求,今日头条头条平台进一步加强对企业主体责任的自查自纠。 自媒体账号乱码问题,彻底清理违规账号。为规范网络交流秩序,自2021年1月30日至2月5日,平台封禁1个账号,扣分/封禁1个账号。
  1.标题党
  部分违规账号名单:丝瓜咕噜咕噜、大网小七、超人记、爱泡娱乐星锐、乔妹想被保护等。
  2.粗俗
  部分违规账号名单:软雾肉肉、小东云吞、闲无聊、大吉合药、QWE一二三等。
  3.谣言
  部分违规账号名单:八卦天天看、红叶的黄、小鱼影视酱、上官青云的弟弟、各种搞笑合集等。
  分享文章:在线伪原创文章生成源码
  在线伪原创文章生成源码,2支持中英文,生成的原创文章更容易被搜索引擎青睐。在线 伪原创文章 生成器软件,3 考虑 文章 标题、字体大小、给定的链接
  在线伪原创文章生成器软件,文章末尾4,直接给原创文章外链
  在线伪原创文章生成软件,5可以在文章末尾添加相关话题,例如:想了解更多seo相关信息,可以搜索“seo 网站优化”。在线伪原创文章生成器软件,6.在线伪原创文章生成器软件,比如“seo网站优化工具”,属于纯文本知识部分,也就是谷歌认证的国内最适合人们SEO的网站工具。
  在线伪原创文章生成软件,1只能生成中文版,但是标题可以作为站名。Google 使用它来创建某些外部链接以提高关键字排名。
  
  在线伪原创文章生成软件,2 原创文章提供。
  为什么seo网站优化工具需要seo伪原创文章生成软件,3外链建设:为了增加网站的权重和排名,建议放置in external links网站 链接。
  大多数时候,我们谈论的是关键词。此时,我们认为在文章页面添加外链是最有效的,因为我们的网站也是这样更新外链的,所以为了避免这种Fair判断,我们可以在文章中加一些关键词,比如:做减肥的,做电脑维修的,做360健康的,做美容的等等。比加关键词好到 文章。seo 伪原创文章代软件
  seo伪原创文章生成软件:seo伪原创论坛谁找群文章 4.在文章中嵌入链接锚文本
  如果有必要,最好在前面链接,将要添加的链接留在顶部和底部,而不是左侧或右侧,这样更直观,更容易理解。
  
  . seo 伪原创文章代软件
  5、文章字体通常设置为默认字体,字号也设置为默认字体。字体颜色为黑色
  6、字体段落前要有两个空格。天猫SEO优化。
  7. 文章
  相关文章 查看全部

  限时免费:伪原创助手(伪原创app下载)
  内容导航:今日头条安全中心关于2021年11月26日持续打击非法账号的公告优采云一键伪原创生成原创文章,这是真的吗文章流畅的伪原创工具好用 有没有采集网站content 文章文章伪原创的软件 我用过这样的软件,推荐一下吧,感谢今日头条平台关于继续打击非法账号的公告2021年2月5日自媒体写文章好帮手,文章伪原创洗1.今日头条安全中心关于持续打击非法账号的公告 2021-11-26
  为营造清朗明朗的网络生态环境,营造安全、健康、绿色的网络空间。今日头条安全中心继续自查自纠,清理违规账号,处理自媒体账号乱象。2021年11月19日至11月25日,平台对违规账户进行封禁1个、扣分/封禁1个、清除账户信息(即“重置”)等处理。接到用户举报后,发现部分作者利用平台功能(私信等)违规宣传或辱骂他人。平台主动排查,并根据相关规定,对相关账号进行封禁、​​禁言、禁私信、并清空账户数据。不同程度的治疗。
  1. 出现以下严重违规行为的,账号将被平台封禁或封禁:
  1. 违反公序良俗
  部分违规账号名单包括:依依爱分享、油腻小鲜肉、稻香村捡柴人、留什么给你、用户林纯等。
  处置案例:
  2、其他严重违规行为被用户举报
  部分违规账号名单,如:冉琪雅、得了吧、野外阿初姐、无声编辑666、小周湘琪等。
  处置案例:
  2、如有以下违规行为,将被平台扣分或清零:
  1、模仿专业机构账户的特点
  处置案例:
  
  2.标题党
  处置案例:
  3. 引导互粉/非法增粉
  处置案例:
  今日头条坚定不移打击各类违法内容,规范头条平台运营,定期公布账号处置名单,及时辟谣,严厉打击头条党、低俗色情、谣言、恶意攻击、花钱购买虚假读数、伪原创、恶意营销等违规行为。我们将进一步加强今日头条账号管理和内容管理,构建更加健康、优质、有益、多元的网络生态。
  今日头条安全中心
  2021 年 11 月 26 日
  2. 优采云单击伪原创 生成原创文章,这是真的吗?
  是假的,即使有了这个一键式伪原创工具,生成的文章也不流畅。
  优采云软文助手是一款针对互联网垂直SEO开发的软文写作工具。优采云 颠覆行业传统写作模式,利用爬虫技术采集抓取同行业数据,利用深度学习方法进行句法语义分析。
  利用指纹索引技术,精准推荐用户需要的相关内容,智能伪原创和相似度检测分析,实现软文写作简单、高效、智能使用工具。优采云将文章采集、AI伪原创、原创检测整合在一起,实现从互联网到互联网的生态链。
  扩展信息
  如何判断伪原创的文章
  
  1、内容相似度是搜索引擎最常用的算法。使用最多的是TF/IDF算法,也是一种计算相关性的算法。TF-IDF的主要含义是:如果一个词或词组在一个文章中频繁出现而在另一个文章中很少出现,则认为该词或词组具有很好的识别能力区分类别,适合分类。
  2、数据指纹,搜索引擎在通过相似度采集文章时,需要判断是否是重复的文章。经常使用数据指纹。数据指纹的算法有很多,常见的如 文章 的标点符号提出来进行比较;
  很难想象两个不同的 文章 具有一致的标点符号。还有就是向量的比较,就是TF词频(关键词密度)等等来判断。
  现在很多伪原创工具只是替换关键词,标点符号的指纹保持不变,甚至TF词的频率也保持不变。重做文章的段落,这确实把标点打乱了,但是向量和词频的问题依然存在。
  3.代码噪音。一般Google会区分code layout和noise ratio,哪些是navigation哪些是text,可以忽略一些典型的代码。整个页面降噪,方便搜索引擎确认文字,但文字区域要适当干燥,增加搜索引擎识别重复的难度。
  3. 哪个文章流畅的伪原创工具好用?试试类AI复制伪原创工具,现在这种伪原创 文章还是很流畅的,不再是那种替换同义词或者打乱文章顺序的老办法了&gt;。前段时间在百度上找到了一个智能媒体ai写作助手来处理文章。很顺利,如果你还没有找到,你可以试试。4、文章文章伪原创采集网站内容有没有可以快速使用的软件?请推荐这种软件,谢谢。我现在在用一个叫虫虫营销助手的软件,功能非常强大,可以将大量的采集信息进行到“伪原创”,轻松发布到大型门户论坛、博客、效果不错。5.
  为切实履行企业主体责任,营造健康有序的网络环境,根据网信部门要求,今日头条头条平台进一步加强对企业主体责任的自查自纠。 自媒体账号乱码问题,彻底清理违规账号。为规范网络交流秩序,自2021年1月30日至2月5日,平台封禁1个账号,扣分/封禁1个账号。
  1.标题党
  部分违规账号名单:丝瓜咕噜咕噜、大网小七、超人记、爱泡娱乐星锐、乔妹想被保护等。
  2.粗俗
  部分违规账号名单:软雾肉肉、小东云吞、闲无聊、大吉合药、QWE一二三等。
  3.谣言
  部分违规账号名单:八卦天天看、红叶的黄、小鱼影视酱、上官青云的弟弟、各种搞笑合集等。
  分享文章:在线伪原创文章生成源码
  在线伪原创文章生成源码,2支持中英文,生成的原创文章更容易被搜索引擎青睐。在线 伪原创文章 生成器软件,3 考虑 文章 标题、字体大小、给定的链接
  在线伪原创文章生成器软件,文章末尾4,直接给原创文章外链
  在线伪原创文章生成软件,5可以在文章末尾添加相关话题,例如:想了解更多seo相关信息,可以搜索“seo 网站优化”。在线伪原创文章生成器软件,6.在线伪原创文章生成器软件,比如“seo网站优化工具”,属于纯文本知识部分,也就是谷歌认证的国内最适合人们SEO的网站工具。
  在线伪原创文章生成软件,1只能生成中文版,但是标题可以作为站名。Google 使用它来创建某些外部链接以提高关键字排名。
  
  在线伪原创文章生成软件,2 原创文章提供。
  为什么seo网站优化工具需要seo伪原创文章生成软件,3外链建设:为了增加网站的权重和排名,建议放置in external links网站 链接。
  大多数时候,我们谈论的是关键词。此时,我们认为在文章页面添加外链是最有效的,因为我们的网站也是这样更新外链的,所以为了避免这种Fair判断,我们可以在文章中加一些关键词,比如:做减肥的,做电脑维修的,做360健康的,做美容的等等。比加关键词好到 文章。seo 伪原创文章代软件
  seo伪原创文章生成软件:seo伪原创论坛谁找群文章 4.在文章中嵌入链接锚文本
  如果有必要,最好在前面链接,将要添加的链接留在顶部和底部,而不是左侧或右侧,这样更直观,更容易理解。
  
  . seo 伪原创文章代软件
  5、文章字体通常设置为默认字体,字号也设置为默认字体。字体颜色为黑色
  6、字体段落前要有两个空格。天猫SEO优化。
  7. 文章
  相关文章

解读:一个月文章句子采集软件【收费系统高标准全系列】

采集交流优采云 发表了文章 • 0 个评论 • 88 次浏览 • 2022-12-15 20:18 • 来自相关话题

  解读:一个月文章句子采集软件【收费系统高标准全系列】
  
  文章句子采集软件【文章句子采集软件】收费系统高标准全系列,总价3000元。根据采集广告形式划分系统方案,优质广告上线,为用户提供流量。针对全行业用户在流量采集方面有强大的支持,24小时不间断在线。主要方案设置以及采集时间全国任何地区,任何时间不限流量任何类型广告,无需局限在某一个地区范围提供流量采集,如。
  
  电视广告与视频广告,企业场景的采集,语音广告,动态二维码采集,图片采集等等任何您想采集的任何信息(视频、音频、图片、语音等任何相关信息)可用户根据流量采集方案的内容来选择任何一款,一键采集所需内容可免费试用一个月文章句子采集软件【文章句子采集软件】功能介绍文章句子采集采集的数据统计文章句子采集软件【文章句子采集软件】可以采集哪些内容目前,文章句子采集软件【文章句子采集软件】收集全国十几个城市,地区的包括河南河北,青海贵州等地方的电视,网络广告,语音,微信公众号,动态二维码等信息。
  图片采集文章句子采集到相关图片,可供用户直接上传自己图片,然后采集,上传自己图片。语音采集语音采集,如,上传我们电台发出的文章声音,音频等,文章句子采集软件【文章句子采集软件】收集到的信息,在用户操作中无论如何操作,用户的整个过程都必须在电脑上进行。可以实现用户在手机上直接操作,无需局限地域。 查看全部

  解读:一个月文章句子采集软件【收费系统高标准全系列】
  
  文章句子采集软件文章句子采集软件】收费系统高标准全系列,总价3000元。根据采集广告形式划分系统方案,优质广告上线,为用户提供流量。针对全行业用户在流量采集方面有强大的支持,24小时不间断在线。主要方案设置以及采集时间全国任何地区,任何时间不限流量任何类型广告,无需局限在某一个地区范围提供流量采集,如。
  
  电视广告与视频广告,企业场景的采集,语音广告,动态二维码采集,图片采集等等任何您想采集的任何信息(视频、音频、图片、语音等任何相关信息)可用户根据流量采集方案的内容来选择任何一款,一键采集所需内容可免费试用一个月文章句子采集软件文章句子采集软件】功能介绍文章句子采集采集的数据统计文章句子采集软件文章句子采集软件】可以采集哪些内容目前,文章句子采集软件文章句子采集软件】收集全国十几个城市,地区的包括河南河北,青海贵州等地方的电视,网络广告,语音,微信公众号,动态二维码等信息。
  图片采集文章句子采集到相关图片,可供用户直接上传自己图片,然后采集,上传自己图片。语音采集语音采集,如,上传我们电台发出的文章声音,音频等,文章句子采集软件文章句子采集软件】收集到的信息,在用户操作中无论如何操作,用户的整个过程都必须在电脑上进行。可以实现用户在手机上直接操作,无需局限地域。

总结:实战独立项目「几行字」:从想法到上线全过程

采集交流优采云 发表了文章 • 0 个评论 • 89 次浏览 • 2022-12-04 22:41 • 来自相关话题

  总结:实战独立项目「几行字」:从想法到上线全过程
  主意
  一开始看到毒鸡汤项目(作者自己的域名已经不能访问了,一开始也自己创建了一个学习部署的副本,网址:poison),觉得很有趣,简单又实用有趣的
  后来看到今日诗歌,就不一样了,无非就是提供一个API调用而已。
  这两篇文章都超过1000+星,这么简单的应用竟然这么受欢迎,有点羡慕
  出于好奇,接触到了vite、tailwindcss等新技术,于是想用vite搭建一个react应用,样式是用tailwindcss定制的,所以想做一个简单的应用。后来越想越有后续的打算。,直接说规划
  规划
  本项目是一整套从idea,画原型,写前端,设计,部署,后台,后台,从idea到实现
  我写这篇 文章 的计划是:
  第一阶段:提出想法,画原型,制作静态页面,部署上线,即静态独立项目
  第二阶段:用vite+react开发这个项目,添加功能,比如可选主题色,分享卡片等功能
  第三阶段:数据不能裸泳,配置后台功能和后台编辑功能
  第 4 阶段:使其成为 Flutter 版本
  第五阶段:做成小程序版
  笔者不会一口气搞定这五个阶段。有些东西只是想法,实际实施起来肯定会比想象的困难很多。
  采集材料
  在混知乎之前,我也关注了几个关于句子的问题,比如,你读过的最有力量的一段文字是什么?, 有哪些适合摘录的句子, 有的句子我很喜欢, 有的可以启发, 与其这样, 还不如采集一些好评如潮的句子, 做成毒鸡汤, 今日诗词之类的应用
  于是,我每天去知乎上传手册收录资料,加上我之前的盘点,大概采集了100多条数据(第一阶段写的),
  绘制原型
  以简单为主,能避免的都不需要。大致是这样画的
  原型
  写页初始化页
  npm init -y
  为什么要做一个函数?因为我们要用tailwind,所以官方支持这种方式,构建的时候会tree-shake,可以减少很多不必要的代码
  后续可以看官网的安装指南
  通过 npm 安装 Tailwind
  npm install tailwindcss@latest postcss@latest autoprefixer@latest
  添加 Tailwind 作为 PostCSS 插件
  // postcss.config.js
module.exports = {
plugins: {
tailwindcss: {},
autoprefixer: {},
<p>
},
}</p>
  创建tailwindcss配置文件
  npx tailwindcss init
  这将在您的项目根目录中创建一个最小的 tailwind.config.js 文件。
  // tailwind.config.js
module.exports = {
purge: [],
darkMode: false, // or &#39;media&#39; or &#39;class&#39;
theme: {
extend: {},
},
variants: {},
plugins: [],
}
  新 tailwind.css
  导入顺风代码
  @tailwind base;
@tailwind components;
@tailwind utilities;
  新索引.html
  在代码中引入css,编写html代码
  这里就不细说了,因为花了不少时间,参数也太多了。大部分都是看到自己的原型就拿走,然后删除、删除、修改。
  新数据.js
  之前搜集了很多资料,导入到data.js中,写了如下逻辑。在浏览器中读取的句子保存在本地存储中。句子是随机生成的,如果随机生成的句子在本地存储,则重新生成。当所有句子都存储在本地存储中时,清除所有本地存储。
  因为我的有些内容不是句子,而是数组,所以在插入内容的时候需要判断,根据不同的情况做出不同的效果
  这里遇到了一些问题,记录一下。太久没写原作了。我忘记了用于插入 html 的 API。我忘记了 innerHTML 和 appendChild 之间的区别。
  innerHTML:可以插入一段html,例如
  我是p标签
  appendChild : 在内容末尾插入节点,先创建标签,再插入
  封装成三种方法,分别是拉取数据、保存本地存储、插入网页
  制作设计
  我参考了一些其他人关于制作logo的建议,最推荐的是logo神器。我按照提示操作,这就是设计。
  
  标识
  很遗憾,从个人审美角度来说,这个设计太蠢了,所以用Photoshop做了一个,
  SEO 优化的图标处理
  从logo中扣除几个字,上传到网站,导出favicon,
  设置头部信息
  


几行字









  关键词我不会写,先写吧,以后有灵感再补上
  部署
  笔者之前写过使用Github Actions部署前端,也成功部署过毒鸡汤。大致流程如下
  申请阿里云容器镜像服务,将代码推送到Github仓库,触发Github Actions,在Github Actions中登录阿里云容器镜像服务,将代码打包成镜像,推送到个人镜像站远端,登录服务器,执行拉取镜像的脚本
  主要逻辑是这样的,但是实现起来很麻烦。最好直接部署。什么是直接部署就是本地部署到线上。最有用的是now,也就是current vercel。笔者之前部署过几个项目。,好熟悉的路
  直接部署上线:
  在阿里云上做一些映射:
  这是第一阶段的结束
  技巧:SEO基础入门专业词汇大全,想转行的来看~
  内部和外部链接,页面 收录 和页面收录,
  链接农场与内容农场,静态页面与动态页面,
  文本链接、超链接、锚文本链接
  重量
  首先你要明白,百度的权重并不是百度官方的数据,而是根据爱站设定的公式计算出来的。可以通过人工操作增加百度的权重。
  但是,权重仍然是SEO从业者分析网站的一个数据标准。当我们审视权重的本质时,我们正在审视 网站 的质量。一般认为,权重越高的网站在收录量、快照、核心关键词排名、外部链接和alex排名方面表现更好。但是只看重量是不够的,判断网站的质量还需要判断网站的历史收录数量,从而判断网站是否有被降级。
  因此,评价一款网站的好坏,不仅要看当前的数据,还要查看其历史收录的成交量,进行对比。可能有问题。
  在具有正常结构的网站中,权重的顺序如下:
  首页&gt;子域首页&gt;顶级域下目录&gt;子域下同级目录&gt;顶级域下内容页&gt;子域下内容页
  作者的经历:
  真正提高网站权重(非作弊)的方法应该是内外兼修:
  外部:高质量的外部链接支持
  内部:网站内容建设,增加网站收录数量,提升网站品牌知名度,加强网站社交网站传播
  关键词
  在搜索引擎中,关键词是指用户在寻找相关内容时使用的信息。它是搜索应用的基础,搜索引擎优化的本质是提高页面与其对应的关键词性的相关性。
  在SEO领域,关键词分为:主关键词(也叫核心词),辅助关键词(也叫副关键词),长尾关键词
  
  在构建网站之前,我们需要确定我们的核心关键词布局在首页,辅助关键词布局在栏目页,确定长尾关键词 在内容页面上布局。
  首选域
  首选域是我们希望 网站 出现在搜索结果中的格式。也就是说,当我们访问网站的首页时,显示的域名是网站的首选域名。
  作者的经历:
  我们的首选域名尽量设置成诸如此类的形式,这与国人的阅读习惯有关。我们可以在空间后台设置首选域名。
  ALT 属性
  alt属性是对图片所表达内容的解释。如果将光标放在图片上,出现提示,则说明该图片添加了alt属性。
  alt 属性具有以下作用:
  1.帮助搜索引擎识别图片内容
  2.增强内容相关性,帮助图片参与排名
  3、alt属性帮助用户了解图片内容
  4.当图片无法正常显示时,用户知道这里显示的是什么内容,因为alt属性是图片最好的替代品
  5、如果要做图片优化,不仅要加alt标签,还要在图片下面加上关键词和链接
  作者的经历:
  ALT属性是搜索引擎比较重视的一个属性,所以我们在设置alt属性的时候应该尽量用简洁明了的方式来表达图片的内容,而不是堆砌关键词。也就是说,我们只需要说明图片中是什么产品或内容即可。
  值得注意的是,无论用什么方式来表达图片的内容,alt永远无法替代文字内容。所以当我们在页面上遇到比较重要的内容时,我们应该尽量避免用图片来表达。
  网站地图
  
  网站地图是网站整体内容的导航,主要包括网站的主要页面
  网站地图的作用:
  1.路径优化的补充。有些路径关卡会很深,蜘蛛自己可能很难掌握,所以需要一张地图让蜘蛛自己掌握
  2、网站的内容质量有问题,需要微调,但是搜索引擎不知道网站变了。这时候就需要更新地图,让蜘蛛重新爬行
  作者的经历:
  新的网站不需要网站地图,网站达到一定等级后才需要网站地图,网站地图一般都是以xml格式使用。
  使用工具产生实际行动:
  一、准备工具:
  在线的:
  软件:SitemapX、Tiger 站点地图
  2、上传到根目录也可以,也可以不上传,但是一定要记住地图所在的路径。
  百度指数
  官方介绍是这样的:百度指数是一个基于百度海量互联网用户行为数据的数据共享平台。通过百度指数,您可以研究关键词搜索趋势,洞察网民兴趣和需求,监测舆情动向,定位受众特征。
  自2013年百度指数改版以来,这个工具的功能越来越强大,已经成为我们SEO从业者分析受众需求的必备工具之一。
  另外要提醒大家的是,百度指数不等于关键词的搜索量,百度指数只是一个关键词的搜索频次的累加,而搜索量是这个关键词的真实搜索量,如果想知道某个关键词的准确搜索量,需要用百度推广助手查询。 查看全部

  总结:实战独立项目「几行字」:从想法到上线全过程
  主意
  一开始看到毒鸡汤项目(作者自己的域名已经不能访问了,一开始也自己创建了一个学习部署的副本,网址:poison),觉得很有趣,简单又实用有趣的
  后来看到今日诗歌,就不一样了,无非就是提供一个API调用而已。
  这两篇文章都超过1000+星,这么简单的应用竟然这么受欢迎,有点羡慕
  出于好奇,接触到了vite、tailwindcss等新技术,于是想用vite搭建一个react应用,样式是用tailwindcss定制的,所以想做一个简单的应用。后来越想越有后续的打算。,直接说规划
  规划
  本项目是一整套从idea,画原型,写前端,设计,部署,后台,后台,从idea到实现
  我写这篇 文章 的计划是:
  第一阶段:提出想法,画原型,制作静态页面,部署上线,即静态独立项目
  第二阶段:用vite+react开发这个项目,添加功能,比如可选主题色,分享卡片等功能
  第三阶段:数据不能裸泳,配置后台功能和后台编辑功能
  第 4 阶段:使其成为 Flutter 版本
  第五阶段:做成小程序版
  笔者不会一口气搞定这五个阶段。有些东西只是想法,实际实施起来肯定会比想象的困难很多。
  采集材料
  在混知乎之前,我也关注了几个关于句子的问题,比如,你读过的最有力量的一段文字是什么?, 有哪些适合摘录的句子, 有的句子我很喜欢, 有的可以启发, 与其这样, 还不如采集一些好评如潮的句子, 做成毒鸡汤, 今日诗词之类的应用
  于是,我每天去知乎上传手册收录资料,加上我之前的盘点,大概采集了100多条数据(第一阶段写的),
  绘制原型
  以简单为主,能避免的都不需要。大致是这样画的
  原型
  写页初始化页
  npm init -y
  为什么要做一个函数?因为我们要用tailwind,所以官方支持这种方式,构建的时候会tree-shake,可以减少很多不必要的代码
  后续可以看官网的安装指南
  通过 npm 安装 Tailwind
  npm install tailwindcss@latest postcss@latest autoprefixer@latest
  添加 Tailwind 作为 PostCSS 插件
  // postcss.config.js
module.exports = {
plugins: {
tailwindcss: {},
autoprefixer: {},
<p>
},
}</p>
  创建tailwindcss配置文件
  npx tailwindcss init
  这将在您的项目根目录中创建一个最小的 tailwind.config.js 文件。
  // tailwind.config.js
module.exports = {
purge: [],
darkMode: false, // or &#39;media&#39; or &#39;class&#39;
theme: {
extend: {},
},
variants: {},
plugins: [],
}
  新 tailwind.css
  导入顺风代码
  @tailwind base;
@tailwind components;
@tailwind utilities;
  新索引.html
  在代码中引入css,编写html代码
  这里就不细说了,因为花了不少时间,参数也太多了。大部分都是看到自己的原型就拿走,然后删除、删除、修改。
  新数据.js
  之前搜集了很多资料,导入到data.js中,写了如下逻辑。在浏览器中读取的句子保存在本地存储中。句子是随机生成的,如果随机生成的句子在本地存储,则重新生成。当所有句子都存储在本地存储中时,清除所有本地存储。
  因为我的有些内容不是句子,而是数组,所以在插入内容的时候需要判断,根据不同的情况做出不同的效果
  这里遇到了一些问题,记录一下。太久没写原作了。我忘记了用于插入 html 的 API。我忘记了 innerHTML 和 appendChild 之间的区别。
  innerHTML:可以插入一段html,例如
  我是p标签
  appendChild : 在内容末尾插入节点,先创建标签,再插入
  封装成三种方法,分别是拉取数据、保存本地存储、插入网页
  制作设计
  我参考了一些其他人关于制作logo的建议,最推荐的是logo神器。我按照提示操作,这就是设计。
  
  标识
  很遗憾,从个人审美角度来说,这个设计太蠢了,所以用Photoshop做了一个,
  SEO 优化的图标处理
  从logo中扣除几个字,上传到网站,导出favicon,
  设置头部信息
  


几行字









  关键词我不会写,先写吧,以后有灵感再补上
  部署
  笔者之前写过使用Github Actions部署前端,也成功部署过毒鸡汤。大致流程如下
  申请阿里云容器镜像服务,将代码推送到Github仓库,触发Github Actions,在Github Actions中登录阿里云容器镜像服务,将代码打包成镜像,推送到个人镜像站远端,登录服务器,执行拉取镜像的脚本
  主要逻辑是这样的,但是实现起来很麻烦。最好直接部署。什么是直接部署就是本地部署到线上。最有用的是now,也就是current vercel。笔者之前部署过几个项目。,好熟悉的路
  直接部署上线:
  在阿里云上做一些映射:
  这是第一阶段的结束
  技巧:SEO基础入门专业词汇大全,想转行的来看~
  内部和外部链接,页面 收录 和页面收录,
  链接农场与内容农场,静态页面与动态页面,
  文本链接、超链接、锚文本链接
  重量
  首先你要明白,百度的权重并不是百度官方的数据,而是根据爱站设定的公式计算出来的。可以通过人工操作增加百度的权重。
  但是,权重仍然是SEO从业者分析网站的一个数据标准。当我们审视权重的本质时,我们正在审视 网站 的质量。一般认为,权重越高的网站在收录量、快照、核心关键词排名、外部链接和alex排名方面表现更好。但是只看重量是不够的,判断网站的质量还需要判断网站的历史收录数量,从而判断网站是否有被降级。
  因此,评价一款网站的好坏,不仅要看当前的数据,还要查看其历史收录的成交量,进行对比。可能有问题。
  在具有正常结构的网站中,权重的顺序如下:
  首页&gt;子域首页&gt;顶级域下目录&gt;子域下同级目录&gt;顶级域下内容页&gt;子域下内容页
  作者的经历:
  真正提高网站权重(非作弊)的方法应该是内外兼修:
  外部:高质量的外部链接支持
  内部:网站内容建设,增加网站收录数量,提升网站品牌知名度,加强网站社交网站传播
  关键词
  在搜索引擎中,关键词是指用户在寻找相关内容时使用的信息。它是搜索应用的基础,搜索引擎优化的本质是提高页面与其对应的关键词性的相关性。
  在SEO领域,关键词分为:主关键词(也叫核心词),辅助关键词(也叫副关键词),长尾关键词
  
  在构建网站之前,我们需要确定我们的核心关键词布局在首页,辅助关键词布局在栏目页,确定长尾关键词 在内容页面上布局。
  首选域
  首选域是我们希望 网站 出现在搜索结果中的格式。也就是说,当我们访问网站的首页时,显示的域名是网站的首选域名。
  作者的经历:
  我们的首选域名尽量设置成诸如此类的形式,这与国人的阅读习惯有关。我们可以在空间后台设置首选域名。
  ALT 属性
  alt属性是对图片所表达内容的解释。如果将光标放在图片上,出现提示,则说明该图片添加了alt属性。
  alt 属性具有以下作用:
  1.帮助搜索引擎识别图片内容
  2.增强内容相关性,帮助图片参与排名
  3、alt属性帮助用户了解图片内容
  4.当图片无法正常显示时,用户知道这里显示的是什么内容,因为alt属性是图片最好的替代品
  5、如果要做图片优化,不仅要加alt标签,还要在图片下面加上关键词和链接
  作者的经历:
  ALT属性是搜索引擎比较重视的一个属性,所以我们在设置alt属性的时候应该尽量用简洁明了的方式来表达图片的内容,而不是堆砌关键词。也就是说,我们只需要说明图片中是什么产品或内容即可。
  值得注意的是,无论用什么方式来表达图片的内容,alt永远无法替代文字内容。所以当我们在页面上遇到比较重要的内容时,我们应该尽量避免用图片来表达。
  网站地图
  
  网站地图是网站整体内容的导航,主要包括网站的主要页面
  网站地图的作用:
  1.路径优化的补充。有些路径关卡会很深,蜘蛛自己可能很难掌握,所以需要一张地图让蜘蛛自己掌握
  2、网站的内容质量有问题,需要微调,但是搜索引擎不知道网站变了。这时候就需要更新地图,让蜘蛛重新爬行
  作者的经历:
  新的网站不需要网站地图,网站达到一定等级后才需要网站地图,网站地图一般都是以xml格式使用。
  使用工具产生实际行动:
  一、准备工具:
  在线的:
  软件:SitemapX、Tiger 站点地图
  2、上传到根目录也可以,也可以不上传,但是一定要记住地图所在的路径。
  百度指数
  官方介绍是这样的:百度指数是一个基于百度海量互联网用户行为数据的数据共享平台。通过百度指数,您可以研究关键词搜索趋势,洞察网民兴趣和需求,监测舆情动向,定位受众特征。
  自2013年百度指数改版以来,这个工具的功能越来越强大,已经成为我们SEO从业者分析受众需求的必备工具之一。
  另外要提醒大家的是,百度指数不等于关键词的搜索量,百度指数只是一个关键词的搜索频次的累加,而搜索量是这个关键词的真实搜索量,如果想知道某个关键词的准确搜索量,需要用百度推广助手查询。

解决方案:文章句子采集软件,自动化的句子匹配软件-乐题库

采集交流优采云 发表了文章 • 0 个评论 • 78 次浏览 • 2022-12-02 22:35 • 来自相关话题

  解决方案:文章句子采集软件,自动化的句子匹配软件-乐题库
  文章句子采集软件,自动化的句子匹配软件。任务目标:根据出发点“辞旧迎新”,自动匹配从不同表达上的语言特征和文本特征。方法:主要根据《新编汉语语言研究教程》提到的机器学习算法进行数据采集。
  4),
  4)和一段话(t1,t2t
  
  4)。因为新书原文没有进行文本格式转换,我们需要下载字典文件并对其进行格式化。我们采用kaldi下一种特定的文本识别算法。与其他算法的流程是一样的,首先搜索候选词汇,然后构建文本库。
  一段话例如a:今日暑假开始啦b:今日晴空万里c:今日雨水多d:今日特别热e:今日金秋阳光灿烂f:a:为了庆祝#,#上演#戏戏戏歌戏#戏街戏院戏戏#戏戏#演#戏#剧#戏院#院戏演戏#院剧剧#戏#院#戏戏#话戏#戏院院#话话话话话-e"o"endendmodelsandmethods:
  1)utilizethefrontiertoembeddingandfine-grainednetworkrepresentations.trainafrontierintroductiontothiscaseandthedataset.
  
  2)trainembeddingandsemanticmatchingcodeincartographicfuturetomakethenetworkmatchestheprefixesofencoderstandardsandfocusthrougheasingofthecode,andmakedatagapbetweenthesentence,andeachofthecodetomatchthenercontent,language,andwordembeddingfeatures。
  testembeddings,copythebook,andrunthetestbydatadownloadertodisplaymodelpresentation。(。
  3)runembeddingsusingattentionmechanismandtrainwordembeddingsandsimilaritymatchingannotatethefigurebackgroundsandpresentationsonattentionmechanism。thiswillreplacebackgroundclassificationsbygeneratingatleastembeddings。testdatafromcartographicnetwork。(。
  4)displayembeddingsinenglishandfrenchpartially,andgeneratewordautocorrectnessvaluesforimplicittraining.testembeddingsinfrench.使用吴恩达机器学习在线课 查看全部

  解决方案:文章句子采集软件,自动化的句子匹配软件-乐题库
  文章句子采集软件,自动化的句子匹配软件。任务目标:根据出发点“辞旧迎新”,自动匹配从不同表达上的语言特征和文本特征。方法:主要根据《新编汉语语言研究教程》提到的机器学习算法进行数据采集。
  4),
  4)和一段话(t1,t2t
  
  4)。因为新书原文没有进行文本格式转换,我们需要下载字典文件并对其进行格式化。我们采用kaldi下一种特定的文本识别算法。与其他算法的流程是一样的,首先搜索候选词汇,然后构建文本库。
  一段话例如a:今日暑假开始啦b:今日晴空万里c:今日雨水多d:今日特别热e:今日金秋阳光灿烂f:a:为了庆祝#,#上演#戏戏戏歌戏#戏街戏院戏戏#戏戏#演#戏#剧#戏院#院戏演戏#院剧剧#戏#院#戏戏#话戏#戏院院#话话话话话-e"o"endendmodelsandmethods:
  1)utilizethefrontiertoembeddingandfine-grainednetworkrepresentations.trainafrontierintroductiontothiscaseandthedataset.
  
  2)trainembeddingandsemanticmatchingcodeincartographicfuturetomakethenetworkmatchestheprefixesofencoderstandardsandfocusthrougheasingofthecode,andmakedatagapbetweenthesentence,andeachofthecodetomatchthenercontent,language,andwordembeddingfeatures。
  testembeddings,copythebook,andrunthetestbydatadownloadertodisplaymodelpresentation。(。
  3)runembeddingsusingattentionmechanismandtrainwordembeddingsandsimilaritymatchingannotatethefigurebackgroundsandpresentationsonattentionmechanism。thiswillreplacebackgroundclassificationsbygeneratingatleastembeddings。testdatafromcartographicnetwork。(。
  4)displayembeddingsinenglishandfrenchpartially,andgeneratewordautocorrectnessvaluesforimplicittraining.testembeddingsinfrench.使用吴恩达机器学习在线课

直观:多句子同时采集,速度比较快,句子全覆盖!

采集交流优采云 发表了文章 • 0 个评论 • 109 次浏览 • 2022-12-01 23:25 • 来自相关话题

  直观:多句子同时采集,速度比较快,句子全覆盖!
  文章句子采集软件,一款非常好用的文章句子采集软件,和智能采集一样,多句子同时采集!速度比较快,句子全覆盖!软件提供免费试用版!试用版功能:免费试用版提供一键多句采集功能,和智能采集一样,多句子同时采集!句子采集,和采集关键词结合使用,实现找词功能,
  
  蝉大师_专业数据采集软件对这个问题有一定的了解,云采集器确实可以实现多文章互采,在采集速度和效率方面确实有一定的优势,但互采成本却在增加,而且文章的数量随着人工打理,存在一定的不可控因素,所以人工采集某些不可控因素越来越少,但多句子采集还是有很大的市场需求,云采集器毕竟存在的不是很久,所以市场需求不够强烈。
  
  智能采集也是一个必不可少的功能,但是高并发采集确实存在一定的不可控性,比如高并发的断网等问题,这个确实是无法预计的,但这些小问题并不妨碍多句子采集这个功能的出现。即便不考虑硬件问题,云采集器采集效率也还是相对比较慢,关键是多句子采集可以自动监控目标网站的数据变化并及时采集,存在一定的非主动操作的要求,毕竟用户采集的是关键字并不是长难句。
  针对题主提出的,采集网页文章虽然对用户的要求较高,但用户目前大多数处于潜在用户的状态,需要培养用户的习惯,针对该问题,有些答案也指出,目前多句子采集能在上线测试期间尽量提高准确率,这对未来将是很有意义的,毕竟很多用户也不是根据多句子来对网站进行采集的,但积极响应确实能提高用户体验。希望我的回答能帮助到你。 查看全部

  直观:多句子同时采集,速度比较快,句子全覆盖!
  文章句子采集软件,一款非常好用的文章句子采集软件,和智能采集一样,多句子同时采集!速度比较快,句子全覆盖!软件提供免费试用版!试用版功能:免费试用版提供一键多句采集功能,和智能采集一样,多句子同时采集!句子采集,和采集关键词结合使用,实现找词功能,
  
  蝉大师_专业数据采集软件对这个问题有一定的了解,云采集器确实可以实现多文章互采,在采集速度和效率方面确实有一定的优势,但互采成本却在增加,而且文章的数量随着人工打理,存在一定的不可控因素,所以人工采集某些不可控因素越来越少,但多句子采集还是有很大的市场需求,云采集器毕竟存在的不是很久,所以市场需求不够强烈。
  
  智能采集也是一个必不可少的功能,但是高并发采集确实存在一定的不可控性,比如高并发的断网等问题,这个确实是无法预计的,但这些小问题并不妨碍多句子采集这个功能的出现。即便不考虑硬件问题,云采集器采集效率也还是相对比较慢,关键是多句子采集可以自动监控目标网站的数据变化并及时采集,存在一定的非主动操作的要求,毕竟用户采集的是关键字并不是长难句。
  针对题主提出的,采集网页文章虽然对用户的要求较高,但用户目前大多数处于潜在用户的状态,需要培养用户的习惯,针对该问题,有些答案也指出,目前多句子采集能在上线测试期间尽量提高准确率,这对未来将是很有意义的,毕竟很多用户也不是根据多句子来对网站进行采集的,但积极响应确实能提高用户体验。希望我的回答能帮助到你。

技巧:文章句子采集需要分词,以及分词后如何组织句子的基本知识

采集交流优采云 发表了文章 • 0 个评论 • 98 次浏览 • 2022-11-30 23:14 • 来自相关话题

  技巧:文章句子采集需要分词,以及分词后如何组织句子的基本知识
  文章句子采集软件是一个灵活性很高的软件,那么采集什么句子就变成了非常关键的问题。什么样的句子容易采集呢?不太有规律的?有故事性的?简单句?一言不合的?长句?如果想采集比较高质量的句子,就需要分词。本文将介绍采集需要分词,以及分词后如何组织句子的基本知识。什么是分词?如何区分词性?在有限的语料中,根据准确性高低,将多个词汇(包括近义词,表达方式一致的词汇)的意思归纳为一个中心词。
  每个词汇都是其中心词的变体。在一个由多个词构成的句子中,所有词汇都是句子的语义句法单位。语义句法单位是一个没有词汇之间区别的特殊句法结构。语义句法结构必须是句子的语义单位组成。在词的前后,可以有其他单词,其中可以没有词性区别的词语作为中心词。中心词是一个句子当中的核心词。大多数句子都会包含至少一个中心词,但是也有少数句子至少有两个中心词。
  
  分词:根据词性划分不同词类。汉语:按照字母顺序,或根据汉字内部的写法划分词类。目前分词软件通常将汉字分成。
  一、
  三、五类,分别是「部、字、声」、「落、会、声」、「价、量、表」、「元、量、元」、「今、必、达、比、达」。英语:按照单词首字母的大小划分词类。
  
  由于一词多义,
  三、五类。目前主流的分词软件有googleword2vec,wordnest等,分词准确率99%以上。通常采集的是动词,名词,形容词,副词这四大词类。不同的词类,采集起来难度不同。分词后,如何组织句子?把一个词组合成成短语,一个中心词,两个或者多个短语,正是一段语言的一部分。短语的划分,和句子比较像,也是按照字母顺序。
  只不过换成了一个中心词。如何将采集到的短语组合成句子:采集到的句子,可以直接编辑,并且可以分词后复制多次粘贴到任何地方。当然,如果是采集的非常灵活的句子,可以每个字拆分组合成短语,或将词变换成短语形式,或直接进行词性转换。能够采集到句子中没有出现过的字,甚至一个单词的变体,词性复杂的词,如代词,方言词,数字词,书面语,缩略语,语气词,过时语等都可以采集到。
  句子的结构如果没有明确的句子结构,无法进行上下文定位。因此采集到的大多数句子,可以按照词性划分成段落。如何对采集到的段落进行组织和拆分拆分字数可以按照两个句子,甚至多个句子进行划分。方法:将每个采集到的句子的每个单词拆分为另外一个句子。或者将每个采集到的句子里的一个单词拆分成两个或以上句子。将每个采集到的句子里的两个或以上句子放在一个单元格中。排列在一起的两个单元格分别对应每个句子一个单元。 查看全部

  技巧:文章句子采集需要分词,以及分词后如何组织句子的基本知识
  文章句子采集软件是一个灵活性很高的软件,那么采集什么句子就变成了非常关键的问题。什么样的句子容易采集呢?不太有规律的?有故事性的?简单句?一言不合的?长句?如果想采集比较高质量的句子,就需要分词。本文将介绍采集需要分词,以及分词后如何组织句子的基本知识。什么是分词?如何区分词性?在有限的语料中,根据准确性高低,将多个词汇(包括近义词,表达方式一致的词汇)的意思归纳为一个中心词。
  每个词汇都是其中心词的变体。在一个由多个词构成的句子中,所有词汇都是句子的语义句法单位。语义句法单位是一个没有词汇之间区别的特殊句法结构。语义句法结构必须是句子的语义单位组成。在词的前后,可以有其他单词,其中可以没有词性区别的词语作为中心词。中心词是一个句子当中的核心词。大多数句子都会包含至少一个中心词,但是也有少数句子至少有两个中心词。
  
  分词:根据词性划分不同词类。汉语:按照字母顺序,或根据汉字内部的写法划分词类。目前分词软件通常将汉字分成。
  一、
  三、五类,分别是「部、字、声」、「落、会、声」、「价、量、表」、「元、量、元」、「今、必、达、比、达」。英语:按照单词首字母的大小划分词类。
  
  由于一词多义,
  三、五类。目前主流的分词软件有googleword2vec,wordnest等,分词准确率99%以上。通常采集的是动词,名词,形容词,副词这四大词类。不同的词类,采集起来难度不同。分词后,如何组织句子?把一个词组合成成短语,一个中心词,两个或者多个短语,正是一段语言的一部分。短语的划分,和句子比较像,也是按照字母顺序。
  只不过换成了一个中心词。如何将采集到的短语组合成句子:采集到的句子,可以直接编辑,并且可以分词后复制多次粘贴到任何地方。当然,如果是采集的非常灵活的句子,可以每个字拆分组合成短语,或将词变换成短语形式,或直接进行词性转换。能够采集到句子中没有出现过的字,甚至一个单词的变体,词性复杂的词,如代词,方言词,数字词,书面语,缩略语,语气词,过时语等都可以采集到。
  句子的结构如果没有明确的句子结构,无法进行上下文定位。因此采集到的大多数句子,可以按照词性划分成段落。如何对采集到的段落进行组织和拆分拆分字数可以按照两个句子,甚至多个句子进行划分。方法:将每个采集到的句子的每个单词拆分为另外一个句子。或者将每个采集到的句子里的一个单词拆分成两个或以上句子。将每个采集到的句子里的两个或以上句子放在一个单元格中。排列在一起的两个单元格分别对应每个句子一个单元。

教程:给大家推荐几款公众号运营软件,素材大全,编辑器

采集交流优采云 发表了文章 • 0 个评论 • 214 次浏览 • 2022-11-30 00:38 • 来自相关话题

  教程:给大家推荐几款公众号运营软件,素材大全,编辑器
  一、一个伙伴
  公众号运营神器:yiban.io/
  运营公众号不能错过的编辑器插件神器。与市面上其他编辑器相比,OnePartner直接在微信自带的编辑器上优化功能,无需从其他网站复制粘贴样式。
  特殊功能:
  1. 除了风格中心的素材,其他文章、风格、图片、视频也可以在风格中心采集

  2.通过全网搜索掌握微博、知乎、微信等平台的最新热点新闻。
  3.图片中心在线搜索GIF动图、免版权图库、表情包。
  4、详尽的数据分析,可导出打开率、消息率、点赞率、阅读量、分享量等数十项图形数据,方便运营商分析。
  使用易版可以大大提高我们的工作效率,让我们可以把更多的时间花在创作内容上。
  2.设计稿
  营销设计神器:/4ddc
  设计稿是设计新手的福音。是专为新媒体运营商、电子商务运营商、专业人士和设计爱好者设计的在线设计工具。
  比如公众号的第一张图,可以直接套用现成的模板。选择你喜欢的模板进入编辑器,在线替换文字和图片,然后下载完成一张高质量的封面图。而且这个网站在追踪热点方面是一流的,热门事件的第一张图片和相关模板可以在1小时内响应,这对于热点来说非常方便。
  
  小红书也有现成的内容模板。在类型选项中,点击“带图片的小红书”。选择好模板后,你还可以根据自己的内容更改文字和图片,不到一分钟就可以做出精美的小红书内容笔记。
  至于小红书的视频封面,包括平时做其他视频内容的同学,经常会为做视频封面发愁。在类型中选择“竖版视频封面”和“横版视频封面”,同样可以一键解决!
  3.定稿材料
  正版商业素材站:/4ddd
  普通文章找不到高清图片?担心侵犯版权?高清正版图片无限下载,你想要的这里都有。
  Draft素材是Draft Design旗下的亿级综合素材站,拥有8000万张图片、1000万张矢量图、100万个视频、1000万个平面模板PSD源文件、1000万个免费素材和字体。网站上的所有资料均已获得许可并可在市场上买到,因此无需担心侵犯版权。
  面对如此海量的素材,找素材还是很方便的,因为会匹配场景和行业用途,将优质的相似素材做成话题,可以高效选图;也延续了设计稿的热点追踪技巧,会及时匹配更新热点相关素材话题。
  4.SOOGIF,gif制作神器/
  
  平时编辑文章需要各种动图?除了四处看看,您还可以自己制作。
  SOOGIF可以在线编辑制作,超级方便。适用于从视频中提取GIF的朋友;粘贴视频网址,选择GIF范围,直接生成下载即可。
  5. Graphite document,一个可以制作思维导图和做笔记的工具,shimo.im/
  注册后即可实现手机与电脑同步数据,在“新建”中选择需要的功能(文档、表格、幻灯片等)
  注:手机端没有思维导图功能,只有客户端有。
  您可以对材料进行分类。只要找到喜欢的文章和句子,就可以及时保存。时间长了,你就会形成自己的素材库。
  6. 新增榜单、数据分析平台、/
  基于移动端全平台内容权威大数据:按日、周、月、年,按24大权威发布以微信为代表的中国各媒体平台最真实、最有价值的运营榜单分类,方便用户了解新媒体的整体发展情况,为用户提供有效的参考指导。
  免费获取:头条百家号采集伪原创工具 采集伪原创工具下载
  今日头条百家的老铁智能伪原创工具可以下载。打开软件后,先采集
关键词,输入你要的关键词,点击输入,然后点击单篇文章采集
,等待系统自动采集
关键词文章。非常值得下载体验,有需要的朋友不要错过!
  
  老铁智能伪原创工具:设置要保存文章的格式。如果自己阅读,可以直接保存为TXT。如果你是做网站,建议你保存成TXT格式+带图片排版,因为方便修改。
  我们在老铁的智能伪原创工具中打开原创文章过滤器,过滤刚刚收录的文章,过滤掉原创度高的文章。
  
  内容筛选出来后,使用老铁智能伪原创工具中的发布工具进行发布。这取决于您使用的程序。优采云
基本上可以在很多里面发表。我使用 Imperial CMS,所以我下载了一个帝国文章更新器!
  定期更新文章到网站后,我们需要把首页做的好一点,然后等待百度和各大引擎收录。嗯,一个高度垂直的网站就这样建立起来了! 查看全部

  教程:给大家推荐几款公众号运营软件,素材大全,编辑器
  一、一个伙伴
  公众号运营神器:yiban.io/
  运营公众号不能错过的编辑器插件神器。与市面上其他编辑器相比,OnePartner直接在微信自带的编辑器上优化功能,无需从其他网站复制粘贴样式。
  特殊功能:
  1. 除了风格中心的素材,其他文章、风格、图片、视频也可以在风格中心采集

  2.通过全网搜索掌握微博、知乎、微信等平台的最新热点新闻。
  3.图片中心在线搜索GIF动图、免版权图库、表情包。
  4、详尽的数据分析,可导出打开率、消息率、点赞率、阅读量、分享量等数十项图形数据,方便运营商分析。
  使用易版可以大大提高我们的工作效率,让我们可以把更多的时间花在创作内容上。
  2.设计稿
  营销设计神器:/4ddc
  设计稿是设计新手的福音。是专为新媒体运营商、电子商务运营商、专业人士和设计爱好者设计的在线设计工具。
  比如公众号的第一张图,可以直接套用现成的模板。选择你喜欢的模板进入编辑器,在线替换文字和图片,然后下载完成一张高质量的封面图。而且这个网站在追踪热点方面是一流的,热门事件的第一张图片和相关模板可以在1小时内响应,这对于热点来说非常方便。
  
  小红书也有现成的内容模板。在类型选项中,点击“带图片的小红书”。选择好模板后,你还可以根据自己的内容更改文字和图片,不到一分钟就可以做出精美的小红书内容笔记。
  至于小红书的视频封面,包括平时做其他视频内容的同学,经常会为做视频封面发愁。在类型中选择“竖版视频封面”和“横版视频封面”,同样可以一键解决!
  3.定稿材料
  正版商业素材站:/4ddd
  普通文章找不到高清图片?担心侵犯版权?高清正版图片无限下载,你想要的这里都有。
  Draft素材是Draft Design旗下的亿级综合素材站,拥有8000万张图片、1000万张矢量图、100万个视频、1000万个平面模板PSD源文件、1000万个免费素材和字体。网站上的所有资料均已获得许可并可在市场上买到,因此无需担心侵犯版权。
  面对如此海量的素材,找素材还是很方便的,因为会匹配场景和行业用途,将优质的相似素材做成话题,可以高效选图;也延续了设计稿的热点追踪技巧,会及时匹配更新热点相关素材话题。
  4.SOOGIF,gif制作神器/
  
  平时编辑文章需要各种动图?除了四处看看,您还可以自己制作。
  SOOGIF可以在线编辑制作,超级方便。适用于从视频中提取GIF的朋友;粘贴视频网址,选择GIF范围,直接生成下载即可。
  5. Graphite document,一个可以制作思维导图和做笔记的工具,shimo.im/
  注册后即可实现手机与电脑同步数据,在“新建”中选择需要的功能(文档、表格、幻灯片等)
  注:手机端没有思维导图功能,只有客户端有。
  您可以对材料进行分类。只要找到喜欢的文章和句子,就可以及时保存。时间长了,你就会形成自己的素材库。
  6. 新增榜单、数据分析平台、/
  基于移动端全平台内容权威大数据:按日、周、月、年,按24大权威发布以微信为代表的中国各媒体平台最真实、最有价值的运营榜单分类,方便用户了解新媒体的整体发展情况,为用户提供有效的参考指导。
  免费获取:头条百家号采集伪原创工具 采集伪原创工具下载
  今日头条百家的老铁智能伪原创工具可以下载。打开软件后,先采集
关键词,输入你要的关键词,点击输入,然后点击单篇文章采集
,等待系统自动采集
关键词文章。非常值得下载体验,有需要的朋友不要错过!
  
  老铁智能伪原创工具:设置要保存文章的格式。如果自己阅读,可以直接保存为TXT。如果你是做网站,建议你保存成TXT格式+带图片排版,因为方便修改。
  我们在老铁的智能伪原创工具中打开原创文章过滤器,过滤刚刚收录的文章,过滤掉原创度高的文章。
  
  内容筛选出来后,使用老铁智能伪原创工具中的发布工具进行发布。这取决于您使用的程序。优采云
基本上可以在很多里面发表。我使用 Imperial CMS,所以我下载了一个帝国文章更新器!
  定期更新文章到网站后,我们需要把首页做的好一点,然后等待百度和各大引擎收录。嗯,一个高度垂直的网站就这样建立起来了!

解决方案:智能抓取手机上所有搜索引擎的词频,最重要的一点是免费!

采集交流优采云 发表了文章 • 0 个评论 • 63 次浏览 • 2022-11-29 23:20 • 来自相关话题

  解决方案:智能抓取手机上所有搜索引擎的词频,最重要的一点是免费!
  文章句子采集软件_智能抓取文章句子!智能抓取手机上所有搜索引擎的词频,可设置不同速度、不同分辨率、词频统计源等等,但最重要的一点是免费!!!采集无限量的种子!!抓取软件自带词典,解析搜索引擎还可自行写代码解析采集的文章并进行特征提取!支持将采集的文章进行整合方便分类归档!!采集效率高且稳定,支持windows/mac/linux等平台上进行抓取!无需下载任何软件!。
  可以通过百度搜索目标关键词进行搜索、看有没有相关专业的网站,有专业的网站就可以通过关键词搜索进入到这个专业的网站。
  现在做什么都要有图文结合,
  
  1、通过网络媒体报道,然后定期发布,
  2、邀请目标人群参与进来;
  3、积极主动进行产品展示,
  
  4、依托社交平台,配合传播等方式,
  口碑广告!口碑广告!口碑广告!一般来说网站制作及推广无非就那几种:新闻、评论、专题页面、a/b测试。
  同样是为人服务的,能不能做到效率更高,模式更简单点。产品和信息发布没有办法形成产业化的。只有通过人来传播,然后进行最终转化。
  我们现在就在做这方面, 查看全部

  解决方案:智能抓取手机上所有搜索引擎的词频,最重要的一点是免费!
  文章句子采集软件_智能抓取文章句子!智能抓取手机上所有搜索引擎的词频,可设置不同速度、不同分辨率、词频统计源等等,但最重要的一点是免费!!!采集无限量的种子!!抓取软件自带词典,解析搜索引擎还可自行写代码解析采集的文章并进行特征提取!支持将采集的文章进行整合方便分类归档!!采集效率高且稳定,支持windows/mac/linux等平台上进行抓取!无需下载任何软件!。
  可以通过百度搜索目标关键词进行搜索、看有没有相关专业的网站,有专业的网站就可以通过关键词搜索进入到这个专业的网站。
  现在做什么都要有图文结合,
  
  1、通过网络媒体报道,然后定期发布,
  2、邀请目标人群参与进来;
  3、积极主动进行产品展示,
  
  4、依托社交平台,配合传播等方式,
  口碑广告!口碑广告!口碑广告!一般来说网站制作及推广无非就那几种:新闻、评论、专题页面、a/b测试。
  同样是为人服务的,能不能做到效率更高,模式更简单点。产品和信息发布没有办法形成产业化的。只有通过人来传播,然后进行最终转化。
  我们现在就在做这方面,

最新版:优采云 采集器官方电脑版 10.21最新破解版

采集交流优采云 发表了文章 • 0 个评论 • 104 次浏览 • 2022-11-29 16:50 • 来自相关话题

  最新版:优采云
采集器官方电脑版 10.21最新破解版
  优采云
最新版采集
器是一款功能强大、实用的数据采集
器,可用于批量采集
网页。支持从各种新闻网站、论坛、电子商务网站、招聘网站等任何类型的网站采集
和获取您需要的信息,主要以数据采集、处理、分析和挖掘为核心功能。
  软件特色
  1、分布式高速采集
  任务分配给多个客户端,集合同时运行,效率翻倍。
  2、多重身份识别系统
  搭载文字识别、中文分词识别、任意码识别等多重识别系统,智能识别操作更轻松。
  3.可选验证方式
  您可以随时选择是否使用加密狗,确保数据安全。
  4、全自动操作
  无需人工值班操作,任务完成后自动关机。
  5.替换功能
  同义词、同义词替换、参数替换,伪原创必备技能。
  6.下载任何文件格式
  可以轻松下载任何格式的文件,例如图像、压缩文件和视频。
  7.采集监控系统
  实时监控采集,确保数据的准确性。
  8.支持多数据库
  
  支持Access/MySQL/MsSQL/Sqlite/Oracle各种类型的数据库存储和发布。
  9.无限多页采集
  支持无限采集包括ajax请求数据在内的多页信息。
  10.支持扩展
  支持接口和插件扩展,满足各种挖矿需求。
  教程
  优采云
Collector是各大主流文章系统、论坛系统使用的多线程内容采集
发布程序。为了介绍方便,小编这里以采集文章标题为例,说明其基本用法:
  1.采集
URL规则,点击添加
  2. 选择【批量/多页】,添加带规则的URL,输入第一项和页数。点击【添加】完成
  三、采集内容规则
  双击【标题】弹出标题编辑框
  4、提取方式一般为【前后截取】。通过观察源码,填写起始字符串和结束字符串
  5、添加【html标签排除】【内容添加后缀】,点击确定。
  6.发布内容设置。开启方法二保存采集结果。
  文件名格式可以根据自己的喜好任意选择。
  文件模板选择,优采云
给的几个默认模板。一般默认格式为txt、csv、html、excel。您可以根据自己的喜好选择模板。
  7.设置完成后保存。至此,采集规则已经设置完毕。执行以获得所需的结果。
  软件亮点
  1、网站采集
  
  优采云
采集器
可以通过网站采集标准字符设置快速采集所需的网站信息。可以手动输入、批量添加或直接从文本中导入网址,并可以过滤掉重复的网址信息。
  支持多级网页URL采集,多级URL采集可以使用网页解析自动获取地址,和手动填写规则两种方式。解决多级分页查询的具体内容不同,但详细地址是同一个页面URL集合,优采云
集合器设置权限GET、POST和ASPXPOST三种HTTP请求方式。
  优采云
采集器支持URL采集检测,可以验证操作的准确性,防止实际操作不正确导致采集结论不正确
  2.具体内容采集
  优采云
采集器可以通过对比网页源代码设置具体的内容采集标准,准确采集网站中零散零散的内容数据,支持多层次、多维度等复杂网页的内容采集页。
  根据定义标记,可以筛选和采集
数据,例如文章标题和文章正文分开采集
。优采云
采集器内置前后左右提取、正则匹配获取、文章正文获取三种具体内容提取方式。选择性强,用户可根据应用的实际需要进行选择。
  具体的内容采集还支持测试功能,可以选择一个典型的网页来测试项目采集的准确性,以便立即修改和进行下一步的数据处理。
  3、数据解析
  对于采集到的信息数据,优采云
采集器可以进行一系列的智能化处理,使采集到的数据更符合我们自己的应用规范。主要包括:
  1)标识过滤:过滤掉无用的空格字符、连线等中科数控标识;2)替换:支持同义词和词性转换;
  3)数据转换:支持中英文、简体转繁体、转拼音字母等;
  4)自动介绍,自动中文分词:支持一键生成介绍,自动中文分词;
  5) 下载选项:优采云
采集器支持任意格式的文件检测和下载,可以智能地将相对详细地址填充为绝对地址。
  4.数据发布
  优采云
采集器采集数据后,默认设置为将数据存储在本地数据库(sqlite、mysql、sqlserver)中。用户可以根据自己的喜好选择数据的后期操作,完成数据的发布。支持即时数据查询、在线发布数据及入库,支持客户设计开发发布界面应用。
  根据数据库类型,可用专业软件打开,即时查询数据。配备发布控制模块,可将数据在线发布到网站,可设置自动登录网站、获取频道目录等;如果记录了客户自己的数据库文件,客户只需要写几句SQL语句,程序就会根据用户的SQL语句导入数据;保存为本地文件时,支持本地SQL或文本文件(word、excel、html、txt)文件格式。
  5.多个任务线程同步运行
  优采云
采集器可选择同时运行多个任务,支持同时采集不同网站或同一网站下不同栏目的特定内容,并可有针对性地调度任务。个别日常任务在采集内容和发布具体内容时可以使用线程同步运行,提高使用效率。
  官方数据:优采云
采集器v8.5.7
  优采云
Collector是一个网页数据采集
器,里面收录
了很多我们生活中需要用到的功能。该软件界面简洁,但功能非常强大。无论我们是在日常生活中还是在办公过程中,我们都可以使用这款软件作为我们的工具。
  特征
  简单来说,使用优采云
,可以非常轻松的从任何网页中准确采集你需要的数据,并生成自定义的常规数据格式。优采云
数据采集系统可以做的包括但不限于以下:
  1.财务数据,如季报、年报、财报,包括自动采集最新的每日净值;
  2、实时监控各大新闻门户,自动更新上传最新消息;
  3、监控竞争对手的最新信息,包括商品价格、库存;
  4、监控各大社交网站和博客,自动抓取对企业产品的相关评论;
  5、采集
最新最全的职位招聘信息;
  6、监控各大房地产相关网站,采集
最新的新房、二手房市场行情;
  7、从各大汽车网站采集
特定的新车和二手车信息;
  8、发现和采集
潜在客户信息;
  
  9、从行业网站采集
产品目录和产品信息;
  10.同步各大电商平台的商品信息,做到在一个平台发布,在其他平台自动更新。
  软件特色
  模板集合
  模板采集模式内置数百家主流网站数据源,如京东、天猫、大众点评等热门采集网站。您只需参照模板简单设置参数,即可快速获取网站公开数据。
  智能采集
  优采云
采集可根据不同网站提供多种网页采集策略和配套资源,并可自定义、组合、自动处理。从而帮助整个采集过程实现数据的完整性和稳定性。
  云采集
  5000多台云服务器支持的云采集7*24小时不间断运行。可实现无人值守的定时采集,灵活贴合业务场景,助您提升采集效率,保障数据时效。
  API接口
  通过优采云
API,您可以轻松获取优采云
任务信息和采集数据,灵活调度任务,如远程控制任务启停,高效实现数据采集和归档。基于强大的API系统,还可以无缝对接公司各种内部管理平台,实现各项业务自动化。
  自定义集合
  
  优采云
可根据不同用户的采集需求,提供自定义的自动生成爬虫模式,可批量准确识别各种网页元素,同时具备翻页、下拉、ajax等多种功能、页面滚动、条件判断。支持不同网页结构的复杂网站采集,满足多种采集应用场景。
  方便的定时功能
  只需简单几步点击设置,即可实现对采集任务的定时控制。无论是单次采集的定时设置,还是预设的一天或每周、每月的定时采集,都可以同时自由设置多个任务。根据需要对选定时间进行多种组合,灵活部署自己的采集任务。
  全自动数据格式化
  优采云
内置强大的数据格式化引擎,支持字符串替换、正则表达式替换或匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码等多项功能,在采集过程中全自动处理,无需人工干预,即可获取所需的格式数据。
  多层次集合
  很多主流的新闻和电商网站都收录
一级商品列表页,二级商品详情页,三级评论详情页;无论网站有多少层级,优采云
都可以无限层级采集数据,满足各种业务采集需求。
  安装步骤
  在本站下载最新安装包,一键安装,完成后即可使用 查看全部

  最新版:优采云
采集器官方电脑版 10.21最新破解版
  优采云
最新版采集
器是一款功能强大、实用的数据采集
器,可用于批量采集
网页。支持从各种新闻网站、论坛、电子商务网站、招聘网站等任何类型的网站采集
和获取您需要的信息,主要以数据采集、处理、分析和挖掘为核心功能。
  软件特色
  1、分布式高速采集
  任务分配给多个客户端,集合同时运行,效率翻倍。
  2、多重身份识别系统
  搭载文字识别、中文分词识别、任意码识别等多重识别系统,智能识别操作更轻松。
  3.可选验证方式
  您可以随时选择是否使用加密狗,确保数据安全。
  4、全自动操作
  无需人工值班操作,任务完成后自动关机。
  5.替换功能
  同义词、同义词替换、参数替换,伪原创必备技能。
  6.下载任何文件格式
  可以轻松下载任何格式的文件,例如图像、压缩文件和视频。
  7.采集监控系统
  实时监控采集,确保数据的准确性。
  8.支持多数据库
  
  支持Access/MySQL/MsSQL/Sqlite/Oracle各种类型的数据库存储和发布。
  9.无限多页采集
  支持无限采集包括ajax请求数据在内的多页信息。
  10.支持扩展
  支持接口和插件扩展,满足各种挖矿需求。
  教程
  优采云
Collector是各大主流文章系统、论坛系统使用的多线程内容采集
发布程序。为了介绍方便,小编这里以采集文章标题为例,说明其基本用法:
  1.采集
URL规则,点击添加
  2. 选择【批量/多页】,添加带规则的URL,输入第一项和页数。点击【添加】完成
  三、采集内容规则
  双击【标题】弹出标题编辑框
  4、提取方式一般为【前后截取】。通过观察源码,填写起始字符串和结束字符串
  5、添加【html标签排除】【内容添加后缀】,点击确定。
  6.发布内容设置。开启方法二保存采集结果。
  文件名格式可以根据自己的喜好任意选择。
  文件模板选择,优采云
给的几个默认模板。一般默认格式为txt、csv、html、excel。您可以根据自己的喜好选择模板。
  7.设置完成后保存。至此,采集规则已经设置完毕。执行以获得所需的结果。
  软件亮点
  1、网站采集
  
  优采云
采集器
可以通过网站采集标准字符设置快速采集所需的网站信息。可以手动输入、批量添加或直接从文本中导入网址,并可以过滤掉重复的网址信息。
  支持多级网页URL采集,多级URL采集可以使用网页解析自动获取地址,和手动填写规则两种方式。解决多级分页查询的具体内容不同,但详细地址是同一个页面URL集合,优采云
集合器设置权限GET、POST和ASPXPOST三种HTTP请求方式。
  优采云
采集器支持URL采集检测,可以验证操作的准确性,防止实际操作不正确导致采集结论不正确
  2.具体内容采集
  优采云
采集器可以通过对比网页源代码设置具体的内容采集标准,准确采集网站中零散零散的内容数据,支持多层次、多维度等复杂网页的内容采集页。
  根据定义标记,可以筛选和采集
数据,例如文章标题和文章正文分开采集
。优采云
采集器内置前后左右提取、正则匹配获取、文章正文获取三种具体内容提取方式。选择性强,用户可根据应用的实际需要进行选择。
  具体的内容采集还支持测试功能,可以选择一个典型的网页来测试项目采集的准确性,以便立即修改和进行下一步的数据处理。
  3、数据解析
  对于采集到的信息数据,优采云
采集器可以进行一系列的智能化处理,使采集到的数据更符合我们自己的应用规范。主要包括:
  1)标识过滤:过滤掉无用的空格字符、连线等中科数控标识;2)替换:支持同义词和词性转换;
  3)数据转换:支持中英文、简体转繁体、转拼音字母等;
  4)自动介绍,自动中文分词:支持一键生成介绍,自动中文分词;
  5) 下载选项:优采云
采集器支持任意格式的文件检测和下载,可以智能地将相对详细地址填充为绝对地址。
  4.数据发布
  优采云
采集器采集数据后,默认设置为将数据存储在本地数据库(sqlite、mysql、sqlserver)中。用户可以根据自己的喜好选择数据的后期操作,完成数据的发布。支持即时数据查询、在线发布数据及入库,支持客户设计开发发布界面应用。
  根据数据库类型,可用专业软件打开,即时查询数据。配备发布控制模块,可将数据在线发布到网站,可设置自动登录网站、获取频道目录等;如果记录了客户自己的数据库文件,客户只需要写几句SQL语句,程序就会根据用户的SQL语句导入数据;保存为本地文件时,支持本地SQL或文本文件(word、excel、html、txt)文件格式。
  5.多个任务线程同步运行
  优采云
采集器可选择同时运行多个任务,支持同时采集不同网站或同一网站下不同栏目的特定内容,并可有针对性地调度任务。个别日常任务在采集内容和发布具体内容时可以使用线程同步运行,提高使用效率。
  官方数据:优采云
采集器v8.5.7
  优采云
Collector是一个网页数据采集
器,里面收录
了很多我们生活中需要用到的功能。该软件界面简洁,但功能非常强大。无论我们是在日常生活中还是在办公过程中,我们都可以使用这款软件作为我们的工具。
  特征
  简单来说,使用优采云
,可以非常轻松的从任何网页中准确采集你需要的数据,并生成自定义的常规数据格式。优采云
数据采集系统可以做的包括但不限于以下:
  1.财务数据,如季报、年报、财报,包括自动采集最新的每日净值;
  2、实时监控各大新闻门户,自动更新上传最新消息;
  3、监控竞争对手的最新信息,包括商品价格、库存;
  4、监控各大社交网站和博客,自动抓取对企业产品的相关评论;
  5、采集
最新最全的职位招聘信息;
  6、监控各大房地产相关网站,采集
最新的新房、二手房市场行情;
  7、从各大汽车网站采集
特定的新车和二手车信息;
  8、发现和采集
潜在客户信息;
  
  9、从行业网站采集
产品目录和产品信息;
  10.同步各大电商平台的商品信息,做到在一个平台发布,在其他平台自动更新。
  软件特色
  模板集合
  模板采集模式内置数百家主流网站数据源,如京东、天猫、大众点评等热门采集网站。您只需参照模板简单设置参数,即可快速获取网站公开数据。
  智能采集
  优采云
采集可根据不同网站提供多种网页采集策略和配套资源,并可自定义、组合、自动处理。从而帮助整个采集过程实现数据的完整性和稳定性。
  云采集
  5000多台云服务器支持的云采集7*24小时不间断运行。可实现无人值守的定时采集,灵活贴合业务场景,助您提升采集效率,保障数据时效。
  API接口
  通过优采云
API,您可以轻松获取优采云
任务信息和采集数据,灵活调度任务,如远程控制任务启停,高效实现数据采集和归档。基于强大的API系统,还可以无缝对接公司各种内部管理平台,实现各项业务自动化。
  自定义集合
  
  优采云
可根据不同用户的采集需求,提供自定义的自动生成爬虫模式,可批量准确识别各种网页元素,同时具备翻页、下拉、ajax等多种功能、页面滚动、条件判断。支持不同网页结构的复杂网站采集,满足多种采集应用场景。
  方便的定时功能
  只需简单几步点击设置,即可实现对采集任务的定时控制。无论是单次采集的定时设置,还是预设的一天或每周、每月的定时采集,都可以同时自由设置多个任务。根据需要对选定时间进行多种组合,灵活部署自己的采集任务。
  全自动数据格式化
  优采云
内置强大的数据格式化引擎,支持字符串替换、正则表达式替换或匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码等多项功能,在采集过程中全自动处理,无需人工干预,即可获取所需的格式数据。
  多层次集合
  很多主流的新闻和电商网站都收录
一级商品列表页,二级商品详情页,三级评论详情页;无论网站有多少层级,优采云
都可以无限层级采集数据,满足各种业务采集需求。
  安装步骤
  在本站下载最新安装包,一键安装,完成后即可使用

解决方案:这个低代码报表开发平台,操作类似Excel,用好了不需要加班

采集交流优采云 发表了文章 • 0 个评论 • 63 次浏览 • 2022-11-28 21:24 • 来自相关话题

  解决方案:这个低代码报表开发平台,操作类似Excel,用好了不需要加班
  现在低代码开发平台很流行,零代码或者少量代码就可以快速创建应用。
  但从实际结果来看,完全零代码开发应用是不可能的,机器取代人类智能还有很长的路要走。但值得尝试以介于两者之间的低代码模式开发应用程序。现在很多企业级应用都是低代码的,甚至很多定制化的场景不需要太多高级代码就可以搞定。
  就我所从事的数据领域而言,由于低代码平台的出现,近十年来报表开发有了很大的提升。BI报表开发中的一些复杂逻辑,可能只需要几个公式或者几行JS就可以轻松搞定。从产品开发的角度来看,其实质是提高效率。一方面提高了开发者的效率,另一方面提高了用户的效率。
  以前我们做IT开发报表,都是先用Excel处理,然后写PHP开发,再用java的一些开源组件开发。用代码开发报表可以快速解决点对点的需求,但是作为一个长期的工作,需要连接数据库,采集
数据,做报表维护。之后基本上就需要大量人力去写代码了。
  一个企业成熟了,自然会有一个让技术民主化的管理系统,比如报表系统。2000年开始尝试使用国外的一些BI报表系统,比如Crystal、BO,也尝试了一些开源的jaspereport、birt。可减少代码开发投入,独立开发报表。
  随着企业的发展和庞大的数据业务,数据逐渐承载了企业的管理业务。很多需求,比如实时风险监控,各种业务报表,各种数据应用(体现在报表和业务分析),也逐渐有了数据,报表权限和数据填写流程。
  这时候就要从自己的管理系统做起,要求产品功能符合企业的管理思路,然后逐步开始使用符合一些流程管理的平台系统(这是国内的比较说法) ,帆软报表平台FineReport。
  在开发效率上,FineReport是一款通用的报表工具,基本可以满足报表开发、报表填报、可视化展示的需求。有一些业务定制相关的接口,可以进行单点登录OA等插件定制开发。对于用户来说,由于报表有承载平台,业务、管理者等用户只要登录平台系统就可以查看和分析。
  具体来说:
  1.可视化SQL语句编辑面板
  做报表需要取数,用SQL写的,根据复杂程度一般在几十行到几百行不等。更重要的是,你需要熟悉数据库和表格,否则你不知道取什么数字。
  FineReport低代码的第一点就是有一个可视化的SQL语句编辑面板。链接数据库成功后,就可以看到数据库表和字段,然后将数据表和字段拖到编辑页面生成SQL语句,避免逐行写入,就像内置的navicat一样。可以减少很多工作量。
  2.可视化报表模板设计器
  
  看完图书馆取号,就是做报告了。
  FineReport 的主面板是表格模板设计器。表格格式、函数操作、函数等与Excel类似。不同之处在于 Excel 对单个数据进行操作。在这里,它对数据字段进行操作。将需要的数据字段拖入表中,然后进行各种可视化属性设置。
  设计器提供三种报表设计模式:普通报表、聚合报表、决策报表。
  普通报表模式最接近Excel,用于制作大部分报表,包括基本报表、中国式复杂报表,更多的是对SHEET和跨SHEET的计算,兼容EXCEL公式。
  聚合报表模式用于做一些不规则的报表,比如运单,一些保单等,这种报表需要经常合并拆分单元格,工作极其繁琐。
  决策报表模式用于制作可视化仪表盘、驾驶舱、管理板等,就像一张空白的画布,将各种可视化图表拖放到界面即可构建仪表盘。
  3.参数查询可视化设置
  对于企业报表应用,除了最简单的显示报表外,往往用得最多的是查询报表。各部门、业务团队需要查资料、查询报表,都会用到查询报表。以往代码开发往往会分配一个参数来对应数据表或字段。这有问题。参数太多很难管理。如果换了一个人去迭代report,就得重新熟悉一下。
  FineReport有可视化的参数设置界面,可以零代码定义参数,绑定查询控件,直接定义查询界面。用户可以通过界面输入查询条件,显示报表内容。
  控件类似于Excel甚至更丰富,包括文本、文本字段、数字、密码、按钮复选框、复选框组、单选按钮组、日期下拉框、下拉复选框、时间、多文件上传列表、网页框、下拉树、表格树和视图树等多种控件类型,支持预定义控件、自定义控件等。
  4.座舱可视化搭建
  上文提到,在决策报告模式下,可以制作可视化的仪表盘、驾驶舱、管理看板。原理也是通过组件拖拽操作快速创建组件报表。以往代码开发,需要写JS调用前端可视化库,后端链接数据。FineReport直接可视化操作,可以直接适配屏幕大小和分辨率,设计布局和交互,方便很多。
  5. 移动决策平台代码生成
  
  移动端是企业报表应用的一大趋势。过去需要PC端和移动端分开开发。为了适应公司APP的报表展示,我们还特地找了一个移动开发的同事。移动端也分为安卓系统和IOS系统,需要不同的人群配备三套。后期可以直接适配这个平台,也可以实现零代码运行、接口化配置、自动打包、自主版本控制集成。
  此外,还有一些其他的低代码开发报表功能,这里不再赘述。
  可见,低代码开发对效率的提升和能力的解放是显而易见的,至少在我熟悉的数据领域是这样,比如数据需求管理平台、指标管理平台、数据治理平台。
  一套优秀的软件离不开两个核心要素:编程能力和业务知识,这就需要优秀的技术团队对业务有深刻的理解,或者业务人员要熟悉技术边界。
  世界上没有完全相同的管理模式。即使是一份小数据报表,每个企业都有其独特的需求,主要体现在几个问题上:
  1、需求难以确定,总是有新的需求提出来,不断修改,面目全非。
  2、由于客观条件的不确定性,报告的编制是一个持续的过程。期间,人员流动、资源调整等各种变化都会增加本项目的成本,降低效率。
  因此,该平台需要满足以下要求:
  1. 灵活,不局限于业务(不同项目,业务领域)一定要包罗万象。
  2.快速,极快的功能实现速度。
  3. 稳定,不挑食但能消化。
  一开始觉得这样的系统似乎遥不可及,但是我举的FineReport就是一个典型的例子。
  天下武功,唯有速破。只有实现快速开发、快速变更、快速维护,才能解决现有软件开发的困境。
  但是,使用低代码/无代码平台可能需要的开发人员更少,但对人的要求更高:一方面要对业务有很好的理解,另一方面要非常透明关于数据和开发,最后,他们必须能够从需求到开发串联起来。这也是我们行业的一种进步。IT需要更加熟悉业务,需要更加清楚数据的价值。
  解决方案:百度网站批量提交工具加速网站收录无需打码
  百度提交助手是一款专业的站长工具。由五爱破解论坛网友提供。它的功能非常实用。帮助站长提高网站收录率,批量提交网站链接。感兴趣的朋友不要错过,欢迎下载使用。
  软件说明
  
  百度提交助手是一款专为站长设计的链接提交工具。我们知道主动推送可以大大提高百度的收录量,所以现在很多站长在更新网站的时候都会主动提交。使用此工具,您可以轻松提交所需的链接,并支持从TXT阅读链接提交。
  指示
  1.解压后运行软件
  
  2.右键导入链接提交
  更新日志
  代理ip问题更新了,速度下降了,但是不会浪费账号 查看全部

  解决方案:这个低代码报表开发平台,操作类似Excel,用好了不需要加班
  现在低代码开发平台很流行,零代码或者少量代码就可以快速创建应用。
  但从实际结果来看,完全零代码开发应用是不可能的,机器取代人类智能还有很长的路要走。但值得尝试以介于两者之间的低代码模式开发应用程序。现在很多企业级应用都是低代码的,甚至很多定制化的场景不需要太多高级代码就可以搞定。
  就我所从事的数据领域而言,由于低代码平台的出现,近十年来报表开发有了很大的提升。BI报表开发中的一些复杂逻辑,可能只需要几个公式或者几行JS就可以轻松搞定。从产品开发的角度来看,其实质是提高效率。一方面提高了开发者的效率,另一方面提高了用户的效率。
  以前我们做IT开发报表,都是先用Excel处理,然后写PHP开发,再用java的一些开源组件开发。用代码开发报表可以快速解决点对点的需求,但是作为一个长期的工作,需要连接数据库,采集
数据,做报表维护。之后基本上就需要大量人力去写代码了。
  一个企业成熟了,自然会有一个让技术民主化的管理系统,比如报表系统。2000年开始尝试使用国外的一些BI报表系统,比如Crystal、BO,也尝试了一些开源的jaspereport、birt。可减少代码开发投入,独立开发报表。
  随着企业的发展和庞大的数据业务,数据逐渐承载了企业的管理业务。很多需求,比如实时风险监控,各种业务报表,各种数据应用(体现在报表和业务分析),也逐渐有了数据,报表权限和数据填写流程。
  这时候就要从自己的管理系统做起,要求产品功能符合企业的管理思路,然后逐步开始使用符合一些流程管理的平台系统(这是国内的比较说法) ,帆软报表平台FineReport。
  在开发效率上,FineReport是一款通用的报表工具,基本可以满足报表开发、报表填报、可视化展示的需求。有一些业务定制相关的接口,可以进行单点登录OA等插件定制开发。对于用户来说,由于报表有承载平台,业务、管理者等用户只要登录平台系统就可以查看和分析。
  具体来说:
  1.可视化SQL语句编辑面板
  做报表需要取数,用SQL写的,根据复杂程度一般在几十行到几百行不等。更重要的是,你需要熟悉数据库和表格,否则你不知道取什么数字。
  FineReport低代码的第一点就是有一个可视化的SQL语句编辑面板。链接数据库成功后,就可以看到数据库表和字段,然后将数据表和字段拖到编辑页面生成SQL语句,避免逐行写入,就像内置的navicat一样。可以减少很多工作量。
  2.可视化报表模板设计器
  
  看完图书馆取号,就是做报告了。
  FineReport 的主面板是表格模板设计器。表格格式、函数操作、函数等与Excel类似。不同之处在于 Excel 对单个数据进行操作。在这里,它对数据字段进行操作。将需要的数据字段拖入表中,然后进行各种可视化属性设置。
  设计器提供三种报表设计模式:普通报表、聚合报表、决策报表。
  普通报表模式最接近Excel,用于制作大部分报表,包括基本报表、中国式复杂报表,更多的是对SHEET和跨SHEET的计算,兼容EXCEL公式。
  聚合报表模式用于做一些不规则的报表,比如运单,一些保单等,这种报表需要经常合并拆分单元格,工作极其繁琐。
  决策报表模式用于制作可视化仪表盘、驾驶舱、管理板等,就像一张空白的画布,将各种可视化图表拖放到界面即可构建仪表盘。
  3.参数查询可视化设置
  对于企业报表应用,除了最简单的显示报表外,往往用得最多的是查询报表。各部门、业务团队需要查资料、查询报表,都会用到查询报表。以往代码开发往往会分配一个参数来对应数据表或字段。这有问题。参数太多很难管理。如果换了一个人去迭代report,就得重新熟悉一下。
  FineReport有可视化的参数设置界面,可以零代码定义参数,绑定查询控件,直接定义查询界面。用户可以通过界面输入查询条件,显示报表内容。
  控件类似于Excel甚至更丰富,包括文本、文本字段、数字、密码、按钮复选框、复选框组、单选按钮组、日期下拉框、下拉复选框、时间、多文件上传列表、网页框、下拉树、表格树和视图树等多种控件类型,支持预定义控件、自定义控件等。
  4.座舱可视化搭建
  上文提到,在决策报告模式下,可以制作可视化的仪表盘、驾驶舱、管理看板。原理也是通过组件拖拽操作快速创建组件报表。以往代码开发,需要写JS调用前端可视化库,后端链接数据。FineReport直接可视化操作,可以直接适配屏幕大小和分辨率,设计布局和交互,方便很多。
  5. 移动决策平台代码生成
  
  移动端是企业报表应用的一大趋势。过去需要PC端和移动端分开开发。为了适应公司APP的报表展示,我们还特地找了一个移动开发的同事。移动端也分为安卓系统和IOS系统,需要不同的人群配备三套。后期可以直接适配这个平台,也可以实现零代码运行、接口化配置、自动打包、自主版本控制集成。
  此外,还有一些其他的低代码开发报表功能,这里不再赘述。
  可见,低代码开发对效率的提升和能力的解放是显而易见的,至少在我熟悉的数据领域是这样,比如数据需求管理平台、指标管理平台、数据治理平台。
  一套优秀的软件离不开两个核心要素:编程能力和业务知识,这就需要优秀的技术团队对业务有深刻的理解,或者业务人员要熟悉技术边界。
  世界上没有完全相同的管理模式。即使是一份小数据报表,每个企业都有其独特的需求,主要体现在几个问题上:
  1、需求难以确定,总是有新的需求提出来,不断修改,面目全非。
  2、由于客观条件的不确定性,报告的编制是一个持续的过程。期间,人员流动、资源调整等各种变化都会增加本项目的成本,降低效率。
  因此,该平台需要满足以下要求:
  1. 灵活,不局限于业务(不同项目,业务领域)一定要包罗万象。
  2.快速,极快的功能实现速度。
  3. 稳定,不挑食但能消化。
  一开始觉得这样的系统似乎遥不可及,但是我举的FineReport就是一个典型的例子。
  天下武功,唯有速破。只有实现快速开发、快速变更、快速维护,才能解决现有软件开发的困境。
  但是,使用低代码/无代码平台可能需要的开发人员更少,但对人的要求更高:一方面要对业务有很好的理解,另一方面要非常透明关于数据和开发,最后,他们必须能够从需求到开发串联起来。这也是我们行业的一种进步。IT需要更加熟悉业务,需要更加清楚数据的价值。
  解决方案:百度网站批量提交工具加速网站收录无需打码
  百度提交助手是一款专业的站长工具。由五爱破解论坛网友提供。它的功能非常实用。帮助站长提高网站收录率,批量提交网站链接。感兴趣的朋友不要错过,欢迎下载使用。
  软件说明
  
  百度提交助手是一款专为站长设计的链接提交工具。我们知道主动推送可以大大提高百度的收录量,所以现在很多站长在更新网站的时候都会主动提交。使用此工具,您可以轻松提交所需的链接,并支持从TXT阅读链接提交。
  指示
  1.解压后运行软件
  
  2.右键导入链接提交
  更新日志
  代理ip问题更新了,速度下降了,但是不会浪费账号

即将发布:面对众多文献管理软件,为何连发3篇SCI的师兄独宠这款国产软件?

采集交流优采云 发表了文章 • 0 个评论 • 62 次浏览 • 2022-11-28 21:21 • 来自相关话题

  即将发布:面对众多文献管理软件,为何连发3篇SCI的师兄独宠这款国产软件?
  作为一名科研人员,我们每天都离不开文献阅读,而管理文献可以说是每个科研人员都必须学习的一项技能。选择一款适合自己的文献管理软件,开启科研如虎添翼。市面上有很多文献管理软件,比如EndNote、NoteExpress等文献管理软件。软件虽多,适合自己的才是最重要的。
  本期立人君给大家分享一款国产文档管理软件——ivySCI。笔者比较喜欢ivySCI的阅读体验和笔记功能。文档检索功能也值得推荐。您还可以比较各种文档管理软件。优缺点,再决定用哪一个。
  ivySCI简介
  ivySCI 的使命是帮助研究人员积累知识,从海量文献中发现创新点。ivySCI以此为使命,通过便捷的文献管理、沉浸式阅读体验、卡片式笔记系统、流程式论文写作,帮助科研人员消化文献、积累知识、寻找创新点。
  ivySCI官网:
  ivySCI下载地址:
  ivySCI的特点
  ① 文件管理
  文档管理是ivySCI最基本的功能,可以用来管理所有的文档信息。ivySCI不仅支持本地PDF文档的上传,还可以通过DOI或文档标题等信息进行搜索上传。批量上传PDF文档也很方便。您无需担心更改文档管理软件和重新导入文档信息。上传文档后,ivySCI会自动识别PDF文档的元信息(meta),包括标题、摘要、作者和年份信息等,对于错误的文档元信息,您可以手动补充或更正,非常方便的!
  此外,ivySCI 还可以为文档添加标签。我们可以根据自定义的标签对文档进行分类,也可以根据文档的重要性或者阅读的时间来标记文档,这样我们就可以非常快速的找到我们需要的文档。
  
  更值得一提的是,ivySCI支持云存储,意味着文档可以跨平台同步,文档数据可以随时随地访问。通过云端备份文档,无需担心文档丢失。
  ②文献检索
  ivySCI内置了常用的学术搜索引擎,包括百度学术、谷歌学术、必应学术、中国知网、万方数据、中科院文献信息中心、ScienceRedirect、SemanticScholar、PubMed等。由于是国产软件,不仅支持常用英文论文的检索,还可以检索中文文献,这是国外开发的很多文献管理软件所没有的。
  检索到的文献可以一键导入ivySCI,省去从网站导出书目信息再导入文献管理软件的麻烦。
  另外ivySCI如果没有常用的文献搜索引擎,也支持自定义添加新的搜索引擎,是不是很贴心!
  ③ 文献阅读
  沉浸式文献阅读体验是EndNote等很多文献管理软件所不具备的功能,非常推荐ivySCI的文献阅读功能!
  只需点击我们需要阅读的文献条目,即可直接使用ivySCI内置阅读器进行文献阅读,无需额外打开PDF阅读器。
  更值得一提的是ivySCI提供了查词和翻译功能。我们只需要选择一个单词或句子就可以自动翻译,这对于英语水平一般的朋友来说非常有用。而对于文献中经常遇到的专业词汇,ivySCI还提供了维基百科专有名词查询,是不是很贴心!
  
  另外ivySCI可以自动提取文献中的图表,方便我们在阅读文献时进行图文对比分析,更容易理解图表信息。
  在文献阅读方面,ivySCI还有一个重磅功能,可以自动识别文献中的参考文献,支持中文文献。您只需要点击引用的链接即可快速查看引用,您可以轻松地将引用添加到当前项目中。
  ④文献注释
  做文献笔记是文献阅读中最重要的部分。文献笔记被认为是大多数科研人员不可分割的功能。ivySCI 笔记是基于卡片的笔记。
  阅读文献时,可以将文献中的重要观点和结论突出显示并提取到笔记中。对于重点图表,ivySCI也支持框选摘录,也可以在图表中添加注释。所有笔记都支持添加多个标签,不同的标签可以通过颜色区分。我们可以自定义分类方式,形成自己的文档管理系统,大大提高了文档管理的效率。
  ⑤ 编写插件
  除了文档管理软件外,ivySCI还提供了一款名为IvyCite的写作插件,支持Word和WPS,兼容Mac和Windows。写论文时可以引用文献,提供上千种文献格式。并且它支持注释插入。如果我们习惯边看边做笔记,那么写论文就会很顺利。
  本期介绍一款国产文档管理软件ivySCI的功能。通过这些功能的介绍,大家应该已经对ivySCI这个软件有所了解了,作为一款中文界面的软件,相信大家可以很快上手。
  即将发布:优采云
软件旗舰店
  
  优采云
Collector是一套专业的网站内容采集软件,支持采集各种论坛、网站、博客文章内容爬取的帖子和回复,通过相关配置可以轻松为自己采集80%的网站内容使用. 优采云
采集器根据各建站程序的不同分为论坛采集器、CMS采集器和博客采集器三大类,支持近40个主流建站程序,完成上百个版本的数据采集发布任务. 图片本地化,支持网站登录采集、页面抓取,全面模拟手动登录发布,软件运行速度快,安全稳定!论坛采集器
还支持无限注册论坛会员,
  
  优采云
采集器目前分为三个系列,分别是论坛采集器系列、CMS采集器系列和博客采集器系列,基本涵盖了一些主流的建站程序,极大地满足了各类用户的需求。 查看全部

  即将发布:面对众多文献管理软件,为何连发3篇SCI的师兄独宠这款国产软件?
  作为一名科研人员,我们每天都离不开文献阅读,而管理文献可以说是每个科研人员都必须学习的一项技能。选择一款适合自己的文献管理软件,开启科研如虎添翼。市面上有很多文献管理软件,比如EndNote、NoteExpress等文献管理软件。软件虽多,适合自己的才是最重要的。
  本期立人君给大家分享一款国产文档管理软件——ivySCI。笔者比较喜欢ivySCI的阅读体验和笔记功能。文档检索功能也值得推荐。您还可以比较各种文档管理软件。优缺点,再决定用哪一个。
  ivySCI简介
  ivySCI 的使命是帮助研究人员积累知识,从海量文献中发现创新点。ivySCI以此为使命,通过便捷的文献管理、沉浸式阅读体验、卡片式笔记系统、流程式论文写作,帮助科研人员消化文献、积累知识、寻找创新点。
  ivySCI官网:
  ivySCI下载地址:
  ivySCI的特点
  ① 文件管理
  文档管理是ivySCI最基本的功能,可以用来管理所有的文档信息。ivySCI不仅支持本地PDF文档的上传,还可以通过DOI或文档标题等信息进行搜索上传。批量上传PDF文档也很方便。您无需担心更改文档管理软件和重新导入文档信息。上传文档后,ivySCI会自动识别PDF文档的元信息(meta),包括标题、摘要、作者和年份信息等,对于错误的文档元信息,您可以手动补充或更正,非常方便的!
  此外,ivySCI 还可以为文档添加标签。我们可以根据自定义的标签对文档进行分类,也可以根据文档的重要性或者阅读的时间来标记文档,这样我们就可以非常快速的找到我们需要的文档。
  
  更值得一提的是,ivySCI支持云存储,意味着文档可以跨平台同步,文档数据可以随时随地访问。通过云端备份文档,无需担心文档丢失。
  ②文献检索
  ivySCI内置了常用的学术搜索引擎,包括百度学术、谷歌学术、必应学术、中国知网、万方数据、中科院文献信息中心、ScienceRedirect、SemanticScholar、PubMed等。由于是国产软件,不仅支持常用英文论文的检索,还可以检索中文文献,这是国外开发的很多文献管理软件所没有的。
  检索到的文献可以一键导入ivySCI,省去从网站导出书目信息再导入文献管理软件的麻烦。
  另外ivySCI如果没有常用的文献搜索引擎,也支持自定义添加新的搜索引擎,是不是很贴心!
  ③ 文献阅读
  沉浸式文献阅读体验是EndNote等很多文献管理软件所不具备的功能,非常推荐ivySCI的文献阅读功能!
  只需点击我们需要阅读的文献条目,即可直接使用ivySCI内置阅读器进行文献阅读,无需额外打开PDF阅读器。
  更值得一提的是ivySCI提供了查词和翻译功能。我们只需要选择一个单词或句子就可以自动翻译,这对于英语水平一般的朋友来说非常有用。而对于文献中经常遇到的专业词汇,ivySCI还提供了维基百科专有名词查询,是不是很贴心!
  
  另外ivySCI可以自动提取文献中的图表,方便我们在阅读文献时进行图文对比分析,更容易理解图表信息。
  在文献阅读方面,ivySCI还有一个重磅功能,可以自动识别文献中的参考文献,支持中文文献。您只需要点击引用的链接即可快速查看引用,您可以轻松地将引用添加到当前项目中。
  ④文献注释
  做文献笔记是文献阅读中最重要的部分。文献笔记被认为是大多数科研人员不可分割的功能。ivySCI 笔记是基于卡片的笔记。
  阅读文献时,可以将文献中的重要观点和结论突出显示并提取到笔记中。对于重点图表,ivySCI也支持框选摘录,也可以在图表中添加注释。所有笔记都支持添加多个标签,不同的标签可以通过颜色区分。我们可以自定义分类方式,形成自己的文档管理系统,大大提高了文档管理的效率。
  ⑤ 编写插件
  除了文档管理软件外,ivySCI还提供了一款名为IvyCite的写作插件,支持Word和WPS,兼容Mac和Windows。写论文时可以引用文献,提供上千种文献格式。并且它支持注释插入。如果我们习惯边看边做笔记,那么写论文就会很顺利。
  本期介绍一款国产文档管理软件ivySCI的功能。通过这些功能的介绍,大家应该已经对ivySCI这个软件有所了解了,作为一款中文界面的软件,相信大家可以很快上手。
  即将发布:优采云
软件旗舰店
  
  优采云
Collector是一套专业的网站内容采集软件,支持采集各种论坛、网站、博客文章内容爬取的帖子和回复,通过相关配置可以轻松为自己采集80%的网站内容使用. 优采云
采集器根据各建站程序的不同分为论坛采集器、CMS采集器和博客采集器三大类,支持近40个主流建站程序,完成上百个版本的数据采集发布任务. 图片本地化,支持网站登录采集、页面抓取,全面模拟手动登录发布,软件运行速度快,安全稳定!论坛采集器
还支持无限注册论坛会员,
  
  优采云
采集器目前分为三个系列,分别是论坛采集器系列、CMS采集器系列和博客采集器系列,基本涵盖了一些主流的建站程序,极大地满足了各类用户的需求。

解决方案:「自然语言处理」使用自然语言处理的智能文档分析

采集交流优采云 发表了文章 • 0 个评论 • 74 次浏览 • 2022-11-28 21:21 • 来自相关话题

  解决方案:「自然语言处理」使用自然语言处理的智能文档分析
  什么是智能文档分析?
  智能文档分析 (IDA) 是指使用自然语言处理 (NLP) 和机器学习从非结构化数据(文本文档、社交媒体帖子、电子邮件、图像等)中获取洞察力。由于 80% 的企业数据是非结构化数据,IDA 可以跨行业和业务职能部门带来实实在在的好处,例如改进合规性和风险管理、提高内部运营效率以及增强业务流程。
  在这篇博客中,我将描述 IDA 中使用的主要 NLP 技术,并提供各种业务用例的示例。我还将讨论开始您的第一个 IDA 项目时的一些关键考虑因素。
  智能文档分析技术
  以下是 7 种常见的 IDA 技术。将提供示例用例来解释每种技术。
  1. 命名实体识别
  命名实体识别识别文本中提到的命名实体,并将它们分类为预定义的类别,例如人名、组织、位置、时间表达式、货币值等。执行命名实体识别的方法有多种:
  命名实体识别是本博客中讨论的许多其他 RDA 技术的关键预处理技术。其他命名实体识别用例的示例包括:
  2. 情感分析
  情感分析对新闻报道、社交媒体内容、评论等文本中表达的观点进行识别和分类。最简单的形式是,它可以将情感分为正面和负面两类;但它也可以量化情绪(例如 -1 到 +1),或在更细粒度的级别(例如非常消极、消极、中性、积极、非常积极)对其进行分类。
  与许多 NLP 技术一样,情感分析需要能够处理语言的复杂性。例如:
  情绪分析通常用于分析与公司或其竞争对手相关的社交媒体帖子。它可以成为一个强大的工具:
  3.文本相似度
  文本相似度计算句子、段落和文档之间的相似度。
  为了计算两个条目之间的相似度,必须首先将文本转换为表示文本的 n 维向量。该向量可能收录
文档中的关键字和实体,或内容中表示的主题的表示。矢量和文档之间的相似性可以通过余弦相似性等技术来衡量。
  文本相似性可用于检测文档或文档部分中的重复项和近似重复项。这里有两个例子:
  
  4.文本分类
  文本分类用于根据文本内容将文本项分配到一个或多个类别。它有两个维度:
  一般来说,类别和标签的数量越少,预期的准确度就越高。
  文本分类将使用文档中的单词、实体和短语来预测类别。它还可以考虑其他特征,例如文档中收录
的任何标题、元数据或图像。
  文本分类的一个示例用例是邮件或电子邮件等文档的自动路由。文本分类用于确定应将文档发送到的队列,以供适当的专家团队处理,从而节省时间和资源(例如,法律、营销、财务等)。
  文本分类也可以应用于文档的部分(例如句子或段落),例如,确定信件的哪些部分进行了投诉,以及投诉的类型。
  5.信息提取
  信息抽取从非结构化文本中抽取结构化信息。
  一个示例用例是识别信件的发件人。识别的主要方式是发件人的参考号、身份证号或会员号。如果未找到,则回退可能是发件人的姓名、邮政编码和出生日期。每条信息都可以通过命名实体识别来识别,但这本身是不够的,因为可能会找到多个实例。信息抽取依赖于实体识别。对实体上下文的理解有助于确定哪个是正确答案。例如,一封信可能收录
多个日期和邮政编码,因此需要确定哪个是寄件人的出生日期,哪个是寄件人的邮政编码。
  6. 关系抽取
  关系抽取抽取两个或多个实体之间的语义关系。与信息抽取类似,关系抽取依赖于命名实体识别,但不同的是它特别关注实体之间的关系类型。关系抽取可以用来进行信息抽取。
  一些 NLP 包和服务提供开箱即用的模型来提取诸如“雇员”、“已婚”和“出生地”等关系。与命名实体识别一样,可以通过训练特定的机器学习模型来提取自定义关系类型。
  关系提取可用于处理非结构化文档以识别具体关系,然后将其用于填充知识图谱。
  例如,该技术可以通过处理非结构化医疗文档来提取疾病、症状、药物等之间的关系。
  七、概述
  摘要缩短文本以创建要点的连贯摘要。文本摘要有两种不同的方法:
  文本摘要可用于使人们能够快速消化大量文档的内容,而无需完全阅读它们。这方面的一个例子是新闻提要或科学出版物,它们通常会生成大量文档。
  智能文档分析任务的复杂性
  
  机器学习在非结构化文本上比在结构化数据上复杂得多,因此在分析文本文档时达到或超过人类水平的性能要困难得多。
  1. 语言复杂度
  由于语言收录
的变化、歧义、上下文和关系,人类需要很多年才能理解语言。我们可以用多种方式表达相同的想法。我们根据作者和读者群使用不同的风格,并选择使用同义词来增加兴趣并避免重复。RDA 技术必须能够理解不同的风格、歧义和词关系以获得准确的洞察力。
  IDA 需要理解通用语言和特定领域的术语。处理特定领域术语的一种方法是使用自定义词典或构建用于实体提取、关系提取等的自定义机器学习模型。
  将通用语言和特定领域术语相结合的另一种方法是迁移学习。这需要一个已经在大量通用文本上训练过的现有神经网络,然后添加额外的层并使用少量特定于问题的内容来训练组合模型。现有的神经网络类似于人类在学校开发的年代。额外的层类似于一个人离开学校并开始工作时发生的领域或特定于任务的学习。
  2.准确性
  RDA 技术的准确性取决于所用语言的多样性、风格和复杂性。它还可能取决于:
  NLP-progress 是一个跟踪最先进模型在最常见 NLP 任务上的准确性的网站。这为可以达到的准确度水平提供了有用的指南。不过,判断 IDA 是否会产生准确结果的最佳指南是问问自己“人类做这件事有多容易?” “如果一个人无需多年的训练任务就能学会准确地完成这项工作,那么 IDA 就有可能通过加快流程、保持一致性或减少体力劳动来带来好处。”
  您如何处理智能文档分析项目?
  IDA 项目可以通过以下两种方式之一集成到企业中:
  使用的方法应取决于 IDA 所达到的准确性和做出错误决策的成本。如果错误决策的成本很高,请考虑从手动循环开始,直到准确度足够高。
  IDA 项目最好采用迭代方式 - 从概念验证开始,以确定该方法是否可行,如果可行,所达到的准确性是否表明使用了自动化或人为参与。然后迭代增加复杂性,直到估计的工作量不能证明预期的收益。
  对于您的第一个 IDA 项目,请考虑以下步骤:
  此过程将使您熟悉这些技术,并让您的业务发起人在处理具有更高收益的更复杂的用例之前获得对它们的信心。
  通过周密的规划和实施策略,您的组织可以利用上面讨论的 NLP 和机器学习技术来构建 IDA 应用程序以改善业务成果。
  本文:
  讨论:请加入知识星球【首席架构师智库】或小号【jiagoushi_pro】
  (此处已添加圈卡,请前往今日头条客户端查看)
  解决方案:OCR完美扫描识别增值税发票
  一、发票扫描识别系统定义
  OPSKY Express客票扫描识别系统(以下简称发票扫描识别系统)是结合高性能扫描仪和OCR识别技术,软硬件一体化的系统。
  发票扫描识别系统利用扫描仪完美捕捉发票图像(JPG/TIFF/BMP格式),并同步进行图像处理,利用OCR识别技术识别发票图像上的关键信息,生成TXT文本和XML格式文件同步。发票信息的采集
。扫描识别对象包括增值税专用发票、增值税普通发票、机动车销售统一发票等。目前,发票扫描识别系统已成功应用于企业财务票据查验系统和机构以及汽车销售行业的DMS管理系统。
  2、发票扫码识别系统的继承
  1、高性能扫描仪,目前系统配备三种扫描仪:L2230、L7280+、L7300+;
  2、发票扫描识别系统智能图像处理功能:倾斜校正、原尺寸裁切、去底色、旋转、去白页、加框等;
  
  3、发票扫描识别系统采用清华TH-OCR识别内核,可OCR识别多种格式发票;
  4、发票扫描识别系统配备智能发票模板编辑工具,可轻松自定义各种格式的发票识别模板;
  5、发票扫描识别系统支持发票图像自动分类,系统可自动区分当前单据所属业务类型,实现自动归档;
  6、发票扫描识别系统配备快速数据校对工具,支持横向字段校对和纵向收词校对两种方式;
  三、发​​票扫描识别系统工作流程
  1、使用智能票据模板编辑工具识别发票图像上的关键信息并划定区域,即自定义需要识别的格式化发票模板(系统内置常用发票识别模板);
  
  2、PC连接扫描仪后,打开发票扫描识别系统DEMO,一键扫描识别,通过扫描仪采集发票图像并同步完成OCR识别工作(支持导入图像识别);
  3、发票扫描识别系统DEMO支持校对修改,结果自动保存到生成的TXT文本和XML格式文件中;
  4、发票扫描识别系统集成开发
  为实现上述发票扫描识别系统的强大功能,需要进行系统集成开发:
  操作系统:Windows系列
  API接口:以标准DLL(动态链接库)和OCX控件的形式提供,支持VB、VC、C#、
  Delphi、PB、C/C++、Java等常用编程语言的调用; 查看全部

  解决方案:「自然语言处理」使用自然语言处理的智能文档分析
  什么是智能文档分析?
  智能文档分析 (IDA) 是指使用自然语言处理 (NLP) 和机器学习从非结构化数据(文本文档、社交媒体帖子、电子邮件、图像等)中获取洞察力。由于 80% 的企业数据是非结构化数据,IDA 可以跨行业和业务职能部门带来实实在在的好处,例如改进合规性和风险管理、提高内部运营效率以及增强业务流程。
  在这篇博客中,我将描述 IDA 中使用的主要 NLP 技术,并提供各种业务用例的示例。我还将讨论开始您的第一个 IDA 项目时的一些关键考虑因素。
  智能文档分析技术
  以下是 7 种常见的 IDA 技术。将提供示例用例来解释每种技术。
  1. 命名实体识别
  命名实体识别识别文本中提到的命名实体,并将它们分类为预定义的类别,例如人名、组织、位置、时间表达式、货币值等。执行命名实体识别的方法有多种:
  命名实体识别是本博客中讨论的许多其他 RDA 技术的关键预处理技术。其他命名实体识别用例的示例包括:
  2. 情感分析
  情感分析对新闻报道、社交媒体内容、评论等文本中表达的观点进行识别和分类。最简单的形式是,它可以将情感分为正面和负面两类;但它也可以量化情绪(例如 -1 到 +1),或在更细粒度的级别(例如非常消极、消极、中性、积极、非常积极)对其进行分类。
  与许多 NLP 技术一样,情感分析需要能够处理语言的复杂性。例如:
  情绪分析通常用于分析与公司或其竞争对手相关的社交媒体帖子。它可以成为一个强大的工具:
  3.文本相似度
  文本相似度计算句子、段落和文档之间的相似度。
  为了计算两个条目之间的相似度,必须首先将文本转换为表示文本的 n 维向量。该向量可能收录
文档中的关键字和实体,或内容中表示的主题的表示。矢量和文档之间的相似性可以通过余弦相似性等技术来衡量。
  文本相似性可用于检测文档或文档部分中的重复项和近似重复项。这里有两个例子:
  
  4.文本分类
  文本分类用于根据文本内容将文本项分配到一个或多个类别。它有两个维度:
  一般来说,类别和标签的数量越少,预期的准确度就越高。
  文本分类将使用文档中的单词、实体和短语来预测类别。它还可以考虑其他特征,例如文档中收录
的任何标题、元数据或图像。
  文本分类的一个示例用例是邮件或电子邮件等文档的自动路由。文本分类用于确定应将文档发送到的队列,以供适当的专家团队处理,从而节省时间和资源(例如,法律、营销、财务等)。
  文本分类也可以应用于文档的部分(例如句子或段落),例如,确定信件的哪些部分进行了投诉,以及投诉的类型。
  5.信息提取
  信息抽取从非结构化文本中抽取结构化信息。
  一个示例用例是识别信件的发件人。识别的主要方式是发件人的参考号、身份证号或会员号。如果未找到,则回退可能是发件人的姓名、邮政编码和出生日期。每条信息都可以通过命名实体识别来识别,但这本身是不够的,因为可能会找到多个实例。信息抽取依赖于实体识别。对实体上下文的理解有助于确定哪个是正确答案。例如,一封信可能收录
多个日期和邮政编码,因此需要确定哪个是寄件人的出生日期,哪个是寄件人的邮政编码。
  6. 关系抽取
  关系抽取抽取两个或多个实体之间的语义关系。与信息抽取类似,关系抽取依赖于命名实体识别,但不同的是它特别关注实体之间的关系类型。关系抽取可以用来进行信息抽取。
  一些 NLP 包和服务提供开箱即用的模型来提取诸如“雇员”、“已婚”和“出生地”等关系。与命名实体识别一样,可以通过训练特定的机器学习模型来提取自定义关系类型。
  关系提取可用于处理非结构化文档以识别具体关系,然后将其用于填充知识图谱。
  例如,该技术可以通过处理非结构化医疗文档来提取疾病、症状、药物等之间的关系。
  七、概述
  摘要缩短文本以创建要点的连贯摘要。文本摘要有两种不同的方法:
  文本摘要可用于使人们能够快速消化大量文档的内容,而无需完全阅读它们。这方面的一个例子是新闻提要或科学出版物,它们通常会生成大量文档。
  智能文档分析任务的复杂性
  
  机器学习在非结构化文本上比在结构化数据上复杂得多,因此在分析文本文档时达到或超过人类水平的性能要困难得多。
  1. 语言复杂度
  由于语言收录
的变化、歧义、上下文和关系,人类需要很多年才能理解语言。我们可以用多种方式表达相同的想法。我们根据作者和读者群使用不同的风格,并选择使用同义词来增加兴趣并避免重复。RDA 技术必须能够理解不同的风格、歧义和词关系以获得准确的洞察力。
  IDA 需要理解通用语言和特定领域的术语。处理特定领域术语的一种方法是使用自定义词典或构建用于实体提取、关系提取等的自定义机器学习模型。
  将通用语言和特定领域术语相结合的另一种方法是迁移学习。这需要一个已经在大量通用文本上训练过的现有神经网络,然后添加额外的层并使用少量特定于问题的内容来训练组合模型。现有的神经网络类似于人类在学校开发的年代。额外的层类似于一个人离开学校并开始工作时发生的领域或特定于任务的学习。
  2.准确性
  RDA 技术的准确性取决于所用语言的多样性、风格和复杂性。它还可能取决于:
  NLP-progress 是一个跟踪最先进模型在最常见 NLP 任务上的准确性的网站。这为可以达到的准确度水平提供了有用的指南。不过,判断 IDA 是否会产生准确结果的最佳指南是问问自己“人类做这件事有多容易?” “如果一个人无需多年的训练任务就能学会准确地完成这项工作,那么 IDA 就有可能通过加快流程、保持一致性或减少体力劳动来带来好处。”
  您如何处理智能文档分析项目?
  IDA 项目可以通过以下两种方式之一集成到企业中:
  使用的方法应取决于 IDA 所达到的准确性和做出错误决策的成本。如果错误决策的成本很高,请考虑从手动循环开始,直到准确度足够高。
  IDA 项目最好采用迭代方式 - 从概念验证开始,以确定该方法是否可行,如果可行,所达到的准确性是否表明使用了自动化或人为参与。然后迭代增加复杂性,直到估计的工作量不能证明预期的收益。
  对于您的第一个 IDA 项目,请考虑以下步骤:
  此过程将使您熟悉这些技术,并让您的业务发起人在处理具有更高收益的更复杂的用例之前获得对它们的信心。
  通过周密的规划和实施策略,您的组织可以利用上面讨论的 NLP 和机器学习技术来构建 IDA 应用程序以改善业务成果。
  本文:
  讨论:请加入知识星球【首席架构师智库】或小号【jiagoushi_pro】
  (此处已添加圈卡,请前往今日头条客户端查看)
  解决方案:OCR完美扫描识别增值税发票
  一、发票扫描识别系统定义
  OPSKY Express客票扫描识别系统(以下简称发票扫描识别系统)是结合高性能扫描仪和OCR识别技术,软硬件一体化的系统。
  发票扫描识别系统利用扫描仪完美捕捉发票图像(JPG/TIFF/BMP格式),并同步进行图像处理,利用OCR识别技术识别发票图像上的关键信息,生成TXT文本和XML格式文件同步。发票信息的采集
。扫描识别对象包括增值税专用发票、增值税普通发票、机动车销售统一发票等。目前,发票扫描识别系统已成功应用于企业财务票据查验系统和机构以及汽车销售行业的DMS管理系统。
  2、发票扫码识别系统的继承
  1、高性能扫描仪,目前系统配备三种扫描仪:L2230、L7280+、L7300+;
  2、发票扫描识别系统智能图像处理功能:倾斜校正、原尺寸裁切、去底色、旋转、去白页、加框等;
  
  3、发票扫描识别系统采用清华TH-OCR识别内核,可OCR识别多种格式发票;
  4、发票扫描识别系统配备智能发票模板编辑工具,可轻松自定义各种格式的发票识别模板;
  5、发票扫描识别系统支持发票图像自动分类,系统可自动区分当前单据所属业务类型,实现自动归档;
  6、发票扫描识别系统配备快速数据校对工具,支持横向字段校对和纵向收词校对两种方式;
  三、发​​票扫描识别系统工作流程
  1、使用智能票据模板编辑工具识别发票图像上的关键信息并划定区域,即自定义需要识别的格式化发票模板(系统内置常用发票识别模板);
  
  2、PC连接扫描仪后,打开发票扫描识别系统DEMO,一键扫描识别,通过扫描仪采集发票图像并同步完成OCR识别工作(支持导入图像识别);
  3、发票扫描识别系统DEMO支持校对修改,结果自动保存到生成的TXT文本和XML格式文件中;
  4、发票扫描识别系统集成开发
  为实现上述发票扫描识别系统的强大功能,需要进行系统集成开发:
  操作系统:Windows系列
  API接口:以标准DLL(动态链接库)和OCX控件的形式提供,支持VB、VC、C#、
  Delphi、PB、C/C++、Java等常用编程语言的调用;

分享文章:便签怎样提取图片文字?

采集交流优采云 发表了文章 • 0 个评论 • 93 次浏览 • 2022-11-28 21:20 • 来自相关话题

  分享文章:便签怎样提取图片文字?
  很多人在使用手机或者电脑的时候,经常会用手机来帮助自己记录一些容易忘记的事情。为此,很多人会选择使用笔记软件。随着科技的发展,便签软件的功能越来越多。如果你想提取图片上的文字,哪个便签可以做到?
  我平时很喜欢文学。当我看到一些好的文章或一些经典的句子时,我喜欢将它们摘录并采集
。之前采集
和提取这些句子时,我都是用纸质笔记本来做的。后来随着不断的积累,发现笔记本不便于携带和查看,容易损坏,摘录也很费时间。
  
  后来一个偶然的机会,在一个知名的IT论坛上看到有很多网友推荐了一款叫做敬业签的便签软件。于是下载下来体验了一段时间。体验后发现,移动端专用标志可以通过拍照或从相册中选择图片的方式提取文字,加入金卡会员即可获得该功能。注意图像识别功能。
  当你发现图片上有文字需要提取时,先点击专用标签的新建按钮,然后点击选择屏幕功能栏最右侧的方框图标。这个图标是文字识别功能。点击后可以选择相机拍照或者本地相册,选择一张照片点击完成,拍照点击使用照片,稍等片刻即可识别图片中的文字。
  
  有了这个识别图片文字的功能,遇到喜欢的大文字时,就会轻松很多。除此之外,我非常喜欢它的多段同步功能。同一账号登录后,可在苹果手机、安卓手机、Mac、Windows系统PC和网页上使用。
  多端同步功能,可以用手机提取图片上的文字,然后通过电脑等其他操作终端查看编辑,非常灵活方便。
  分享文章:采集公众号所有文章导出Excel
  网站版支持4种常用网站类型dedecms、wordpress、phpcms、discuz,1个数据库mysql对接,1个自定义API接口,常见问题及设置方法介绍如下。请检查您的网站程序
  WordPress是一个使用PHP语言开发的博客平台。用户可以在支持PHP和MySQL数据库的服务器上架设自己的网站。您还可以将 WordPress 用作内容管理系统 (CMS)。
  独狼采集器
  
  WordPress 设置:
  注意:后台一定要填:wp-admin/,wp一般没有验证码,所以不用填。cookie不用填,类目ID可以在里面查看你网站的背景-文章-分类,右键目录名可以查看属性,属性url中Tag_ID=后面的值为分类ID
  
  如需发表文章,请先进入审稿状态,不要直接发表。可以这样设置:打开软件目录下data目录下的settings.ini,找到【网站设置】,在下一行写入:
  发布方式=1//说明:1为直接发布状态,2为待审核状态,author=1//说明:1为显示昵称,2为显示公众号,3为显示此格式:微信[weixin] 查看全部

  分享文章:便签怎样提取图片文字?
  很多人在使用手机或者电脑的时候,经常会用手机来帮助自己记录一些容易忘记的事情。为此,很多人会选择使用笔记软件。随着科技的发展,便签软件的功能越来越多。如果你想提取图片上的文字,哪个便签可以做到?
  我平时很喜欢文学。当我看到一些好的文章或一些经典的句子时,我喜欢将它们摘录并采集
。之前采集
和提取这些句子时,我都是用纸质笔记本来做的。后来随着不断的积累,发现笔记本不便于携带和查看,容易损坏,摘录也很费时间。
  
  后来一个偶然的机会,在一个知名的IT论坛上看到有很多网友推荐了一款叫做敬业签的便签软件。于是下载下来体验了一段时间。体验后发现,移动端专用标志可以通过拍照或从相册中选择图片的方式提取文字,加入金卡会员即可获得该功能。注意图像识别功能。
  当你发现图片上有文字需要提取时,先点击专用标签的新建按钮,然后点击选择屏幕功能栏最右侧的方框图标。这个图标是文字识别功能。点击后可以选择相机拍照或者本地相册,选择一张照片点击完成,拍照点击使用照片,稍等片刻即可识别图片中的文字。
  
  有了这个识别图片文字的功能,遇到喜欢的大文字时,就会轻松很多。除此之外,我非常喜欢它的多段同步功能。同一账号登录后,可在苹果手机、安卓手机、Mac、Windows系统PC和网页上使用。
  多端同步功能,可以用手机提取图片上的文字,然后通过电脑等其他操作终端查看编辑,非常灵活方便。
  分享文章:采集公众号所有文章导出Excel
  网站版支持4种常用网站类型dedecms、wordpress、phpcms、discuz,1个数据库mysql对接,1个自定义API接口,常见问题及设置方法介绍如下。请检查您的网站程序
  WordPress是一个使用PHP语言开发的博客平台。用户可以在支持PHP和MySQL数据库的服务器上架设自己的网站。您还可以将 WordPress 用作内容管理系统 (CMS)。
  独狼采集器
  
  WordPress 设置:
  注意:后台一定要填:wp-admin/,wp一般没有验证码,所以不用填。cookie不用填,类目ID可以在里面查看你网站的背景-文章-分类,右键目录名可以查看属性,属性url中Tag_ID=后面的值为分类ID
  
  如需发表文章,请先进入审稿状态,不要直接发表。可以这样设置:打开软件目录下data目录下的settings.ini,找到【网站设置】,在下一行写入:
  发布方式=1//说明:1为直接发布状态,2为待审核状态,author=1//说明:1为显示昵称,2为显示公众号,3为显示此格式:微信[weixin]

解决方案:华为诺亚开源首个亿级中文多模态数据集,填补中文NLP社区空白

采集交流优采云 发表了文章 • 0 个评论 • 42 次浏览 • 2022-11-28 11:42 • 来自相关话题

  解决方案:华为诺亚开源首个亿级中文多模态数据集,填补中文NLP社区空白
  华为诺亚方舟实验室的研究人员提出了一个大型中文跨模态数据库——“悟空”,并以此为基础,对不同的多模态预训练模型进行了benchmark,有助于中文视觉语言预训练算法的研发和开发.
  在大数据上预训练大型模型以微调下游任务已成为 AI 系统的新兴范例。BERT 和 GPT 等模型在 NLP 社区中越来越受欢迎,因为它们对广泛的下游任务甚至零样本学习任务具有很高的可迁移性,从而产生了 SOTA 性能。最近的工作,如 CLIP、ALIGN 和 FILIP,进一步将这种范式扩展到视觉语言联合预训练 (VLP) 领域,并在各种下游任务上显示出优于 SOTA 方法的结果。这个有前途的方向引起了业界和研究人员的极大关注,将其视为通往下一代人工智能模型的途径。
  VLP 模型的成功有两个原因。一方面,更高级的模型架构(如 ViT/BERT)和训练目标(如对比学习)通常会提高模型的泛化能力和学习表征的鲁棒性。另一方面,由于硬件和分布式训练框架的进步,越来越多的数据可以输入到大规模模型中,以提高模型的泛化性、可迁移性和零样本能力。在视觉或语言任务中,在大规模数据(如图像分类中的JFT-300M,T5中的C4数据集)上进行预训练,然后通过迁移学习或提示学习进行学习,已被证明非常有效地提高了下游任务的执行。有用。此外,
  因此,预训练 VLP 模型在大规模数据上的成功促使人们不断爬取和采集
更大的图形数据集。下面的表 1 显示了 VLP 领域中许多流行数据集的概览。Flickr30k、SBU Captions 和 CC12M 等公开可用的视觉语言(英语)数据集的样本量相对较小(约 1000 万),而较大的数据集如 LAION-400M。但是,直接使用英文数据集训练模型会导致中文翻译任务的性能大幅下降。例如,大量特定的中文成语和俚语无法被英文翻译覆盖,而机器翻译往往会在这些方面带来错误,进而影响任务执行。
  目前,社区缺乏大规模公开可用的中文数据集,这不仅阻碍了社区的发展,而且使用私人大型数据集也取得了其他作品无法公平比较的惊人性能。
  为了弥合这一差距,华为诺亚方舟实验室的研究人员发布了一个名为“悟空”的大型中文跨模态数据集,其中收录
来自互联网的 1 亿个图像文本对。为确保多样性和泛化性,Wukong 数据集是从 200,000 个高频中文词列表中采集
的。本文还采用基于图像和基于文本的过滤策略进一步细化悟空数据集,使其成为迄今为止最大的中文视觉语言跨模态数据集。研究人员分析了数据集并表明它涵盖了广泛的视觉和文本概念。
  研究人员进一步发布了一组使用不同架构(ResNet/ViT/SwinT)和不同方法(CLIP、FILIP 和 LiT)的大型预训练模型。本文的主要贡献如下:
  “悟空”数据集
  研究人员构建了一个名为 Wukong 的新数据集,其中收录
从网络采集
的 1 亿个图像文本对。为了涵盖足够多的视觉概念,Wukong 数据集是从收录
200,000 个术语的查询列表中采集
的。这个基础查询列表取自严松等人的论文《Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings》,然后根据华为海量新闻文本中中文词和短语出现的频率进行过滤语料库。
  查询列表建立后,研究人员在百度图片上搜索每个查询,获得图片网址列表和相应的标题信息。为了保持不同查询结果之间的平衡,他们每次查询最多搜索 1000 个样本。然后使用先前获得的图像 URL 下载图像,总共产生 1.66 亿个图像文本对。然后,像往常一样,研究人员通过以下一系列过滤策略构建最终的 Wukong 数据集。下面的图 2 显示了 Wukong 数据集中的一些样本。
  基于图像的过滤
  研究人员首先根据图像大小和纵横比过滤数据。仅保留长于或宽于 200 像素且纵横比为 3 或更小的图像。这种方法会过滤掉太小、太高或太宽的图像,因为这些图像在预训练期间经过上采样和方形裁剪等图像增强后可能会变得低分辨率。
  基于文本的过滤
  其次,为了使选取的样本具有对应图像的高质量中文描述,研究人员进一步根据图像所附文字的语言、长度和频率对数据进行过滤。具体来说,他们首先检查语言和长度,保留收录
至少一个但少于 32 个汉字的句子。无意义的图像描述如“000.jpg”也被丢弃。之后搭配太多图片的文字通常与图片内容无关,比如“查看源码页面”、“展开文字”、“摄影社区”。在实践中,研究人员将这个阈值设置为 10,即丢弃整个采集
到的语料中出现次数超过 10 次的图文对。
  为了保护文本中个人的隐私,研究人员将人名替换为特殊标签“&lt;人名&gt;”。此外,他们还构建了中文敏感词列表,收录
敏感词的图文对也被丢弃。
  在应用上述过滤策略后,研究人员最终得到了大约 1 亿对的数据集。下表 2 显示了数据集的统计数据:数据集文本中有 20,442 个独特的标记,每个描述中的平均标记数为 22。
  
  在下面的图 3 中,研究人员可视化了数据集中单词(由一个或多个标记组成)的分布。然后,他们使用中文文本分词工具 Jieba 截取单词并构建数据集的词云。
  方法框架
  文本图像联合对齐
  与最近经过充分验证的方法类似,研究人员采用对比预训练架构,如下图 1 所示。他们使用带有基于 Transformer 的文本和图像编码器的双流模型。这两个编码器将文本和视觉输入标记转换为相同维度的嵌入。在这个学习的联合嵌入空间中,我们使用对比损失来鼓励图像和文本对具有相似的嵌入,而未配对的对具有不同的嵌入。
  模型架构
  由于视觉和文本模态的编码器是解耦的,因此可以为这两种模态探索不同的编码器架构。研究人员试验了三种视觉编码器变体(即 ResNet、Vision Transformer 和 Swin Transformer)和一种类似 BERT 的文本编码器来训练中文 VLP 模型。
  预训练目标
  跨模态对比学习是一种特别有效的方法,用于从成对的图像文本数据训练模型,它可以通过区分成对和未成对的样本同时学习两种模态的表示。研究人员遵循 FILIP (Yao et al., 2022) 中的公式符号,使用
  定义图像样本集,同时
  表示文本数据。给定图像样本
  和一个文本样本
  ,该模型旨在使成对的图像和文本表示在联合多模态空间中靠近在一起,而不成对的表示相距很远。
  
  在这项工作中,研究人员探索了两种方法来衡量图像和文本之间的相似性。图像和文本的学习表示被标记为
  和
  . 这里,n_1 和 n_2 是每个图像和文本中(未填充的)词标记的数量。
  LiT调校
  研究人员受到最近提出的微调范例 LiT-tuning(锁定图像文本调优)的启发,该范例表明具有固定权重的图像编码器和可学习的文本编码器在 VLP 模型中效果最好。他们在对比学习设置中做了同样的事情,只更新了文本编码器的权重而不是图像编码器。
  具体来说,研究人员采用的 LiT-tuning 方法旨在教会中文文本编码器从现有的图像编码器中读取合适的表示,该图像编码器已在英文数据集上进行了预训练。他们还为每个编码器添加了一个可选的可学习线性变换层,它将两种模态的表示映射到相同的维度。LiT-tuning 效果很好,因为它解耦了用于学习图像特征和视觉语言对齐的数据源和技术(Zhai 等人,2021b)。此外,图像描述符使用相对干净或(半)手动标记的图像预先进行了很好的预训练。
  我们将这个想法扩展到多语言数据源,并尝试将在英语数据源上预训练的固定图像编码器与可训练的中文文本编码器对齐。此外,LiT-tuning 方法显着加快了训练过程并减少了内存需求,因为它不需要为视觉编码器计算梯度。
  实验结果
  下面的表 3 描述了视频编码器的模型参数和详细信息。
  零镜头图像分类。研究人员在 17 个零镜头图像分类任务上评估了预训练模型。零样本图像分类结果如下表5所示。他们比较了使用不同视觉编码器的多个 LiT-tuning 模型,即从 CLIP 或 Swin Transformer 加载现有的视觉编码器并在训练阶段固定它们的权重。结果发现,使用令牌级别的相似性比使用全局相似性带来更显着的改进。
  文本检索任务。研究人员评估了两个子任务,即按图像搜索文本和按文本搜索图像。下面的表 6 和表 7 分别显示了零镜头设置和微调图像文本检索的结果。对于零样本设置,与其他模型相比,Wukong_ViT 在 4 个数据集中的 3 个上取得了最好的结果,而 Wukong_ViT-500M 在更大的 MUGE 数据集上取得了最好的结果。对于微调设置,Wukong_ViT-500M 在除 AIC-ICC 之外的所有数据集上都取得了最好的结果,其中 Wukong_ViT 效果最好。
  词汇 - 瓷砖对齐的可视化。研究人员使用预训练模型 Wukong_ViT 和 Wukong_Swin 进行可视化。如图 4 所示,该图可视化了来自 ImageNet 的中文六个标签(即豆娘、救生艇、蜂鸟、平板电话、教堂和电扇)的图像。然后应用与 FILIP (Yao et al., 2022) 相同的可视化方法来对齐文本和图块标记。
  从下面的图 4 中,研究人员发现这两个模型都能够预测目标对象的图像块。对于具有更多图像块的 Wukong_ViT,这种词汇块对齐比 Wukong_Swin 更细粒度。
  核心方法:词嵌入的经典方法,六篇论文遍历Word2vec的另类应用
  在这篇文章中,作者首先为读者​​普及了word2vec的基础知识,然后以六篇论文为例详细介绍了当前研究如何利用经典的word2vec进行扩展研究。其中,作者着重介绍了知识嵌入空间的生成过程。对其完整应用感兴趣的读者可以参考原论文。
  随着深度学习的兴起,每个模型都需要一个输入,而我们现实生活中的物体(文字、图片等)都不是数字,计算机无法处理。那么如何为每个任务确定一个合适的“输入”就变得尤为重要。这个过程也称为表征学习。
  word2vec 所做的是将文本转化为对计算机有意义的输入。简单的说,就是把这些东西映射到一个空间里。我们通常用三维空间来表示位置,也就是xyz,但是在图片、文字等这个领域,三维空间不够用,有可能去另一个N维空间. 在这个空间里,就像三维空间里人的鼻子应该靠近嘴巴一样,我们也希望在这个新的空间里也能找到类似的东西。比如课文中的“鼻子”和“嘴巴”我们也希望它们能离得近一些,因为它们属于五感,所以“鼻子”和“腿”是比较远的。
  顾名思义,word2vec 将文本转换为计算机可识别的输入,因此这项技术最早也是应用最广泛的应用是在自然语言处理(NLP)领域。其实我之前针对representation learning做过两次基于ICLR和CVPR的high-level总结,不过这次这篇文章主要针对word2vec,从细节入手,看看word2vec中发现的空间是如何改进和使用的,还要看看根据word2vec原理发现的新空间。在开始正题之前,为了防止大家对word2vec理解不清从而影响后面文字的理解,这里先科普一下本文将要用到的相关基本概念。
  一、word2vec简介
  What is word2vec: Word2Vec是一个过程(技术),其中文本被用作神经网络的训练数据,这个神经网络的输出向量被称为embeddings,这些embeddings(向量)将收录
训练后单词的语义信息。这个过程所做的是从每个单词嵌入到多个维度的空间到维度低得多的连续向量空间。矢量嵌入可以在真实对象的“离散”世界和机器学习的“可微”世界之间架起一座桥梁,因而在数据库研究中具有巨大的潜力。一类对象的嵌入向量从X映射到某个向量空间,称为潜在空间,我们通常假设它是有限维d的实向量空间R^d。
  它们用在什么地方:最后word2vec会生成如图1所示的一堆向量(word embedding,word embedding),这些向量可以在后续任务中作为神经网络模型的输入。
  图 1:示例词嵌入。图片来源:
  为什么使用 word2vec:如前所述,这些嵌入捕获了文本的语义,具有相似含义的单词靠得更近(图 2 显示了最常见的相似性度量之一——余弦相似度 Spend)。并且经过长期的实践,研究人员发现这种语义编码使得各种NLP任务都有很好的表现。
  图 2:距离作为距离度量的示例 - 余弦相似度。图片来源:
  基本模型:训练word2vec常用的方法有CBOW和skip-gram。如图3所示,w(t)代表当前词,w(t-?)代表前一个词,w(t+?)代表后一个词。简单来说,CBOW就是利用周围的词来预测当前词。而 skip-gram 模型使用当前词来尝试预测周围大小为 c 的窗口中的词。具体的计算细节可以参考图3来源的文章,这里就不详细介绍了。
  图 3:skip-gram 和 CBOW。图片来源:
  如何衡量:在使用embeddings时,我们应该考虑几个问题——对象的哪些属性由embeddings表示?我们使用的距离测量有什么意义?潜在空间的几何属性是否对应于 X 上有意义的关系?当然,同时我们还要考虑计算向量嵌入的计算成本。
  2.改善旧空间
  了解了word2vec的基础知识之后,就可以正式进入正题了。正如上一节所述,当我们构建嵌入空间时,我们需要考虑对象的那些属性需要在嵌入空间中表示。word2vec在传统的NLP任务中表现不错,但是在一些新的更复杂的任务中,有些属性不能很好的体现出来,因为最初的word2vec模型是完全基于文本训练的,很多关系很难在文本中体现出来,比如“看”和“吃”。单看这两个词,我们甚至很难认为它们有关联。
  但是如果加上图4,他们会连起来吗?对这幅图的描述可以有两种,一种是小女孩在“看”冰淇淋,另一种是增加了一定的联想——小女孩在“看”冰淇淋。“吃冰激凌。在对这张图片的描述中,两句话都是正确的。这个例子不仅说明了使用纯文本进行学习的缺点,还表明在图片描述等任务中,这个信息也很重要。
  图 4:吃冰淇淋的小女孩。资料来源:[1]
  不难理解,人类在感知世界时,不仅仅用视觉,还用听觉、嗅觉等,同样,在看的时候,看到的也不仅仅是文字,语言是知识的载体transfer,所以现在研究者开始使用不同的感知模式(声音,图片)来学习语言模型(multi-modal learning),让语言模型学习到的embedding能够更全面的代表我们人类的理解能力。
  至于技术层面,其实回到语言模型起源的阶段,语言模型和迁移学习就像一对兄弟,只是进入了不同的领域,叫法不同。例如在NLP任务中,先训练语言模型,然后直接使用预训练好的语言模型来执行下面的任务。好像前面几层的migration learning都冻结了(这个如果不理解也可以,不影响后面的理解,如果觉得放不下可以看看之前的文章机器之心,基础教程很多,这里就不介绍了)。
  之所以说transfer learning,是因为如果要达到完善word2vec空间的效果,其实类似于transfer learning中的global finetune,把前面的语言模型(一开始冻结的层)进培训。
  为了展示当前的研究如何具体使用word2vec进行扩展应用,本节简要介绍四篇论文,展示图片和声音如何增强现有word2vec嵌入空间的表示能力。当然,这里介绍的知识嵌入空间的生成过程在原论文中还有其他创新之处。如果您有兴趣,可以再次阅读全文。
  2.1 视觉 Word2Vec (vis-w2v) [1]
  论文链接:
  这种方法解决了图4中提到的例子中的问题。这里作者需要在原来word embedding的基础上增加图像的语义表示,即在w2v训练中加入图像作为背景。该方法基于 CBOW 并使用代理标签作为图像背景的表示。
  图 5:vis-w2v 中的网络结构。资料来源:[1]
  具体模型如图5所示,模型的输入是图文对D = {(v, w)},v指的是图片的特征,w是v对应的文字描述。这里,w(句子或单词)的形式会因场景而异(更多内容见下文)。
  图5所示的是一个窗口(这个窗口可能收录
w的一些单词,也可能收录
完整的w,也会根据不同的场景发生变化,下面会详细介绍),其中w_1到w_l代表一个窗口收录
的词是用one-hot方法编码的(N_V表示one-hot编码的维度),H_wi是W_I乘以wi得到的,这里W_I是共享的,即所有的w_i都乘以同一个W_I,因为它是one-hot encoding,其实相当于取W_I的某一行,对每条H_wi取平均值得到最终的H:
  得到H(N_H为embedding的维度)后,将这个H作为最终的特征向量,通过W_O映射到N_K维度(一共有N_K类,这里的N_K后面会讲到)。对其进行softmax操作后,就可以知道这段文字(w_1-w_l)属于哪个类别。这一步是做分类。
  如果理解NLP任务,第一步获取H和我们平时获取embedding的方式是一样的,因为这里的W_I初始化为传统CBOW的权重,所以这一步其实就是获取这些词的传统embedding,然后取其平均值作为整个窗口所有词的特征,然后做一个分类任务。
  现在是本文的核心——上一段说这是一个分类任务,那么分类任务的标签从何而来呢?这就是辅助标签的作用——作者在做分类任务时将图片v聚类成N_K个类,然后每个v所属的类就是这个v对应的w的标签。
  然后回到 w,其中 w 允许选择 w 的各种形式,例如完整的句子或形式的元组(主要对象,关系,次要对象)。w 的选择取决于我们关心的任务。例如,在常识断言分类和基于文本的图像检索中,w 是元组中的一个短语,而在视觉释义中,w 是一个句子。给定 w,S_w 也是可调整的。它可以包括所有 w(例如,当从元组中的短语学习时)或单词的子集(例如,当从句子中的 n-gram 上下文窗口学习时)。
  最后说说效果吧。这个任务其实就是在w2v的基础上进行finetune。这种直接进行global finetune的效果,按照论文的说法,也可以保持原有的w2v效果,即如果有些词在finetune过程中没有出现,会保持原有的语义属性,而这个global finetune会不要让新的 w2v 在传统任务中变得更糟。
  在下表1所示的视觉转录任务对比中,vis-w2v的效果要比纯w2v任务好很多。
  表 1:中继任务的平均准确度 (AP)。表格来源:[1]
  2.2 视觉监督Word2Vec(VS-Word2Vec)[2]
  
  论文链接::uhM9BVykvRQyYoWE5KCq3BfjUSjLRED2yV7nktCUgw3jDcAh_R2xx8iV7Az3pBWTZPBQ87cQzEgd
  本文还想把图片中的信息迁移到w2v中,让w2v空间更好的表示图片中的信息。上一篇论文是在w2v中加入广义的图片信息(词的相似度由图片的相似度引导),这篇论文的全称是Embedded Representation of Relation Words with Visual Supervision。顾名思义,就是让embedding space能够更好的表示相关词(“我背着包”中的“holding”就是相关词)。
  下图6展示了一些关系词的例子,[3]给出了一个与此类似的数据集,是本文的输入形式之一。
  图 6:关系词。资料来源:[3]
  VS-Word2Vec的基本结构如图7所示,这个结构分为上下两部分。上面是一个CNN,类似于图6中的图片作为输入,输出是一个特征向量,作为图片对应的关系词的embedding(视觉关系特征空间);下面是传统的CBOW,也会生成word embeddings。
  这篇论文和第一篇论文除了要表现的信息不同外,使用的方法也不同。基本思路是:如果这个词是关系词,那么让上面(CNN)生成的word embedding和下面生成的embedding尽量一样,但是如果这个词不是relative word,那么就忽略上面的,和传统的CBOW训练完全一样。
  图 7:VS-Word2Vec 网络结构。资料来源:[2]
  具体来说,整体算法如图8所示,第一行和第二行对应图7上半部分的CNN。首先,计算图表示(视觉关系特征,算法的第四行):
  这里y_wi是某个关系词wi的表示。具体来说,就是利用VGG得到这个关系词对应的所有图片(Q_i张图片)的特征向量(y_wi^q),然后对这些特征向量进行平均。如前所述,如果训练出来的词属于关系词,那么作者希望CBOW和CNN生成的两个embeddings尽可能一致。本文的不一致性通过以下公式衡量:
  这里s_ij表示关系词i和关系词j的余弦相似度,右下角的r表示这是一个关系词,x表示CBOW中生成的word embedding,v表示CNN中生成的word embedding。这个公式中J越小越好。
  图 8:VS-Word2Vec 算法流程。资料来源:[2]
  最后就是图8中的第4到19行,是上面整体思路的体现,即计算如下公式,同时更新参数(梯度上升):
  首先D是CBOW的训练集,然后对于训练集中的每个词,计算两个损失e1和e2,e1是前半部分,也就是传统CBOW的损失,e2是后半部分,也就是衡量两个嵌入的性能。不一致(J_V),\lambda是可调超参数,p_t表示w_t是否是关系词,如果是关系词,则p_t=1,保留后半部分,如果不是关系词,就变成传统的CBOW训练过程。
  注意第15行,这里使用了for循环,所以本文的目标不是让上下两部分对于一个关系词有完全相同的embedding,而是要求关系词保证“一致性”图7上下两部分的相似度,所以直接用J_V代替余弦相似度。
  作者使用该方法后,对比了SimVerb-3500中九大类的同义词(SYNONYMS, ANTONYMS, HYPER/HYPONYMS, COHYPONYM, NONE),对比结果如表2所示,总体来说比CBOW好,并且在一些特殊的班级,效果有了很大的提升。
  表 2:同义词一致性结果。表格来源:[2]
  2.3 Action2Vec [4]
  论文链接:
  又一篇探索视觉信息的文章,不过这里探索的对象变成了视频(因为它编码了动作),如图9,思路和上面类似,但是变成了左右结构,而这个第二篇是真正的两词比较(pairwise ranking loss),而不是用一致性来判断。
  图 9:Action2Vec 端到端架构。资料来源:[4]
  具体来说,左侧首先使用[5]中的数据集预训练的C3D模型提取每帧图片的特征向量,然后使用一个层次递归神经网络(HRNN),并加入一个self-attention机制,最后通过一个全连接层(fully connected weights),将LSTM2得到的video embedding变成一个和word embedding同维的向量,最后这个向量通过一个全连接层来执行分类任务层,判断这个视频对应的动作是什么。然后使用“双重损失”(交叉熵+成对排序)使改进后的联合嵌入空间同时具有视频和文本语义信息。
  HRNN:这里的HRNN指的是使用了两层LSTM。第一层用来提取局部特征(输入是每一帧的图片),第二层LSTM(LSTM2)的输入是LSTM1每s张图片的输出。,以图9为例,其中步长为3,每三张图片(h1-h3,h4-h6,...)会输出一个向量,这些向量就是LSTM2的输出。self-attention机制中的attention计算这里就不介绍了。
  Dual loss:这里的dual loss是指cross entropy加上pairwise ranking loss。这里不介绍交叉熵。它对应于上面提到的分类任务。如果你不明白pairwise ranking loss(PR loss),可以看看这篇文章(),会更容易理解下面的公式。这里的PR损失定义为以下公式:
  这里a_i和v_i分别表示HRNN和word2vec模型生成的action word i的embedding,a_x和v_x分别对应HRNN和word2vec生成的负样本(即非action word i的embedding)。请注意,图 9 中的绘图并不完整。交叉熵(CE)对应的分类任务就不在上面画了。Action Embedding首先通过全连接层进行分类任务,然后有CE损失。
  最后需要说明的一点是,由于两个数据库中的词并不完全相同,可能会出现video数据库中的词在word2vec词库中不存在的情况,这些动词会被转换成对应的形式(如 walking 变成 walk 等)。
  在实验部分,作者在ZSAL(Zero Shot Action Learning)任务中将其与其他ZSL模型进行了比较。可以看出,作者提出的模型在各个数据集上的效果都是最好的。
  表 3:ZSAL(Zero Shot Action Learning)模型效果对比。表格来源:[4]
  2.4 sound-word2vec [7]
  论文链接:
  前几篇介绍了视觉,上一篇我们开始涉及到听觉,也就是声音信号。虽然大多数声音中都有象声词,但很多象声词在文本中并不常见,而且与直接音相比,这些词对应的语义信息很难学习,因此本文作者利用声学特征将传统词融入其中嵌入空间。值得注意的是,这里又用到了辅助标签(聚类)。该模型的整体结构如图10所示。
  图 10:sound-word2vec。资料来源:[7]
  在图10中,这个模型的输入是基于FreeSound生成的输入对{s,T},s是声音,T是用户提供的声音对应的一系列标签(一组词),这些标签首先通过W_P(由预训练的word2vec模型中的权重初始化)成embeddings,然后对这些embeddings进行平均,得到隐藏层的值H。最后,H通过全连接层(W_O)完成一个分类任务,输出一个类别。
  
  与第一篇论文一样,此处分类任务的标签来自聚类。首先对s进行聚类得到类别标签,然后用这个标签来训练W_P和W_O。总体来说,这篇论文的思路和第一篇论文差不多,但是论文中关于声音如何表示的声音处理还是很有启发性的。同时,本文再次证明整体的finetune可以提升传统的word embedding。空间效果好。
  这种方法的效果如表4所示,在普通词上,效果和word2vec差不多,但是在象声词上,sound-word2vec明显表现的好很多。作者还对一些基于文本的拟声词识别任务进行了实验,效果也比普通的baseline模型好很多(详见原论文)。
  表 4:相似词的示例。表格来源:[7]
  3.探索新空间
  论文链接:
  去年,谷歌使用语言模型将蛋白质序列转换为嵌入,从而在许多相关任务上实现了飞跃。我曾经写过一篇文章介绍这个,这里就不赘述了。今天主要介绍一下这个方法是如何应用的。在音乐上,生成了一个新的基于音乐的嵌入空间,新嵌入空间的音乐理论知识表示——music + word2vec [6]。
  因为这篇论文收录
了更多的乐理专业知识,对应的机器学习方法也比较传统,是skip-gram模型加上乐谱的编码。然而,论文中详细分析了乐谱在乐谱嵌入空间中的乐理知识表示,表明skip-gram可以很好地从乐谱中学习乐理知识。
  关于乐谱的编码,如下图11所示,图中包括了肖邦玛祖卡Op.的前六小节。67 No. 4 (Chopin's Mazurka Op. 67 No. 4) 和前三小节的编码示例。这相当于把一个节拍当作文本中j的一个词,第一个块收录
E,它是表示四分音符中E5音高的音级。由于第二拍的音高是 E5 和 A3,因此第二个块收录
E 和 A。请注意,作者在第二小​​节中收录
了 E,即使音高 E5 连接到第一拍(不是开场),它仍然在第二拍上发音。同样,由于第三拍收录
音高 E3、A3、E4、E5(来自附点连奏)和 F5,因此第三块收录
音级 E、A、f。图中的例子。
  图 11:分数分类。资料来源:[6]
  如果声音片段长于一拍,我们可能会失去调和弦变化的细微差别。相反,如果切片短于一个节拍,则可能存在太多重复切片(切片之间的内容相同)。找到切片的最佳持续时间也很重要,但本文不涉及。我相信更好的编码方法将使这项研究更加有效。
  因为这篇文章的价值不在于使用什么机器学习方法,而在于skip-gram的使用,所以训练过程就不再赘述了。当然,除了证明skip-gram在音乐领域可以很好地获取和弦和谐波特征外,本文还提供了很多可以在音乐领域使用的数据集(第4节)。如果你有兴趣在这个领域做点什么,这些数据集还是很有用的。
  这篇论文的结果分析太专业了。如果想看音乐大咖对这个模型的评价,可以看原论文。总之,这款车型各方面表现都非常出色。懂音乐的同学可以看看原论文。书中中间是怎么分析的,或许对后续的任务也有很大的帮助。
  4.利用空间
  论文链接:
  最后,在讨论了如何改进传统词嵌入空间以及如何创建新的嵌入空间之后,如何使用这个空间也很重要。但由于本文不是word2vec的介绍,所以这里不再介绍word2vec在传统NLP任务中的应用。网上已经有很多实用性或理论性的科普文章。这里我们主要介绍词嵌入是如何在RL-Word2vec中应用于行为的[8]。
  这里的a代表听神经细胞。首先输入命令,然后使用这个命令的embedding来初始化隐藏层hi。这里的初始化是利用文本中5个命令词的embedding来进行预训练来初始化h_1-h_5。命令字为'forward', 'backward', 'stop', 'cease', 'suspend', 'halt',后四个字表达的意思相同,都不会用于初始化,作为测试组。初始化完成后,删除这些虚线连接,然后机器人进入仿真器开始仿真,向机器人输入指令的embedding,然后通过各个传感器获取的信息进行动作。这种初始化使网络能够获取语义信息。
  除了上述机制外,图12中的整个网络并不复杂。第一层称为传感器层,从机器人的传感器获取数据,然后这些神经元与后面的隐藏层全连接。这里的第二个隐藏层是一个带有自连接的循环神经网络,最后一个隐藏层与最后一个动作层(最右边)全连接。
  图 12:Word2vec 到行为训练网络。资料来源:[8]
  综上所述,整个训练过程如图13所示。通过向输入层的神经元a提供与“停止”等命令相关的word2vec嵌入,可以设置机器人控制策略的隐层初始值。然后将该策略下载到机器人,其运动生成的传感器数据被馈送到输入层的其余部分(虚线箭头),进一步改变隐藏层和运动层。
  评估后,机器人的行为根据与命令配对的目标函数进行评分,例如惩罚运动的函数。然后针对其他四个命令和目标函数对同一策略再进行四次评估(B 和 C 两次),训练策略以最大化所有五个函数的平均分数 (D)。训练后,最佳策略被赋予第六个未训练的同义词“停止”,其行为根据“停止”目标函数 (E) 进行评分。
  图 13:训练过程。资料来源:[8]
  最终结果如下图所示。每种颜色代表一个命令。可以看出,通过作者的方法训练的机器人(第一个)在“停止”命令上确实表现优于其他机器人。
  图 14:实验结果。资料来源:[8]
  总结
  从本文提到的分析性或创新性论文来看,skip-gram和CBOW可以很好地捕捉我们生活中很多对象(音乐、声音等)的语义,multi-modal是一个很好的完善在现有嵌入空间法,在没有标签的情况下,合理聚类也可以提供模型辅助标签。这个embedding space不仅适用于NLP领域,还有很多其他领域可以直接应用w2v中生成的embedding space(比如RL)。
  当然,未来还有很多其他可以探索的方向,比如开发一个比较初级的音乐领域,如何将声音中的情感融入到传统的w2v模式中等等。
  总之,语言作为我们观察和描述世界的基本要素,基本涵盖了我们生活的方方面面,在某些层面上也反映了客观世界的规律(如语言学的“组合原理”——组合性) . 在学习无法解决的问题时,语言模型或许能给你一点启发。
  参考
  [1] Kottur、Satwik 等人。“Visual word2vec (vis-w2v):使用抽象场景学习基于视觉的词嵌入。” IEEE 计算机视觉和模式识别会议论文集。2016.
  [2] 王,雪,等。“具有视觉监督的关系词的嵌入式表示。” 2019 第三届 IEEE 机器人计算国际会议 (IRC)。IEEE,2019 年。
  [3] 卢,策乌,等.“使用语言先验的视觉关系检测。” 欧洲计算机视觉会议。施普林格,查姆,2016 年。
  [4] Hahn、Meera、Andrew Silva 和 James M. Rehg。“Action2vec:一种用于动作学习的交叉模式嵌入方法。” arXiv 预印本 arXiv:1901.00484 (2019)。
  [5] A. Karpathy、G. Toderici、S. Shetty、T. Leung、R. Sukthankar 和 L. Fei-Fei。使用卷积神经网络进行大规模视频分类。在 CVPR,2014. 4
  [6] Chuan, C.-H., Agres, K., &amp; Herremans, D. (2018)。从上下文到概念:使用 word2vec 探索音乐中的语义关系。神经计算与应用。doi:10.1007/s00521-018 -3923-1
  [7] Vijayakumar、Ashwin K.、Ramakrishna Vedantam 和 Devi Parikh。“Sound-word2vec:学习以声音为基础的单词表征。” arXiv 预印本 arXiv:1703.01720 (2017)。
  [8] 马修斯、大卫等人。“从 Word2vec 到行为:形态有助于机器语言的基础。” arXiv 预印本 arXiv:1908.01211 (2019)。
  分析师介绍:
  这篇文章的作者是王自佳,目前正在帝国理工学院攻读人工智能硕士学位。主要研究方向为NLP推荐等,喜欢前沿技术,喜欢奇思妙想。他是一个不走寻常路,立志做研究员的男人! 查看全部

  解决方案:华为诺亚开源首个亿级中文多模态数据集,填补中文NLP社区空白
  华为诺亚方舟实验室的研究人员提出了一个大型中文跨模态数据库——“悟空”,并以此为基础,对不同的多模态预训练模型进行了benchmark,有助于中文视觉语言预训练算法的研发和开发.
  在大数据上预训练大型模型以微调下游任务已成为 AI 系统的新兴范例。BERT 和 GPT 等模型在 NLP 社区中越来越受欢迎,因为它们对广泛的下游任务甚至零样本学习任务具有很高的可迁移性,从而产生了 SOTA 性能。最近的工作,如 CLIP、ALIGN 和 FILIP,进一步将这种范式扩展到视觉语言联合预训练 (VLP) 领域,并在各种下游任务上显示出优于 SOTA 方法的结果。这个有前途的方向引起了业界和研究人员的极大关注,将其视为通往下一代人工智能模型的途径。
  VLP 模型的成功有两个原因。一方面,更高级的模型架构(如 ViT/BERT)和训练目标(如对比学习)通常会提高模型的泛化能力和学习表征的鲁棒性。另一方面,由于硬件和分布式训练框架的进步,越来越多的数据可以输入到大规模模型中,以提高模型的泛化性、可迁移性和零样本能力。在视觉或语言任务中,在大规模数据(如图像分类中的JFT-300M,T5中的C4数据集)上进行预训练,然后通过迁移学习或提示学习进行学习,已被证明非常有效地提高了下游任务的执行。有用。此外,
  因此,预训练 VLP 模型在大规模数据上的成功促使人们不断爬取和采集
更大的图形数据集。下面的表 1 显示了 VLP 领域中许多流行数据集的概览。Flickr30k、SBU Captions 和 CC12M 等公开可用的视觉语言(英语)数据集的样本量相对较小(约 1000 万),而较大的数据集如 LAION-400M。但是,直接使用英文数据集训练模型会导致中文翻译任务的性能大幅下降。例如,大量特定的中文成语和俚语无法被英文翻译覆盖,而机器翻译往往会在这些方面带来错误,进而影响任务执行。
  目前,社区缺乏大规模公开可用的中文数据集,这不仅阻碍了社区的发展,而且使用私人大型数据集也取得了其他作品无法公平比较的惊人性能。
  为了弥合这一差距,华为诺亚方舟实验室的研究人员发布了一个名为“悟空”的大型中文跨模态数据集,其中收录
来自互联网的 1 亿个图像文本对。为确保多样性和泛化性,Wukong 数据集是从 200,000 个高频中文词列表中采集
的。本文还采用基于图像和基于文本的过滤策略进一步细化悟空数据集,使其成为迄今为止最大的中文视觉语言跨模态数据集。研究人员分析了数据集并表明它涵盖了广泛的视觉和文本概念。
  研究人员进一步发布了一组使用不同架构(ResNet/ViT/SwinT)和不同方法(CLIP、FILIP 和 LiT)的大型预训练模型。本文的主要贡献如下:
  “悟空”数据集
  研究人员构建了一个名为 Wukong 的新数据集,其中收录
从网络采集
的 1 亿个图像文本对。为了涵盖足够多的视觉概念,Wukong 数据集是从收录
200,000 个术语的查询列表中采集
的。这个基础查询列表取自严松等人的论文《Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings》,然后根据华为海量新闻文本中中文词和短语出现的频率进行过滤语料库。
  查询列表建立后,研究人员在百度图片上搜索每个查询,获得图片网址列表和相应的标题信息。为了保持不同查询结果之间的平衡,他们每次查询最多搜索 1000 个样本。然后使用先前获得的图像 URL 下载图像,总共产生 1.66 亿个图像文本对。然后,像往常一样,研究人员通过以下一系列过滤策略构建最终的 Wukong 数据集。下面的图 2 显示了 Wukong 数据集中的一些样本。
  基于图像的过滤
  研究人员首先根据图像大小和纵横比过滤数据。仅保留长于或宽于 200 像素且纵横比为 3 或更小的图像。这种方法会过滤掉太小、太高或太宽的图像,因为这些图像在预训练期间经过上采样和方形裁剪等图像增强后可能会变得低分辨率。
  基于文本的过滤
  其次,为了使选取的样本具有对应图像的高质量中文描述,研究人员进一步根据图像所附文字的语言、长度和频率对数据进行过滤。具体来说,他们首先检查语言和长度,保留收录
至少一个但少于 32 个汉字的句子。无意义的图像描述如“000.jpg”也被丢弃。之后搭配太多图片的文字通常与图片内容无关,比如“查看源码页面”、“展开文字”、“摄影社区”。在实践中,研究人员将这个阈值设置为 10,即丢弃整个采集
到的语料中出现次数超过 10 次的图文对。
  为了保护文本中个人的隐私,研究人员将人名替换为特殊标签“&lt;人名&gt;”。此外,他们还构建了中文敏感词列表,收录
敏感词的图文对也被丢弃。
  在应用上述过滤策略后,研究人员最终得到了大约 1 亿对的数据集。下表 2 显示了数据集的统计数据:数据集文本中有 20,442 个独特的标记,每个描述中的平均标记数为 22。
  
  在下面的图 3 中,研究人员可视化了数据集中单词(由一个或多个标记组成)的分布。然后,他们使用中文文本分词工具 Jieba 截取单词并构建数据集的词云。
  方法框架
  文本图像联合对齐
  与最近经过充分验证的方法类似,研究人员采用对比预训练架构,如下图 1 所示。他们使用带有基于 Transformer 的文本和图像编码器的双流模型。这两个编码器将文本和视觉输入标记转换为相同维度的嵌入。在这个学习的联合嵌入空间中,我们使用对比损失来鼓励图像和文本对具有相似的嵌入,而未配对的对具有不同的嵌入。
  模型架构
  由于视觉和文本模态的编码器是解耦的,因此可以为这两种模态探索不同的编码器架构。研究人员试验了三种视觉编码器变体(即 ResNet、Vision Transformer 和 Swin Transformer)和一种类似 BERT 的文本编码器来训练中文 VLP 模型。
  预训练目标
  跨模态对比学习是一种特别有效的方法,用于从成对的图像文本数据训练模型,它可以通过区分成对和未成对的样本同时学习两种模态的表示。研究人员遵循 FILIP (Yao et al., 2022) 中的公式符号,使用
  定义图像样本集,同时
  表示文本数据。给定图像样本
  和一个文本样本
  ,该模型旨在使成对的图像和文本表示在联合多模态空间中靠近在一起,而不成对的表示相距很远。
  
  在这项工作中,研究人员探索了两种方法来衡量图像和文本之间的相似性。图像和文本的学习表示被标记为
  和
  . 这里,n_1 和 n_2 是每个图像和文本中(未填充的)词标记的数量。
  LiT调校
  研究人员受到最近提出的微调范例 LiT-tuning(锁定图像文本调优)的启发,该范例表明具有固定权重的图像编码器和可学习的文本编码器在 VLP 模型中效果最好。他们在对比学习设置中做了同样的事情,只更新了文本编码器的权重而不是图像编码器。
  具体来说,研究人员采用的 LiT-tuning 方法旨在教会中文文本编码器从现有的图像编码器中读取合适的表示,该图像编码器已在英文数据集上进行了预训练。他们还为每个编码器添加了一个可选的可学习线性变换层,它将两种模态的表示映射到相同的维度。LiT-tuning 效果很好,因为它解耦了用于学习图像特征和视觉语言对齐的数据源和技术(Zhai 等人,2021b)。此外,图像描述符使用相对干净或(半)手动标记的图像预先进行了很好的预训练。
  我们将这个想法扩展到多语言数据源,并尝试将在英语数据源上预训练的固定图像编码器与可训练的中文文本编码器对齐。此外,LiT-tuning 方法显着加快了训练过程并减少了内存需求,因为它不需要为视觉编码器计算梯度。
  实验结果
  下面的表 3 描述了视频编码器的模型参数和详细信息。
  零镜头图像分类。研究人员在 17 个零镜头图像分类任务上评估了预训练模型。零样本图像分类结果如下表5所示。他们比较了使用不同视觉编码器的多个 LiT-tuning 模型,即从 CLIP 或 Swin Transformer 加载现有的视觉编码器并在训练阶段固定它们的权重。结果发现,使用令牌级别的相似性比使用全局相似性带来更显着的改进。
  文本检索任务。研究人员评估了两个子任务,即按图像搜索文本和按文本搜索图像。下面的表 6 和表 7 分别显示了零镜头设置和微调图像文本检索的结果。对于零样本设置,与其他模型相比,Wukong_ViT 在 4 个数据集中的 3 个上取得了最好的结果,而 Wukong_ViT-500M 在更大的 MUGE 数据集上取得了最好的结果。对于微调设置,Wukong_ViT-500M 在除 AIC-ICC 之外的所有数据集上都取得了最好的结果,其中 Wukong_ViT 效果最好。
  词汇 - 瓷砖对齐的可视化。研究人员使用预训练模型 Wukong_ViT 和 Wukong_Swin 进行可视化。如图 4 所示,该图可视化了来自 ImageNet 的中文六个标签(即豆娘、救生艇、蜂鸟、平板电话、教堂和电扇)的图像。然后应用与 FILIP (Yao et al., 2022) 相同的可视化方法来对齐文本和图块标记。
  从下面的图 4 中,研究人员发现这两个模型都能够预测目标对象的图像块。对于具有更多图像块的 Wukong_ViT,这种词汇块对齐比 Wukong_Swin 更细粒度。
  核心方法:词嵌入的经典方法,六篇论文遍历Word2vec的另类应用
  在这篇文章中,作者首先为读者​​普及了word2vec的基础知识,然后以六篇论文为例详细介绍了当前研究如何利用经典的word2vec进行扩展研究。其中,作者着重介绍了知识嵌入空间的生成过程。对其完整应用感兴趣的读者可以参考原论文。
  随着深度学习的兴起,每个模型都需要一个输入,而我们现实生活中的物体(文字、图片等)都不是数字,计算机无法处理。那么如何为每个任务确定一个合适的“输入”就变得尤为重要。这个过程也称为表征学习。
  word2vec 所做的是将文本转化为对计算机有意义的输入。简单的说,就是把这些东西映射到一个空间里。我们通常用三维空间来表示位置,也就是xyz,但是在图片、文字等这个领域,三维空间不够用,有可能去另一个N维空间. 在这个空间里,就像三维空间里人的鼻子应该靠近嘴巴一样,我们也希望在这个新的空间里也能找到类似的东西。比如课文中的“鼻子”和“嘴巴”我们也希望它们能离得近一些,因为它们属于五感,所以“鼻子”和“腿”是比较远的。
  顾名思义,word2vec 将文本转换为计算机可识别的输入,因此这项技术最早也是应用最广泛的应用是在自然语言处理(NLP)领域。其实我之前针对representation learning做过两次基于ICLR和CVPR的high-level总结,不过这次这篇文章主要针对word2vec,从细节入手,看看word2vec中发现的空间是如何改进和使用的,还要看看根据word2vec原理发现的新空间。在开始正题之前,为了防止大家对word2vec理解不清从而影响后面文字的理解,这里先科普一下本文将要用到的相关基本概念。
  一、word2vec简介
  What is word2vec: Word2Vec是一个过程(技术),其中文本被用作神经网络的训练数据,这个神经网络的输出向量被称为embeddings,这些embeddings(向量)将收录
训练后单词的语义信息。这个过程所做的是从每个单词嵌入到多个维度的空间到维度低得多的连续向量空间。矢量嵌入可以在真实对象的“离散”世界和机器学习的“可微”世界之间架起一座桥梁,因而在数据库研究中具有巨大的潜力。一类对象的嵌入向量从X映射到某个向量空间,称为潜在空间,我们通常假设它是有限维d的实向量空间R^d。
  它们用在什么地方:最后word2vec会生成如图1所示的一堆向量(word embedding,word embedding),这些向量可以在后续任务中作为神经网络模型的输入。
  图 1:示例词嵌入。图片来源:
  为什么使用 word2vec:如前所述,这些嵌入捕获了文本的语义,具有相似含义的单词靠得更近(图 2 显示了最常见的相似性度量之一——余弦相似度 Spend)。并且经过长期的实践,研究人员发现这种语义编码使得各种NLP任务都有很好的表现。
  图 2:距离作为距离度量的示例 - 余弦相似度。图片来源:
  基本模型:训练word2vec常用的方法有CBOW和skip-gram。如图3所示,w(t)代表当前词,w(t-?)代表前一个词,w(t+?)代表后一个词。简单来说,CBOW就是利用周围的词来预测当前词。而 skip-gram 模型使用当前词来尝试预测周围大小为 c 的窗口中的词。具体的计算细节可以参考图3来源的文章,这里就不详细介绍了。
  图 3:skip-gram 和 CBOW。图片来源:
  如何衡量:在使用embeddings时,我们应该考虑几个问题——对象的哪些属性由embeddings表示?我们使用的距离测量有什么意义?潜在空间的几何属性是否对应于 X 上有意义的关系?当然,同时我们还要考虑计算向量嵌入的计算成本。
  2.改善旧空间
  了解了word2vec的基础知识之后,就可以正式进入正题了。正如上一节所述,当我们构建嵌入空间时,我们需要考虑对象的那些属性需要在嵌入空间中表示。word2vec在传统的NLP任务中表现不错,但是在一些新的更复杂的任务中,有些属性不能很好的体现出来,因为最初的word2vec模型是完全基于文本训练的,很多关系很难在文本中体现出来,比如“看”和“吃”。单看这两个词,我们甚至很难认为它们有关联。
  但是如果加上图4,他们会连起来吗?对这幅图的描述可以有两种,一种是小女孩在“看”冰淇淋,另一种是增加了一定的联想——小女孩在“看”冰淇淋。“吃冰激凌。在对这张图片的描述中,两句话都是正确的。这个例子不仅说明了使用纯文本进行学习的缺点,还表明在图片描述等任务中,这个信息也很重要。
  图 4:吃冰淇淋的小女孩。资料来源:[1]
  不难理解,人类在感知世界时,不仅仅用视觉,还用听觉、嗅觉等,同样,在看的时候,看到的也不仅仅是文字,语言是知识的载体transfer,所以现在研究者开始使用不同的感知模式(声音,图片)来学习语言模型(multi-modal learning),让语言模型学习到的embedding能够更全面的代表我们人类的理解能力。
  至于技术层面,其实回到语言模型起源的阶段,语言模型和迁移学习就像一对兄弟,只是进入了不同的领域,叫法不同。例如在NLP任务中,先训练语言模型,然后直接使用预训练好的语言模型来执行下面的任务。好像前面几层的migration learning都冻结了(这个如果不理解也可以,不影响后面的理解,如果觉得放不下可以看看之前的文章机器之心,基础教程很多,这里就不介绍了)。
  之所以说transfer learning,是因为如果要达到完善word2vec空间的效果,其实类似于transfer learning中的global finetune,把前面的语言模型(一开始冻结的层)进培训。
  为了展示当前的研究如何具体使用word2vec进行扩展应用,本节简要介绍四篇论文,展示图片和声音如何增强现有word2vec嵌入空间的表示能力。当然,这里介绍的知识嵌入空间的生成过程在原论文中还有其他创新之处。如果您有兴趣,可以再次阅读全文。
  2.1 视觉 Word2Vec (vis-w2v) [1]
  论文链接:
  这种方法解决了图4中提到的例子中的问题。这里作者需要在原来word embedding的基础上增加图像的语义表示,即在w2v训练中加入图像作为背景。该方法基于 CBOW 并使用代理标签作为图像背景的表示。
  图 5:vis-w2v 中的网络结构。资料来源:[1]
  具体模型如图5所示,模型的输入是图文对D = {(v, w)},v指的是图片的特征,w是v对应的文字描述。这里,w(句子或单词)的形式会因场景而异(更多内容见下文)。
  图5所示的是一个窗口(这个窗口可能收录
w的一些单词,也可能收录
完整的w,也会根据不同的场景发生变化,下面会详细介绍),其中w_1到w_l代表一个窗口收录
的词是用one-hot方法编码的(N_V表示one-hot编码的维度),H_wi是W_I乘以wi得到的,这里W_I是共享的,即所有的w_i都乘以同一个W_I,因为它是one-hot encoding,其实相当于取W_I的某一行,对每条H_wi取平均值得到最终的H:
  得到H(N_H为embedding的维度)后,将这个H作为最终的特征向量,通过W_O映射到N_K维度(一共有N_K类,这里的N_K后面会讲到)。对其进行softmax操作后,就可以知道这段文字(w_1-w_l)属于哪个类别。这一步是做分类。
  如果理解NLP任务,第一步获取H和我们平时获取embedding的方式是一样的,因为这里的W_I初始化为传统CBOW的权重,所以这一步其实就是获取这些词的传统embedding,然后取其平均值作为整个窗口所有词的特征,然后做一个分类任务。
  现在是本文的核心——上一段说这是一个分类任务,那么分类任务的标签从何而来呢?这就是辅助标签的作用——作者在做分类任务时将图片v聚类成N_K个类,然后每个v所属的类就是这个v对应的w的标签。
  然后回到 w,其中 w 允许选择 w 的各种形式,例如完整的句子或形式的元组(主要对象,关系,次要对象)。w 的选择取决于我们关心的任务。例如,在常识断言分类和基于文本的图像检索中,w 是元组中的一个短语,而在视觉释义中,w 是一个句子。给定 w,S_w 也是可调整的。它可以包括所有 w(例如,当从元组中的短语学习时)或单词的子集(例如,当从句子中的 n-gram 上下文窗口学习时)。
  最后说说效果吧。这个任务其实就是在w2v的基础上进行finetune。这种直接进行global finetune的效果,按照论文的说法,也可以保持原有的w2v效果,即如果有些词在finetune过程中没有出现,会保持原有的语义属性,而这个global finetune会不要让新的 w2v 在传统任务中变得更糟。
  在下表1所示的视觉转录任务对比中,vis-w2v的效果要比纯w2v任务好很多。
  表 1:中继任务的平均准确度 (AP)。表格来源:[1]
  2.2 视觉监督Word2Vec(VS-Word2Vec)[2]
  
  论文链接::uhM9BVykvRQyYoWE5KCq3BfjUSjLRED2yV7nktCUgw3jDcAh_R2xx8iV7Az3pBWTZPBQ87cQzEgd
  本文还想把图片中的信息迁移到w2v中,让w2v空间更好的表示图片中的信息。上一篇论文是在w2v中加入广义的图片信息(词的相似度由图片的相似度引导),这篇论文的全称是Embedded Representation of Relation Words with Visual Supervision。顾名思义,就是让embedding space能够更好的表示相关词(“我背着包”中的“holding”就是相关词)。
  下图6展示了一些关系词的例子,[3]给出了一个与此类似的数据集,是本文的输入形式之一。
  图 6:关系词。资料来源:[3]
  VS-Word2Vec的基本结构如图7所示,这个结构分为上下两部分。上面是一个CNN,类似于图6中的图片作为输入,输出是一个特征向量,作为图片对应的关系词的embedding(视觉关系特征空间);下面是传统的CBOW,也会生成word embeddings。
  这篇论文和第一篇论文除了要表现的信息不同外,使用的方法也不同。基本思路是:如果这个词是关系词,那么让上面(CNN)生成的word embedding和下面生成的embedding尽量一样,但是如果这个词不是relative word,那么就忽略上面的,和传统的CBOW训练完全一样。
  图 7:VS-Word2Vec 网络结构。资料来源:[2]
  具体来说,整体算法如图8所示,第一行和第二行对应图7上半部分的CNN。首先,计算图表示(视觉关系特征,算法的第四行):
  这里y_wi是某个关系词wi的表示。具体来说,就是利用VGG得到这个关系词对应的所有图片(Q_i张图片)的特征向量(y_wi^q),然后对这些特征向量进行平均。如前所述,如果训练出来的词属于关系词,那么作者希望CBOW和CNN生成的两个embeddings尽可能一致。本文的不一致性通过以下公式衡量:
  这里s_ij表示关系词i和关系词j的余弦相似度,右下角的r表示这是一个关系词,x表示CBOW中生成的word embedding,v表示CNN中生成的word embedding。这个公式中J越小越好。
  图 8:VS-Word2Vec 算法流程。资料来源:[2]
  最后就是图8中的第4到19行,是上面整体思路的体现,即计算如下公式,同时更新参数(梯度上升):
  首先D是CBOW的训练集,然后对于训练集中的每个词,计算两个损失e1和e2,e1是前半部分,也就是传统CBOW的损失,e2是后半部分,也就是衡量两个嵌入的性能。不一致(J_V),\lambda是可调超参数,p_t表示w_t是否是关系词,如果是关系词,则p_t=1,保留后半部分,如果不是关系词,就变成传统的CBOW训练过程。
  注意第15行,这里使用了for循环,所以本文的目标不是让上下两部分对于一个关系词有完全相同的embedding,而是要求关系词保证“一致性”图7上下两部分的相似度,所以直接用J_V代替余弦相似度。
  作者使用该方法后,对比了SimVerb-3500中九大类的同义词(SYNONYMS, ANTONYMS, HYPER/HYPONYMS, COHYPONYM, NONE),对比结果如表2所示,总体来说比CBOW好,并且在一些特殊的班级,效果有了很大的提升。
  表 2:同义词一致性结果。表格来源:[2]
  2.3 Action2Vec [4]
  论文链接:
  又一篇探索视觉信息的文章,不过这里探索的对象变成了视频(因为它编码了动作),如图9,思路和上面类似,但是变成了左右结构,而这个第二篇是真正的两词比较(pairwise ranking loss),而不是用一致性来判断。
  图 9:Action2Vec 端到端架构。资料来源:[4]
  具体来说,左侧首先使用[5]中的数据集预训练的C3D模型提取每帧图片的特征向量,然后使用一个层次递归神经网络(HRNN),并加入一个self-attention机制,最后通过一个全连接层(fully connected weights),将LSTM2得到的video embedding变成一个和word embedding同维的向量,最后这个向量通过一个全连接层来执行分类任务层,判断这个视频对应的动作是什么。然后使用“双重损失”(交叉熵+成对排序)使改进后的联合嵌入空间同时具有视频和文本语义信息。
  HRNN:这里的HRNN指的是使用了两层LSTM。第一层用来提取局部特征(输入是每一帧的图片),第二层LSTM(LSTM2)的输入是LSTM1每s张图片的输出。,以图9为例,其中步长为3,每三张图片(h1-h3,h4-h6,...)会输出一个向量,这些向量就是LSTM2的输出。self-attention机制中的attention计算这里就不介绍了。
  Dual loss:这里的dual loss是指cross entropy加上pairwise ranking loss。这里不介绍交叉熵。它对应于上面提到的分类任务。如果你不明白pairwise ranking loss(PR loss),可以看看这篇文章(),会更容易理解下面的公式。这里的PR损失定义为以下公式:
  这里a_i和v_i分别表示HRNN和word2vec模型生成的action word i的embedding,a_x和v_x分别对应HRNN和word2vec生成的负样本(即非action word i的embedding)。请注意,图 9 中的绘图并不完整。交叉熵(CE)对应的分类任务就不在上面画了。Action Embedding首先通过全连接层进行分类任务,然后有CE损失。
  最后需要说明的一点是,由于两个数据库中的词并不完全相同,可能会出现video数据库中的词在word2vec词库中不存在的情况,这些动词会被转换成对应的形式(如 walking 变成 walk 等)。
  在实验部分,作者在ZSAL(Zero Shot Action Learning)任务中将其与其他ZSL模型进行了比较。可以看出,作者提出的模型在各个数据集上的效果都是最好的。
  表 3:ZSAL(Zero Shot Action Learning)模型效果对比。表格来源:[4]
  2.4 sound-word2vec [7]
  论文链接:
  前几篇介绍了视觉,上一篇我们开始涉及到听觉,也就是声音信号。虽然大多数声音中都有象声词,但很多象声词在文本中并不常见,而且与直接音相比,这些词对应的语义信息很难学习,因此本文作者利用声学特征将传统词融入其中嵌入空间。值得注意的是,这里又用到了辅助标签(聚类)。该模型的整体结构如图10所示。
  图 10:sound-word2vec。资料来源:[7]
  在图10中,这个模型的输入是基于FreeSound生成的输入对{s,T},s是声音,T是用户提供的声音对应的一系列标签(一组词),这些标签首先通过W_P(由预训练的word2vec模型中的权重初始化)成embeddings,然后对这些embeddings进行平均,得到隐藏层的值H。最后,H通过全连接层(W_O)完成一个分类任务,输出一个类别。
  
  与第一篇论文一样,此处分类任务的标签来自聚类。首先对s进行聚类得到类别标签,然后用这个标签来训练W_P和W_O。总体来说,这篇论文的思路和第一篇论文差不多,但是论文中关于声音如何表示的声音处理还是很有启发性的。同时,本文再次证明整体的finetune可以提升传统的word embedding。空间效果好。
  这种方法的效果如表4所示,在普通词上,效果和word2vec差不多,但是在象声词上,sound-word2vec明显表现的好很多。作者还对一些基于文本的拟声词识别任务进行了实验,效果也比普通的baseline模型好很多(详见原论文)。
  表 4:相似词的示例。表格来源:[7]
  3.探索新空间
  论文链接:
  去年,谷歌使用语言模型将蛋白质序列转换为嵌入,从而在许多相关任务上实现了飞跃。我曾经写过一篇文章介绍这个,这里就不赘述了。今天主要介绍一下这个方法是如何应用的。在音乐上,生成了一个新的基于音乐的嵌入空间,新嵌入空间的音乐理论知识表示——music + word2vec [6]。
  因为这篇论文收录
了更多的乐理专业知识,对应的机器学习方法也比较传统,是skip-gram模型加上乐谱的编码。然而,论文中详细分析了乐谱在乐谱嵌入空间中的乐理知识表示,表明skip-gram可以很好地从乐谱中学习乐理知识。
  关于乐谱的编码,如下图11所示,图中包括了肖邦玛祖卡Op.的前六小节。67 No. 4 (Chopin's Mazurka Op. 67 No. 4) 和前三小节的编码示例。这相当于把一个节拍当作文本中j的一个词,第一个块收录
E,它是表示四分音符中E5音高的音级。由于第二拍的音高是 E5 和 A3,因此第二个块收录
E 和 A。请注意,作者在第二小​​节中收录
了 E,即使音高 E5 连接到第一拍(不是开场),它仍然在第二拍上发音。同样,由于第三拍收录
音高 E3、A3、E4、E5(来自附点连奏)和 F5,因此第三块收录
音级 E、A、f。图中的例子。
  图 11:分数分类。资料来源:[6]
  如果声音片段长于一拍,我们可能会失去调和弦变化的细微差别。相反,如果切片短于一个节拍,则可能存在太多重复切片(切片之间的内容相同)。找到切片的最佳持续时间也很重要,但本文不涉及。我相信更好的编码方法将使这项研究更加有效。
  因为这篇文章的价值不在于使用什么机器学习方法,而在于skip-gram的使用,所以训练过程就不再赘述了。当然,除了证明skip-gram在音乐领域可以很好地获取和弦和谐波特征外,本文还提供了很多可以在音乐领域使用的数据集(第4节)。如果你有兴趣在这个领域做点什么,这些数据集还是很有用的。
  这篇论文的结果分析太专业了。如果想看音乐大咖对这个模型的评价,可以看原论文。总之,这款车型各方面表现都非常出色。懂音乐的同学可以看看原论文。书中中间是怎么分析的,或许对后续的任务也有很大的帮助。
  4.利用空间
  论文链接:
  最后,在讨论了如何改进传统词嵌入空间以及如何创建新的嵌入空间之后,如何使用这个空间也很重要。但由于本文不是word2vec的介绍,所以这里不再介绍word2vec在传统NLP任务中的应用。网上已经有很多实用性或理论性的科普文章。这里我们主要介绍词嵌入是如何在RL-Word2vec中应用于行为的[8]。
  这里的a代表听神经细胞。首先输入命令,然后使用这个命令的embedding来初始化隐藏层hi。这里的初始化是利用文本中5个命令词的embedding来进行预训练来初始化h_1-h_5。命令字为'forward', 'backward', 'stop', 'cease', 'suspend', 'halt',后四个字表达的意思相同,都不会用于初始化,作为测试组。初始化完成后,删除这些虚线连接,然后机器人进入仿真器开始仿真,向机器人输入指令的embedding,然后通过各个传感器获取的信息进行动作。这种初始化使网络能够获取语义信息。
  除了上述机制外,图12中的整个网络并不复杂。第一层称为传感器层,从机器人的传感器获取数据,然后这些神经元与后面的隐藏层全连接。这里的第二个隐藏层是一个带有自连接的循环神经网络,最后一个隐藏层与最后一个动作层(最右边)全连接。
  图 12:Word2vec 到行为训练网络。资料来源:[8]
  综上所述,整个训练过程如图13所示。通过向输入层的神经元a提供与“停止”等命令相关的word2vec嵌入,可以设置机器人控制策略的隐层初始值。然后将该策略下载到机器人,其运动生成的传感器数据被馈送到输入层的其余部分(虚线箭头),进一步改变隐藏层和运动层。
  评估后,机器人的行为根据与命令配对的目标函数进行评分,例如惩罚运动的函数。然后针对其他四个命令和目标函数对同一策略再进行四次评估(B 和 C 两次),训练策略以最大化所有五个函数的平均分数 (D)。训练后,最佳策略被赋予第六个未训练的同义词“停止”,其行为根据“停止”目标函数 (E) 进行评分。
  图 13:训练过程。资料来源:[8]
  最终结果如下图所示。每种颜色代表一个命令。可以看出,通过作者的方法训练的机器人(第一个)在“停止”命令上确实表现优于其他机器人。
  图 14:实验结果。资料来源:[8]
  总结
  从本文提到的分析性或创新性论文来看,skip-gram和CBOW可以很好地捕捉我们生活中很多对象(音乐、声音等)的语义,multi-modal是一个很好的完善在现有嵌入空间法,在没有标签的情况下,合理聚类也可以提供模型辅助标签。这个embedding space不仅适用于NLP领域,还有很多其他领域可以直接应用w2v中生成的embedding space(比如RL)。
  当然,未来还有很多其他可以探索的方向,比如开发一个比较初级的音乐领域,如何将声音中的情感融入到传统的w2v模式中等等。
  总之,语言作为我们观察和描述世界的基本要素,基本涵盖了我们生活的方方面面,在某些层面上也反映了客观世界的规律(如语言学的“组合原理”——组合性) . 在学习无法解决的问题时,语言模型或许能给你一点启发。
  参考
  [1] Kottur、Satwik 等人。“Visual word2vec (vis-w2v):使用抽象场景学习基于视觉的词嵌入。” IEEE 计算机视觉和模式识别会议论文集。2016.
  [2] 王,雪,等。“具有视觉监督的关系词的嵌入式表示。” 2019 第三届 IEEE 机器人计算国际会议 (IRC)。IEEE,2019 年。
  [3] 卢,策乌,等.“使用语言先验的视觉关系检测。” 欧洲计算机视觉会议。施普林格,查姆,2016 年。
  [4] Hahn、Meera、Andrew Silva 和 James M. Rehg。“Action2vec:一种用于动作学习的交叉模式嵌入方法。” arXiv 预印本 arXiv:1901.00484 (2019)。
  [5] A. Karpathy、G. Toderici、S. Shetty、T. Leung、R. Sukthankar 和 L. Fei-Fei。使用卷积神经网络进行大规模视频分类。在 CVPR,2014. 4
  [6] Chuan, C.-H., Agres, K., &amp; Herremans, D. (2018)。从上下文到概念:使用 word2vec 探索音乐中的语义关系。神经计算与应用。doi:10.1007/s00521-018 -3923-1
  [7] Vijayakumar、Ashwin K.、Ramakrishna Vedantam 和 Devi Parikh。“Sound-word2vec:学习以声音为基础的单词表征。” arXiv 预印本 arXiv:1703.01720 (2017)。
  [8] 马修斯、大卫等人。“从 Word2vec 到行为:形态有助于机器语言的基础。” arXiv 预印本 arXiv:1908.01211 (2019)。
  分析师介绍:
  这篇文章的作者是王自佳,目前正在帝国理工学院攻读人工智能硕士学位。主要研究方向为NLP推荐等,喜欢前沿技术,喜欢奇思妙想。他是一个不走寻常路,立志做研究员的男人!

干货教程:花哥:关于微信的搜一搜如何变现引流

采集交流优采云 发表了文章 • 0 个评论 • 116 次浏览 • 2022-11-25 00:20 • 来自相关话题

  干货教程:花哥:关于微信的搜一搜如何变现引流
  你可能不知道,不需要做短视频,不需要写文章,就可以精准引流,变现的方式有很多。
  我社区的一个小伙伴用过搜索的功能,现在已经实现了几十个w。华哥可以很肯定的告诉大家,一个精准搜索的流量至少要大于五十个一般流量。
  
  所以我希望每个人都可以探索地球上的搜索。这是很多人忽略的一种引流方式。那么如何找到项目并判断是否适合搜索引流呢?很简单,想想你所在行业的关键词,把这些关键词输入搜索,就可以看到同行的数据。
  比如女装,我们可以看到女装的关键词,下面很多同事都在引用。
  那么说明这个关键词是可操作的。但是这个学期的竞争太大了,不能浪费精力。可以通过小程序和微信指数查看每个词的近期热度。心里有了主意,就知道这个词是不是竞争激烈了。可以选择竞争少的长尾关键词,搜索细分词,下拉词等。比如我们以这个关键词为例,女装货源一键配送链。如果你用这个关键词点进去看之前的文章,如果阅读量还不错,说明这个词是有流量的。那么除此之外,我们还需要查看这个账号的注册日期。一般只要在三个月内注册账号,
  
  那么如果找到适合Search的项目,前期应该如何规划呢?首先,我们准备多注册几个公众号进行搜索。熟悉的朋友都知道,新注册的账号发布的文章是不能被搜索收录的,就像我们的个人账号一样。新注册的账号不能立即加为好友。如果你一开始就加了好友,那么官方可能会直接给你一个title。如果没有账号接受流量,流量来了也无计可施。所以这个时候我们就需要维护一个账号,这个也很简单,就是模拟真实的操作。比如先发文章,设置功能模块等,等你养的差不多了,就可以准备用文章引流了。可以观察同行文章整理关键词,这里可以使用批量采集软件下载整理。然后我们把所有的关键词加上营销词组合成一篇文章的标题。营销词就是多少钱,批发价,出厂价等等,一定要多梳理标题中收录
的关键词,引流越多效果越好。搞定之后,我们只需要批量发布文章即可,操作难度不高。请记住将您的个人联系信息放在文本中。标题中收录
的关键词一定要多梳理一下,引流越多效果越好。搞定之后,我们只需要批量发布文章即可,操作难度不高。请记住将您的个人联系信息放在文本中。标题中收录
的关键词一定要多梳理一下,引流越多效果越好。搞定之后,我们只需要批量发布文章即可,操作难度不高。请记住将您的个人联系信息放在文本中。
  总结起来有几点:
  这里有几个适合搜索没有想法的朋友的地方:
  华哥只是给大家讲了上面的内容,用文章去套用。当然,大家都知道,除此之外,搜索里面还有视频号和小程序,这里就不多说了。最后华哥为大家整理了一套详细的搜一搜吧屏引流技巧,里面的讲解非常全面。当然,还有批量采集
公众号文章的软件。我把它们都打包了。有兴趣的可以在我的公众号华歌课堂回复“搜索”付费获取。好了,今天就到这里吧,下次再见。
  分享文章:浅谈:站长如何增加伪原创文章
  
  学习SEO到现在,虽然没有什么大事发生,但是还是有一些零散的东西,比如哪个朋友的主页少了,想看看,哪个朋友的博客上线了,想测试看看,哪位朋友的内容不够好,让我关注等等。这些很快就过去了,还有一些让我很郁闷的,都是菜鸟问的菜鸟问题。真的很难回答,但是我还是要耐心的跟他们解释,作为一个新手,大家都是新手过来的,如果大家不帮助他们,那中国的互联网就发展不起来。但是我还是要再次建议大家,有问题之前一定要先搜索,找不到答案再问,这样提高会更快。因为网站内容为王,有内容才能谈其他,但不是每个站长都能天天发原创文章,这就导致了一种做法-伪原创,就是修改别人的原创articles ,并成为一篇新文章,之所以称为伪原创,是因为它是在原创的基础上发展起来的,大部分内容相关或观点相同,只是表达方式不同. 那么如何造假原创文章,里面确实有很多的想法。1.修改标题 好的标题是成功的。职称可以体现一个编辑的水平和素质。如果是有seo思维的编辑,就会知道它的重要性。将seo思维融入到文案的写作中能够起到事半功倍的作用,那么标题往往起到最大的作用,甚至直接影响到用户是否点击。如何提炼一个好的标题,我们之前已经讲过“seo软文,标题怎么写”,那么我们在伪原创的时候,就需要修改已有的标题,修改成符合自己的标题期望。原则是要符合搜索引擎的爬行习惯和用户的搜索习惯。内容很实用。最简单的例子,你不能用火星语写标题,不实用,搜索引擎也不一定能识别,而且用户永远不会去搜索这样的词。甚至直接影响到用户是否点击。如何提炼一个好的标题,我们之前已经讲过“seo软文,标题怎么写”,那么我们在伪原创的时候,就需要修改已有的标题,修改成符合自己的标题期望。原则是要符合搜索引擎的爬行习惯和用户的搜索习惯。内容很实用。最简单的例子,你不能用火星语写标题,不实用,搜索引擎也不一定能识别,而且用户永远不会去搜索这样的词。甚至直接影响到用户是否点击。如何提炼一个好的标题,我们之前已经讲过“seo软文,标题怎么写”,那么我们在伪原创的时候,就需要修改已有的标题,修改成符合自己的标题期望。原则是要符合搜索引擎的爬行习惯和用户的搜索习惯。内容很实用。最简单的例子,你不能用火星语写标题,不实用,搜索引擎也不一定能识别,而且用户永远不会去搜索这样的词。我们需要修改已有的title,修改成符合自己预期的title。原则是要符合搜索引擎的爬行习惯和用户的搜索习惯。内容很实用。最简单的例子,你不能用火星语写标题,不实用,搜索引擎也不一定能识别,而且用户永远不会去搜索这样的词。我们需要修改已有的title,修改成符合自己预期的title。原则是要符合搜索引擎的爬行习惯和用户的搜索习惯。内容很实用。最简单的例子,你不能用火星语写标题,不实用,搜索引擎也不一定能识别,而且用户永远不会去搜索这样的词。
  
  修改标题时,可以根据原标题进行二次创作,提出更符合文章主题、更符合逻辑的标题。2、内容段落错序排列 伪原创的好处是不用自己写,直接用别人的文章。修改的时候,把别人文章的段落颠倒一下就行了,每段的正文结构也会颠倒几个句子。,它就变成了“新文章”。3、关键词的替换和位置的替换对应第一种观点。我们伪原创的时候一定要修改关键词。毕竟别人的文章都是根据别人网站的主题提炼出来的。虽然有时两个网站的主题相同,关键词 需要修改和替换。匹配度高、精准度高的关键词,往往能抓住更精准的用户。不仅需要修改替换关键词,还需要替换位置,让文章更符合你的想法,更符合你的网站。4、新内容新观点的加入我们还可以在原有文章中加入新的内容和观点,让一篇文章更完整,观点更清晰,主题更完整,伪原创,增加更多内容是不是坏事,可以大大提高文章的可读性。对于已经发表的文章,搜索引擎抓取后会有记录,但是如果我们把假原创做好,搜索引擎可能会给出更高的评价。伪原创内容是站不住脚的观点。毕竟,修改过的文章也算是一篇新文章。只有“修改”的程度才能使“错误”的观点合理化。建议大家多写文章,多写原创,多修改伪原创。这样,你不仅可以提高自己的写作水平,还可以在写作中不断提升自己。婴儿爬行垫| 淘宝女装 并修改更多的伪原创。这样,你不仅可以提高自己的写作水平,还可以在写作中不断提升自己。婴儿爬行垫| 淘宝女装 并修改更多的伪原创。这样,你不仅可以提高自己的写作水平,还可以在写作中不断提升自己。婴儿爬行垫| 淘宝女装 查看全部

  干货教程:花哥:关于微信的搜一搜如何变现引流
  你可能不知道,不需要做短视频,不需要写文章,就可以精准引流,变现的方式有很多。
  我社区的一个小伙伴用过搜索的功能,现在已经实现了几十个w。华哥可以很肯定的告诉大家,一个精准搜索的流量至少要大于五十个一般流量。
  
  所以我希望每个人都可以探索地球上的搜索。这是很多人忽略的一种引流方式。那么如何找到项目并判断是否适合搜索引流呢?很简单,想想你所在行业的关键词,把这些关键词输入搜索,就可以看到同行的数据。
  比如女装,我们可以看到女装的关键词,下面很多同事都在引用。
  那么说明这个关键词是可操作的。但是这个学期的竞争太大了,不能浪费精力。可以通过小程序和微信指数查看每个词的近期热度。心里有了主意,就知道这个词是不是竞争激烈了。可以选择竞争少的长尾关键词,搜索细分词,下拉词等。比如我们以这个关键词为例,女装货源一键配送链。如果你用这个关键词点进去看之前的文章,如果阅读量还不错,说明这个词是有流量的。那么除此之外,我们还需要查看这个账号的注册日期。一般只要在三个月内注册账号,
  
  那么如果找到适合Search的项目,前期应该如何规划呢?首先,我们准备多注册几个公众号进行搜索。熟悉的朋友都知道,新注册的账号发布的文章是不能被搜索收录的,就像我们的个人账号一样。新注册的账号不能立即加为好友。如果你一开始就加了好友,那么官方可能会直接给你一个title。如果没有账号接受流量,流量来了也无计可施。所以这个时候我们就需要维护一个账号,这个也很简单,就是模拟真实的操作。比如先发文章,设置功能模块等,等你养的差不多了,就可以准备用文章引流了。可以观察同行文章整理关键词,这里可以使用批量采集软件下载整理。然后我们把所有的关键词加上营销词组合成一篇文章的标题。营销词就是多少钱,批发价,出厂价等等,一定要多梳理标题中收录
的关键词,引流越多效果越好。搞定之后,我们只需要批量发布文章即可,操作难度不高。请记住将您的个人联系信息放在文本中。标题中收录
的关键词一定要多梳理一下,引流越多效果越好。搞定之后,我们只需要批量发布文章即可,操作难度不高。请记住将您的个人联系信息放在文本中。标题中收录
的关键词一定要多梳理一下,引流越多效果越好。搞定之后,我们只需要批量发布文章即可,操作难度不高。请记住将您的个人联系信息放在文本中。
  总结起来有几点:
  这里有几个适合搜索没有想法的朋友的地方:
  华哥只是给大家讲了上面的内容,用文章去套用。当然,大家都知道,除此之外,搜索里面还有视频号和小程序,这里就不多说了。最后华哥为大家整理了一套详细的搜一搜吧屏引流技巧,里面的讲解非常全面。当然,还有批量采集
公众号文章的软件。我把它们都打包了。有兴趣的可以在我的公众号华歌课堂回复“搜索”付费获取。好了,今天就到这里吧,下次再见。
  分享文章:浅谈:站长如何增加伪原创文章
  
  学习SEO到现在,虽然没有什么大事发生,但是还是有一些零散的东西,比如哪个朋友的主页少了,想看看,哪个朋友的博客上线了,想测试看看,哪位朋友的内容不够好,让我关注等等。这些很快就过去了,还有一些让我很郁闷的,都是菜鸟问的菜鸟问题。真的很难回答,但是我还是要耐心的跟他们解释,作为一个新手,大家都是新手过来的,如果大家不帮助他们,那中国的互联网就发展不起来。但是我还是要再次建议大家,有问题之前一定要先搜索,找不到答案再问,这样提高会更快。因为网站内容为王,有内容才能谈其他,但不是每个站长都能天天发原创文章,这就导致了一种做法-伪原创,就是修改别人的原创articles ,并成为一篇新文章,之所以称为伪原创,是因为它是在原创的基础上发展起来的,大部分内容相关或观点相同,只是表达方式不同. 那么如何造假原创文章,里面确实有很多的想法。1.修改标题 好的标题是成功的。职称可以体现一个编辑的水平和素质。如果是有seo思维的编辑,就会知道它的重要性。将seo思维融入到文案的写作中能够起到事半功倍的作用,那么标题往往起到最大的作用,甚至直接影响到用户是否点击。如何提炼一个好的标题,我们之前已经讲过“seo软文,标题怎么写”,那么我们在伪原创的时候,就需要修改已有的标题,修改成符合自己的标题期望。原则是要符合搜索引擎的爬行习惯和用户的搜索习惯。内容很实用。最简单的例子,你不能用火星语写标题,不实用,搜索引擎也不一定能识别,而且用户永远不会去搜索这样的词。甚至直接影响到用户是否点击。如何提炼一个好的标题,我们之前已经讲过“seo软文,标题怎么写”,那么我们在伪原创的时候,就需要修改已有的标题,修改成符合自己的标题期望。原则是要符合搜索引擎的爬行习惯和用户的搜索习惯。内容很实用。最简单的例子,你不能用火星语写标题,不实用,搜索引擎也不一定能识别,而且用户永远不会去搜索这样的词。甚至直接影响到用户是否点击。如何提炼一个好的标题,我们之前已经讲过“seo软文,标题怎么写”,那么我们在伪原创的时候,就需要修改已有的标题,修改成符合自己的标题期望。原则是要符合搜索引擎的爬行习惯和用户的搜索习惯。内容很实用。最简单的例子,你不能用火星语写标题,不实用,搜索引擎也不一定能识别,而且用户永远不会去搜索这样的词。我们需要修改已有的title,修改成符合自己预期的title。原则是要符合搜索引擎的爬行习惯和用户的搜索习惯。内容很实用。最简单的例子,你不能用火星语写标题,不实用,搜索引擎也不一定能识别,而且用户永远不会去搜索这样的词。我们需要修改已有的title,修改成符合自己预期的title。原则是要符合搜索引擎的爬行习惯和用户的搜索习惯。内容很实用。最简单的例子,你不能用火星语写标题,不实用,搜索引擎也不一定能识别,而且用户永远不会去搜索这样的词。
  
  修改标题时,可以根据原标题进行二次创作,提出更符合文章主题、更符合逻辑的标题。2、内容段落错序排列 伪原创的好处是不用自己写,直接用别人的文章。修改的时候,把别人文章的段落颠倒一下就行了,每段的正文结构也会颠倒几个句子。,它就变成了“新文章”。3、关键词的替换和位置的替换对应第一种观点。我们伪原创的时候一定要修改关键词。毕竟别人的文章都是根据别人网站的主题提炼出来的。虽然有时两个网站的主题相同,关键词 需要修改和替换。匹配度高、精准度高的关键词,往往能抓住更精准的用户。不仅需要修改替换关键词,还需要替换位置,让文章更符合你的想法,更符合你的网站。4、新内容新观点的加入我们还可以在原有文章中加入新的内容和观点,让一篇文章更完整,观点更清晰,主题更完整,伪原创,增加更多内容是不是坏事,可以大大提高文章的可读性。对于已经发表的文章,搜索引擎抓取后会有记录,但是如果我们把假原创做好,搜索引擎可能会给出更高的评价。伪原创内容是站不住脚的观点。毕竟,修改过的文章也算是一篇新文章。只有“修改”的程度才能使“错误”的观点合理化。建议大家多写文章,多写原创,多修改伪原创。这样,你不仅可以提高自己的写作水平,还可以在写作中不断提升自己。婴儿爬行垫| 淘宝女装 并修改更多的伪原创。这样,你不仅可以提高自己的写作水平,还可以在写作中不断提升自己。婴儿爬行垫| 淘宝女装 并修改更多的伪原创。这样,你不仅可以提高自己的写作水平,还可以在写作中不断提升自己。婴儿爬行垫| 淘宝女装

总结:RACE数据集上各个模型文章的笔记

采集交流优采云 发表了文章 • 0 个评论 • 92 次浏览 • 2022-11-24 16:28 • 来自相关话题

  总结:RACE数据集上各个模型文章的笔记
  问师兄一些问题,他说让我可以关注这个数据集寻找答案。。。。今天的服务器真卡,真的没办法跑数据,所以就先写文章笔记。量子语言模型是真的牛逼,听着很牛逼,但是结果e被问了好多回答不了的问题。
  先多写几篇吧,等后面这些文章都写了笔记之后再一起按照排名整理。
  RACE数据集的简介:
  1. 中国中考、高考试卷阅读理解,其中年龄为12-18岁的学生,与之前的数据集不大相同
  2 .总共有 27933 Passages, 97687 Questions,每篇文章差不多 3-5个问题。
  3. 对于推理要求较高,比例较大,有 对于【文章的总结】 和 【态度分析】之类的推理问题,其他数据集基本没有。
  4. 推理类型比较多,总共有5类。
  5.评价方式为准确率
  6. 问题和答案 不仅仅是简单的对于原文词语的重复,很可能是原文词语的其他表达等等。
  7. 5种推理类型:
  1) Detail reasoning(细节推理)---文章细节,但不是简单匹配
  2) Whole-picture reasoning(全局推理)--需读懂全文才可以回答
  3) Passage summarization (文章总结)---1/4文章的摘要
  4) Attitude analysis(态度分析)---作者或者原文对于事情的态度
  5) World knowledge(世界外部知识)---常见此类问题涉及简单的 算术计算。
  Figure1:一个数据集的例子
  Figure2: 数据集划分比例
  数据集中长度统计
  数据集的统计信息以及推理分布
  ACC分析
  按照推理类型分布
  1.DCMN----
  2.OCN--|
  3.Bert_Large
  4.Reading Strategies Model
  5。Hierachical Attention Flow
  好了这周已经安排满了,下周也快满了,下周和公司的会议又要开了,又要赶东西了-----
  1. DCMN__
  【分类】---【MRC】---多选题---RACE
  一。RACE数据集介绍:
  初中、高中英语阅读理解的文章,多选题,其中要做出选择需要能够做推理等等。
  二。摘要:
  多选择题阅读理解是一项具有挑战性的任务,需要复杂的推理过程。 给定文章和问题,需要从一组候选答案中选择一个正确的答案。 【贡献】--本文中提出了 Dual Co-Matching Network (DCMN)--协同匹配网络来双向建模问答关系的网络。 【特别之处】--与现有方法模型的不同之处: 我们同时计算 passage-aware question representation and passage-aware answer representation ,以前只是计算问题感知文章,或者答案感知文章。 【结果】---RACE数据集上面取得了最先进的结果
  1. Introduction
  MRC对于AI而言很有意义,但是现在的阅读理解任务大多集中在浅层的QA任务上面,这些问题可以通过现有的检索技术有效的解决,例如 SQuAD和NewsQA(好像目前都已经超过人类水平了)---简单说,就是之前的太简单了,在我这里不行。这种MRC就是给定一个文档和问题,然后预期的答案是来自于文档中的短距离跨度(short span)。 问题上下文一般收录
足够的信息来识别收录
问答对的证据句子。 SQuAD中90.2的问题可以由文章中一句话回答。 即使在一些一对多回合会话QA任务中,现有的模型也是基于检索的,也就是说之前的都是检索匹配都太简单了。
  【贡献--难度】---
  本文主要的RACE数据集,每个问题都有一组答案,大多数问题的正确答案不可能出现在原文中,这使得很有挑战性,并允许出现丰富的问题类型,比如 短文总结,态度分析等等(匹配是解决不了的--)。 这就需要对于单个文档有更深入的理解,并利用外界知识来回答这些问题。 【另外】此外,与传统的MRC比较,我们需要考虑: passage-question-abswer三元组而不像之前的 passage-question pairwise 的匹配
  【自己的工作/贡献】
  提出DCMN,双向的match question-answer to given passage . 使用了Bert最后一层隐层向量对应的第一个input token(【cls】)被用作聚合表示【00001】,然后利用分类层计算标准分类损失【00002】.作者认为这种方法过于粗糙,无法处理 passage-question-answer triplet,因为他只是粗略的将 短文和问句 作为第一个序列串联起来,然后使用问句作为第二个序列,而没有考虑文章和问句之间的关系。 所以,我们提出了一种新的方法来建模 文章、问题、候选答案之间的关系
  【自己做法】
  首先作者使用 Bert作为编码层分别去获得 文章的上下文表示、问题的上下文表示、答案的上下文表示。 然后利用得到的这三个东西构造匹配层,得到 passage-question-answer的三元组匹配表示,这个匹配表示编码了问题在文章中的位置信息,以及候选答案关于文章中的特殊的context.最后,我们在匹配表示层上面使用 层次聚合的方法(Hierarchical aggregation),从word-leval 到 document-level ,然后从 sequence level 到 document level。 模型在bert-base 以及 bert-large的soat的模型上效果分别提升2.6 /3个点。
  【模型】---
  论文使用目前 NLP 最新的研究成果 BERT 分别为 P 和 Q 中的每一个 Token 进行编码。基于 BERT 的编码,可以得到的编码是一个收录
了 P 和 Q 中各自上下文信息的编码,而不是一个固定的静态编码,如上图中 Hp 与 Hq;
  其次,通过 Attention 的方式,实现 P 和 Q 的匹配。具体来讲,构建 P 中的每一个 Token 在 Q 中的 Attendances,即 Question-Aware 的 Passage,如上图中 Mp。这样得到的每一个 P 的 Token 编码收录
了与 Question 的匹配信息;
  为了充分利用 BERT 带来的上下文信息,以及 P 与 Q 匹配后的信息,将 P 中每个 Token 的 BERT 编码 Hp 与 P 中每个 Token 与 Q 匹配后的编码 Mp 进行融合,对 Hp 和 Mp 进行了元素减法及乘法操作,通过一个激活函数,得到了 P 与 Q 的最终融合表示,图中表示为 Spq;最后通过 maxpooling 操作得到 Cpq l 维向量用于最后的 loss 计算。
  2. 各种匹配策略研究
  除了 P 与 A 之间的匹配,还可以有 Q 与 A、P 与 Q 之间的匹配,以及不同匹配得到的匹配向量间的组合,这些不同的匹配与组合构成了不同的匹配策略。对七种不同的匹配策略分别进行试验,以找到更加合适的匹配策略,分别是:[P_Q; P_A; Q_A], [P_Q; P_A], [P_Q; Q_A], [P_A; Q_A], [PQ_A], [P_QA], [PA_Q]「PA」表示先将 P 和 A 连接为一个序列,再参与匹配,「PQ」与「QA」同理。符号「[ ; ]」表示将多种匹配的结果组合在一起。[P_Q; P_A; Q_A] 模式下的模型架构如下图:
  7 种不同策略通过试验,采用 PQ_A 的匹配策略,即先将 P 与 Q 连接,然后与 A 匹配,无论是在初中题目 (RACE-M)、高中题目 (RACE-H) 还是整体 (RACE),该策略都得到了更优的结果。
  在多选题MRC任务中,机器会给出一篇文章,一个问题和一组候选答案。 目的是从候选答案中选出正确答案。对于每个候选答案,模型构造了一个 问题感知的段落表示(question-aware passage representation) ,answer-aware passage representation question-aware answer representation(原文中是不是写错了). 在一个 max-pooling 层之后,这三个表示被连接起来作为候选答案的最终表示。然后使用所有候选答案的表示形式进行答案选择。
  2.1 介绍 the encoding mechanism
  2.2 介绍 the calculation procedure of the matching representation between the passage, the question and the candidate answer
  2.3 介绍 the aggregation method and the objective function.
  2.1 Encoding layer
  该层将文章和问题中的每个标记编码为一个固定长度的向量,包括 word embedding 和 contextualized embedding.使用bert的最终的隐藏状态作为 模型的最终embedding。 【说明】--在原创
的bert论文中,处理多选择问题的过程中是使用 与第一个输入令牌【cls】对应的最终隐藏状态作为文章、问题、候选答案的聚合表示,作者认为这种方法过于简单和粗糙。所以作者将文章、问题、候选答案分别编码为:
  2. Matching layer
  为了充分挖掘{P,Q,a}三元组中的信息,作者充分利用了注意力机制,得到了 文章和答案之间的双向聚合表示,同理也使用这种方法得到了 问题和文章之间的 双向聚合表示。 文章与答案之间的注意向量计算如下:
  2.3 Aggregation layer
  为了得到每个候选答案的最终表示,Sp和Sa在行方向上的max-pooling操作。
  3. 实验
  评估结果在RACE数据集上面,其中收录
两个子集,RACE-H来自高中考试,RACE-M来自初中考试。 RACE是两者的结合。将自己的模型和其他模型比较,也和Bert_base 和 bert_large 进行比较。 bert的base使用的就是原文中的使用最后一层的第一个token【cls】作为聚合表示。结果就是 bert_base 以及 bert_large都是好于之前的最好模型,而我们的模型又是好于这两者的。
  4.总结
  提出DCMN,双向建模 passage、question、候选answer之间的关系。通过结合bert,模型在race数据集上面有一个很高的结果。
  【注意】--我觉得本篇文章值得学习的点就是 做了一个匹配的多次尝试,至于中间的计算公式有必要去看一下他文章中提到的那篇文章证明的那个公式计算匹配的得到的效果会比较好。
  二.OCN
  OCN---选择比较网络
  多项选择题阅读理解(MCRC)是在给定文章和问题的多个选项中选择正确答案的任务。 现有的MCRC模型要么独立读取每个选项,要么在比较每个选项之前计算每个选项的固定长度表示。 然而,在详细阅读文本之前,人们常常会在多粒度级别(multiple-granularity)比较候选项,以提高推理的效率。 模拟人类,我们提出了一个选项比较网络(OCN)---MCRC,在词级别(word-level)比较候选项以至于更好的识别他们之间的相关性从而帮助进行推理。特别的,每个选项都使用一个略读器(skimmer)编码成一个向量序列,以尽可能的保持细粒度信息(fine-grained information).使用注意力机制来进行向量序列之间的逐个比较(sequences vector-by-vector),来识别他们之间的微妙关系,这对于推理而言可能是有价值的,。
  【效果】结果明显优于现在的模型,也是第一个超越亚马逊 Turker的模型。
  Intorduction
  MCRC的目的是从一组给定问题和文章的选项中选择正确答案。 作为MCRC既需要对于自然语言的理解,也需要对世界知识的理解,才能将正确答案和感染选项区分开来。 这对于机器来说是一个挑战,也是人工智能的一个良好测试平台。
  随着深度学习的快速发展,近年来针对MCRC提出了很多模型,取得很好的效果。在阅读理解之前比较选项是人类在解决MCRC问题时常用的策略。 通过对于选项之间的比较,可以识别出选项之间的相关性,人们在阅读文章时候只需要注意与相关性相关的信息。 因此,问题可以得到更有效的回答。通过比较选项B和D,人们可能会发现,问题答案的关键区别在于:作者是否愿意参观工厂,这可以通过浏览文章很容易的解决。然而,大多数现有的MCRC方法并没有采用该策略。 Stanford AR(2016)and GA Reader(2017)编码独立于选项的问题和文章,忽略了他们之间的相关性。 2018和2019--MCMN使用复杂的匹配机制来采集
信息,2018还有一个利用预先训练好的语言模型来提出信息。然而,他们都没有明确的考虑选项之间的相关性。 据我们所知,2018--Hierarchical attention flow for multiple-choice reading comprehension.是唯一明确考虑选项之间的相关性的研究。 然而,在进行比较之前,这些选项被压缩成固定长度的向量,这可能使得模型很难识别选项之间的细微差别或者相似性。
  为了更有效的采集
选项相关信息,我们提出了一种选项比较网络(OCN),他可以在单次级别显式的比较选项,从而模拟上述人工策略。
  【特别的】我们首先使用略读器网络(skimmer network将选项独立的编码成向量序列作为他们的特征----就是不混合上下文,希望得到他们之间原创
的细微差别》
  【然后】对于每个选项在向量空间中使用基于attention机制,在单词级别逐个的与其他选项进行比较,来确定他们之间的相关性。
  【最后】将采集
到的相关信息进行重读做推理(reread to reasoning)然后选择正确的答案。 通过选项在单词级别的比较,我们可以使得模型更容易的检测选项之间的细微差别。使用基于Bert的略读器,我们的方法在RACE数据集上面超过现sota.
  2. OCN---Option Comparison Network
  符号定义:
  Q:question P: passage O:选项1.2.3
  任务:给定Q--P,选出 O----
  模型分四个阶段从候选答案集中选择正确的答案。
  2.1 首先将每个(article,question,option)三元组连接成一个序列,并使用一个略读器将他们编码成向量序列。
  2.2 使用attention机制去比较选项
  2.3 使用上一个阶段采集
的相关信息,作为额外输入重新阅读。
  2.4 最后计算每个选项正确答案的概率。
  2.1 Option Feature Extraction
  一个略读器网络用于独立略读 选项、问题、文章以提取选项的特征。
  Bert已经被证明是一个功能强大的特征提取器。特别的,选项O_k和问题Q和文章P连接在一起,定义为:
  。然后这个序列反馈给Bert计算他们的向量空间编码
  定义为------------------
  2.2 Option Correlation Features Extraction
  这个模块用于word级别比较选项,提取选项相关信息用作推理。 对于每个选项,使用attention机制去对比它和所有其他的选项
  来采集
相关信息。
  公式-------
  选项相关特征的提取分为以下三个步骤:
  首先,将一个选项与所有其他三个选项逐一进行比较,以采集
成对的相关信息。 特别的,对于选项 O_k,信息-----收取通过如下方式:
  ------------
  然后将为每个选项采集
的两两相关信息进行融合,得到选项之间的相关信息,可以被定义为:
  ----------
  最后,通过元素 gating机制将 选项特征与选项关联信息进行融合, 生成选项关联特征。 门控机制定义:——————————
  2.3文章阅读
  模仿人类,本文将以 选项相关特性作为 额外输入重新阅读,已获得更深入的理解。 特别的采用: co-attention(2017)和self-attention机制进行重读。
  首先,对于每个选项 O_k,co-attention 定义为:
  最终的整个选项表示的计算公式:
  ————————————————
  2.4 Answer Prediction
  2.4.1 计算选项O_k,作为正确答案的得分:
  最终的概率:
  损失函数:
  3. 实验
  3.1 Dataset
  RACE数据集,RACE-M,初中英语考试RACE-H,高中英语考试由于文章、问题、选项是由英语教师生成的,用于评估人类的阅读理解能力,所以数据集比SQuAD本质上来说更加困难。数据集中有59.2的问题需要推理,这明显高于SQuAD。最常用的推理技能是 ------ 细节推理、whole-picture understanding,passage summarization、态度分析和世界知识。 因此,对于模型来说,RACE是非常具有挑战性的MCRC的数据集。
  3.2 Training Details
  optimizer: Adam
  Bert_Base
  epochs:3
  batch_size:12
  lr:3*10**-5
  Bert_Large
  5
  24
  1.5
  L2--II---0.01
  文章:400
  问题:30
  选项:16
  
  3.3 实验结果
  -------我觉得并不怎么work,完全就是 bert在起作用。
  好吧,RACE数据集上面有很多需要推理的技能,但是所谓的这些很多之处都还是通过匹配或者更精细,变着花样的匹配来实现的,作者在文章中说道相信自己的模型学到了推理,还diss人家mcmn模型使用了复杂的匹配过程,再看看自己的计算过程比那个复杂多了,而且通过消融实验我也没有看见作者所谓的 考虑问题之间的联系帮助最后选择正确的答案。
  首先,我觉得作者的思路是正确的,因为说实话----如果我们可以立马判断出来两个答案之间的关系,比如同意,反义或者收录
的关系,其实对于最后的选择答案就会容易很多,最起码对于人而言是这样的,但是这个工作我觉得并不work的主要原因有以下:
  1.作者想希望这种方式快速、并且高效(正确率高)的方式来做阅读理解,可能是作者设计的函数或者计算选项之间关系没有设计好,这本质上和直接拿 问题和答案与 文章进行计算相似度求答案没有区别,无非就是本文加了一个选项之间的关系,那又怎么样呢,希望通过这个关系告诉机器哪些情况下是对的?最起码的日常经验---如果两个答案是反义的那么他们之间有一个正确的概率比较大这一点都没有实现吧。 如果真的要计算这一点是不是最后选择答案的时候给他们两个匹配最后的分数的权重是不是高一些,但是这首先需要标注预料来指导进行,其实我觉得可以试试通过无监督的方法或者迁移学习的方法来做这一步,相当于一个额外的知识参与到最后的决策。 其实类比自己做阅读理解好像就是这样,会一定程度考虑答案之间的关系,排除法之类的也都会使用。
  2.可以很明显看见确实---RACE数据集其中是收录
很多需要推理的地方,这很容易向我们怀念曾经做过的英语考试阅读理解。 什么是推理呢?这是一个值得思考的问题,可能匹配是推理构成中的很大一部分吧。 对比人类的推理,计算机的优势在于一方面可以认为他掌握所有的词汇这个是人类做不到的,说实话当年我要所有的单词都认识,现在------另一方面,是计算机超强的匹配能力,不仅仅指的是他可以将同义词,反义词等都可以识别出来(虽然我觉得bert也不可以,分布式假设的通病)还有一点是计算机的记忆能力可以记住所有的匹配到相关的问题知识,所以现在检索式阅读理解我个人认为的重点是 怎样将计算机的这两个优点极大的利用。 而人类不同于机器的优点在于:可以结合常识做出推理,这种推理是高级别的,常识可能不仅仅包括日常知识,还有之前的经验等。人类可以很自然的机型推理,但是对于神经网络而言推理是一件很困难的事情,有专门的数据集和任务去做这些事情,如果可以通过无监督或者其他方法可以把这些外部的对于做阅读理解而言很重要的事情添加进来,我觉得最后的实验效果会好很多。
  Hierachical Attention Flow:
  暂时还没有找到关于本篇文章的笔记,后面等看见就更新吧,写了自己的笔记之后再看看
  别人的笔记真的会神清气爽。-----
  Abstract
  【贡献】--对于多项选择题QA,【1】提出了层次注意流机制,以充分利用选项 候选选项、问题、和文章之间的交互(Interaction). 作者注意到,利用候选选项来促进文章中搜集证据在MRC任务中起着至关重要的作用。但是在以前的工作中被忽略了。 此外,【2】我们还显式的建立了选项和注意力机制的关联模型,以获取更好的选项表示形式,并将其进一步送入双线性层中以获取每个选项的排名分数。在RACE数据集上面取得了很好的效果。
  Introdunction
  在本文中,我们研究了多项选择题阅读理解,每个问题都有四个选项,其中只有一个是正确的。M-MRC的特点:不限制答案精确匹配给出的文章的范围,相反,候选选项是人工生成的句子,这些句子可能不会出现在文章中。 RACE 和 MCTest都是多项选择题的数据集。 2016--使用Cnn构建具有注意力机制的不同层次的表示。 2016--提出使用分层结构从多个平行的角度进行匹配(这个看起来真的挺有意思的),在MCTest数据集上面使用一种训练技术。等等 其他工作-----具体来说,模型只利用问题采集
和总结文章证据,然后进行证据和候选选项之间的匹配。
  受到2016年那两篇文章的启发,我么提出了基于神经网络的分层注意流,充分利用候选选项来建立文章、问题、候选选项之间的单次级和句子级的交互。 【结构】---注意流按照以下层顺序组织。 首先,使用BiRNN分别对文章中的句子、问题候选答案进行编码。 然后单词级别注意层构建 问题感知(question-aware)文章和感知候选项的表示。【接下来】句子上下文编码器使用BiRNN对 文章句子进行上下文建模。(就是是文章变为收录
问题信息的上下文编码)。 【然后】---句子级别的注意力层采集
文章中与 问题和候选项相关的证据,【2】并且为更好的选项表示建立选项关联模型。 【最后】---线性层计算每个选项的排名分数。
  主要介绍三方面的主要贡献:
  1. 首先,我们建议使用候选选项从文章中采集
证据。 2017---中只是使用问题在文章中搜集证据。 而在多项选择题阅读理解中,问题有时候信息不够丰富,不够清晰,不足以指导采集
证据。 特别是对于那些有空格或者关于一般目的的问题,仅仅凭问题采集
部分的证据就可能导致模型做出错误的预测。 候选选项可以提供额外的信息来澄清问题的意图。 因此我们是用问题感知选项表示来增强模型中的问题采集
。 这样,模型除了 利用问题信息之外,还利用候选选项信息来采集
更充分的证据来区分选项和干扰答案。
  2.为了进一步挖掘候选选项,我们利用之前工作中忽略的【选项相关性】作为原创
独立选项表示的附加信息。 以前的工作中关于多项选择题每个选项独立得分。 我们比较各个选项建模他们之间的相关性。 关联被编码成一个具有句子层级注意的向量表示,然后连接到独立的选项表示。 (上面的几篇文章也考虑到了这一点,不过做法或者使用的阶段不一样,说白了这里的方法就是 还是问题--文章之间建立感知,然后问题-候选项之间建立感知,然后对于问题-文章的感知再进行一遍RNN,得到最终的O2P,然后和之前的Q2O进行匹配感知,只是另外的将 Q-O对于各个选项再进行一次相关性计算,然后使用这个约束参与最终的答案选择---和前面提到的方法真的基本没什么区别----)。 因此,我们提出的模型在考虑其他选项的情况下对于每个选项进行评分。
  3.在RACE数据集上进行测试,效果达到了最好。
  Model
  按照之前的模型图中自左至右,从下往上的顺序进行介绍模型的各个模块。
  Word Context Encoder
  Attention Flow
  模型中,采用两个组件之间的交互来强调和组织相关的关系。 每一次交互都使用同样的注意力机制。
  Attention Mechanism
  Question-to-Passage (Q2P)Word-level Atteention
  句子中的单词并不是同等重要的,其中的意义可能会随着问题的变化变化。 为了得到文章句子的向量表示,我们将问句question中的每个单词向量表示应用到文章中的第i个句子中的每个单词。 我们使用Quetion BiGRU的每一步的输出而不是上一步的输出(2017)。 然后就得到了 文章中句子级别的每个句子的 问题感知表示(Question-aware)
  Question-to-Option (Q2O)Word-level Attention
  2017--等人使用GRU的最后一个隐藏状态作为候选、生成问题的自由向量表示。 而选项的意思和问题结合起来更容易理解。 因此,我们结合问题信息 将选项的单词表示形式组合成一个固定大小的向量,并在单次级别使用注意力机制。同样得到第i个候选项问题感知的形式(Question-aware)
  Sentence Context Encoder
  Sentence Context Encoder
  文章中句子的顺序很重要,就像句子中单词的顺序一样。 但我们并行处理文章中的句子,生成上下文无关的句子表示形式ViP. 为了对句子上下文进行编码,类似于单词上下文建模,我们在ViP上面 应用了另一个GRU。 句子的上下文编码到:
  Option-to-Passage (O2P) Sentence-level Attention 在阅读理解任务中,文章一般收录
大量的事件、地点等信息。 当一个文章涉及某一方面时,文章中不相关的部分可能是冗余和噪声。 为了避免冗余信息的负面影响,2017--等奖整篇文章总结为一个单一的向量作为 证据,并对文章中注意事项提出质疑。 这是一种流行的cloze-style阅读理解模型。
  在我们的模型中,利用问题感知的候选选项表示Q2O得到的结果,利用【句子层次上的注意力机制】,提高了从段落句子中采集
证据的能力。 在注意力计算过程中,每个候选选项对于其对应的句子赋予更高的权重(这样我觉得不行,注意力的计算仅仅可能是单词级别的关联比较机制,可能没有理解文章中句子的语义等信息,这样到最后的计算就成了问题-候选项 和 文章中句子注意力机制的得分的比较,这样是不是很容易将原文中和问题中出现比较相似或者原文重复的句子作为最终的答案,而问题在这个部分中起到的作用将会被削弱很多),然后,我们对于每个段落句子分配的权重进行平均得到最终的 文章中每个句子对于问题-候选句子的权重。 不同于以往的工作,我们隐式的纳入了问题信息,这是由Q2Oword-level attention编码带来的效果。。 最后,候选选项连同问题,将证据总结为一个固定大小的向量:
  Option Correlations
  候选选项的表示由Q2O word attention 得到,他是对于问题感知的。 但是这种 表示独立于其他选项,并且不会对选项之间的比较信息进行编码。 为了建立 选项之间的相关性,我们将候选选项和注意力机制进行了比较。 在将选项与自身进行比较的情况下,我们将注意力权重矩阵的对角线设置为0(去除自己的权重)。 Si,j表示第j个选项和第i个选项的相关性得分,不需要像以前那样进行合并操作。 灵感来自于chen2017-----需要看一下这篇文章。 我们建模选项之间的相关性通过求差的方式,然后连接到 独立选项表示增强。
  Answer Prediction
  和2017--一样使用双线性函数和正确概率Pi计算归纳证据,,,,得到最后的匹配得分。
  训练:最小化-log概率。
  Experiments
  Dataset
  RACE共收录
27,933篇文章和97,687个问题,其中5%为开发集,5%为测试集。
  数据集划分
  文章、句子、候选的平均长度和句子数量
  Implementation Details
  RACE放在一起训练测试。分词--
  训练细节----
  Ablation Study
  去掉 --Sentence
  验证段落句子归纳对于上下文编码的影响---
  2. 去掉 O2P Attention:
  像2017--那样使用问题去代替问题-选项去搜索证据。 证明了问题-选项结合在一起的重要性。
  3.去掉 Option Corrections
  验证选项之间的关联性学习确实是有效果的。
  Discussion
  Evidence Gathering and Option Correlations
  为了研究 候选选项如何从文章中采集
证据,我们可视化了 O2P注意中的注意权重矩阵。
  较深的颜色代表较高的权重。 注意权重矩阵表明,与每个选项相关的证据在passage中分散分布。
  段落句子的集中注意力权重尽可能多的总结必要的信息。 但是问题是可能会遗漏关键的证据,特别是对于不收录
明显指示性词语或者短语的问题,就像上面图中的第二个问题一样。 只有与候选选项结合,模型才能得到 提示,来采集
证据,从而强调句子的重点“state, money, recycling, landfill, disposal, raw material”。
  选项关系相关性在某些情况下也很有用。 在上面的图中第一个问题为例子。 没有相关性的模型选择了得分高于C的错误选项A。 通过引入 选项之间的相关性,模型选择了 得分极高的正确选项C,得分为:0.987。
  Top-N Accuracy
  为了进一步调查我们的模型总体精度之外,我们还统计分析--排名得分--的发展。由于每个问题的答案对应于只有一个正确答案,我们取 正确答案的的前N个排名,并相应的计算准确性(Acc@)。 acc@2:70.2 acc@3 :87.2。 对于随机猜测期望的领先从另一个角度说明了我们提出模型的有效性,并揭示了通过ranking可以进行潜在改进。
  Difficulty Gap between RACE-M and RACE-H
  RACE-M:中学RACE-H:高中
  两者的差异主要体现在 文章长度、问题和候选的长度M都较短,M词汇量小于H。
  词汇差不多都是收录
词汇表。 以上这些影响了最后的结果的不同。
  Related Work
  Large-scale Datasets
  大规模数据集促进了阅读理解研究的重大进展。根据答案是否限制在引用段落的精确匹配范围内,我们可以将现有数据集分为两类.
  CNN/Daily Mail (Hermann et al. 2015), Childrens Book Test (CBT) (Hill et al. 2016) and Who Did What (WDW)(Onishi et al. 2016) 是自动生成的 clozestyle 大规模数据集,答案通常是文章中的一个词(通常是一个命名实体)。
  SQuAD(Rajpurkar et al. 2016)------答案是span
  RACE(Lai et al. 2017) and MS MARCO (Nguyen et al. 2016)---------答案肯能不会出现在原文中。这与人类的阅读理解最接近。 此外RACE是一个多选题数据集,答案是四个选项中的一个。
  Multiple-choice Reading Comprehension
  多选题是语言考试中常见的题目。 MCTest多选---难度仅限于7岁儿童。
  RACE数据集: 与MCTest数据集格式差不多,但是难度更高,28000文章,100000问题组成,转为12--18岁中国孩子设计的英语考试。
  Hierarchical Structure
  阅读理解模型中,把文章处理成为一个长序列是一种常用的方法,只有少数模型中收录
了文章结构。 2016(Schutze)---构建并结合了句子级别和相邻句子级别的模型。但是时间关系没有在任何层次上进行建模。 2016(Trischler)---等人采用层次结构来建模比较 段落--问题--候选,并使用基于位置的权重对于顺序信息进行建模。 2017(zhang)--结合句法信息来探索更好的理解和适应,但是仅仅局限于 问题。 2017(xie and xing)---利用句法信息对问句和文章进行编码,然后他们使用RNN在句子表示得到 基础 上对于文章进行编码。 我们将文章的层次结构引入到交互模型中,并在单次级别和句子级别使用RNN对于时态上下文进行建模。
  Attention Mechanisms in Reading Comprehension Models
  注意力机制在之前很多模型中都用到了。 主要被用来 【模拟交互和预测答案】。
  2015-2016使用单个问题向量来总结文章,不是使用单个向量来表示问题。
  2016-2017 利用问题中的每一个单词和文章进行交互。
  2017--问题中的单词在对文章进行RNN的时候每一个步骤时间点都进行 与 文章中的单词进对齐。
  2017(Socher)--问题和文章之间的注意力是双向计算的。
  不管问题和文章之间的注意力,2017--提出了自我匹配机制来匹配段落本身。
  2017(Dhingra)--提出门控--注意力机制 通过多跳(mutil-hop)来选择单个问题的相关段落。
  2016(Sordoni)--交替计算短文和问题之间的注意力。
  2017(Shen)--进一步使用强化学习动态确定迭代步骤。
  当涉及到答案的预测的时候,受到2015(Vin)--2016(Kadlec)等的启发 直接以注意力作为指针,预测填空式阅读理解的答案。
  2016(Sorddon)--2017(Cui)--2017(Dhingra)随后在答案预测层中采用了相同的方法。
  2017(Wang)等利用注意力机制来产生 答案相关的span的边界。 这对于 SQuA数据集来说是一个有效和主流的模型配置(设置)。
  2017(Socher)提出了动态指针解码器(Dynamic pointing decoder),使用迭代的方法生成answer的边界。
  2017(Lai)等利用双线性函数在RACE数据集上面计算每个选项的匹配得分。
  Conclusion and Future Work
  本文提出了选择题阅读理解的分层注意流。文章、问题和候选选项通过不同层次的注意力相互作用。
  为了充分利用候选选项,我们将选项合并到一起,用来增强证据采集
和增强具有相关性的选项表示,这在以前的工作中没有做过【---】。
  结果还可以--
  最后作者认为:句法和篇章关系可以作为附加结构作为补充信息。
  在未来的工作中,作者希望通过结合 句法信息或者话语关系来进一步探索篇章结构来获取更好的表达。
  【说实话自己觉得这篇文章】比之前的两篇文章更有价值更有意义,不管是文章的编辑还是文章关于RACE数据集的做法。
  【Improving Question Answering with External Knowledge】---------
  Abstract
  先验背景知识是人类阅读和理解的基础。 作者本文中,研究如何使用外部知识来提高问题的回答(QA)。主要关注多项选择题,这需要外部知识来回答。 研究了利用【外部域内】(external in-domain)选择题回答的数据集,并且利用【外部域外语料库】丰富参考语料库。实验结果表明,在ARC和OpenBookQA这两个具有挑战性的选择题答题任务上,外部知识是有效的。
  1. Introduction
  外部知识在人类阅读和理解中起着至关重要的作用,因为作者假定读者从文本之外的来源获得了一定数量的背景知识--2013;
  越来越多的研究集中在 多选MRC的模型构建--2016-2019;或者问答的任务--2018;
  对于MRC任务而言,大多数问题依然是根据所提供的参考文献内容设计的可回答的。 本文中,我们主要关注多项选择题QA任务:
  只提供一个参考语料库,我们需要使用不同类型的知识去选择正确的候选选项--2018.
  如何利用外部知识来进行多项选择题的回答,以填补人与机器之间的知识鸿沟,仍然是一个有待解决的问题。
  近期的研究(2017-2018)都是通过先 预训练深度神经模型在大规模的语料库上面使用语言模型预训练LSTMs,Transforms.
  通过在下游任务上对这些预先训练的模型进行微调,我们已经看到在广泛的自然语言处理任务上取得了显著的改进;
  然而,在预训练阶段引入外部知识相对耗时、资源广泛性较强。
  本文旨在利用外部知识,在微调(fine-tuning)阶段提高多项选择题的正确率。我们研究了两方面的影响:
  1)利用外部域内(in-domain)Q-A数据集增强训练数据。
  2)基于问题和答案选项的实体发现和链接,从外部开放域(open-domain)中检索额外的知识,来丰富参考语料库。
  我们使用了Bert作为基本QA模型在从考试中采集
的两个具有挑战性的ARC和OpenBookQA数据集上做了初步的实验。实验结果表明,利用外部知识可以获得较好的实验效果。
  2.Method
  2.1 介绍作者使用的QA模型的baseline.
  2.2 --2.3 介绍使用两种方法引入 外部域内 和 开放域的知识。
  2.1 Basic Framework
  首先微调(fine-tuning)一个预训练语言模型在大型的多选MRC数据集RACE(Lai--2017)上面,然后对于目标 多选Q-A数据集上面对于结果模型进行微调(fine-tunning).在本文中使用bert作为预训练语言模型。
  给定问题q、答案选项o和参考文档d,我们用特殊的标记@和#将它们连接起来,作为输入序列BERT_large by @d#q#o#,其中@和#分别代表BERT中的[CLS]和[SEP]。我们在q (exclusive)之前将A嵌入到每个token中,并将B嵌入到其他token中。对于ARC和OpenBookQA中的实例,d来自Lucene (McCandless et al., 2010)从其对应的参考语料库中检索到的前50个句子的串联,以q和o中的不间断单词作为查询(Sun et al.,2018)。 每个问题的最终预测由一个线性加softmax层在每个输入序列的【第一个token的最终隐藏状态的输出】上得到。我们向读者推荐Devlin et al。Sun等人了解更多细节
  2.2 Utilization of In-Domain Data
  我们的基本框架包括两个阶段:在大型开放域机器阅读理解数据集(比如RACE)微调(fine-tuning)一个预训练的语言模型,然后在目标问题回答Q-A数据集上微调产生的神经阅读器(Reader),对于后一个步骤,我们没有对单个目标数据集上的神经阅读器进行微调(Sun et al., 2018),而是同时对多个目标数据集上的神经阅读器进行微调.
  【概述】先拿一个预训练的语言模型出来,然后在其他大型的域内的数据集上进行微调,然后再在目标数据集和域内数据集上面一起进行微调。
  
  2.3 Utilization of Open-Domain Data
  我们使用实体发现和链接(EDL)来帮助我们丰富参考文档。
  【Entity discovery】: 实体发现任务 就是从实体提及(mention)中提取实体的任务。大多数实体发现系统 使用的都是 预先定义好的类(person,位置等). 然而,在ARC和OpenbookQA中,绝大多数实体都来自于丰富的领域(e.g., “skin surface”,“oil”, “magnet”, and “iron”)。由于目前科学领域还没有一个强有力的系统,我们只是把所有的名词短语都看作是一个实体。
  【Entity Linking】:实体链接任务可分为两个子任务:【候选生成】和【实体消歧】。给定一组提取的实体提及M = {m1, m2,…,}我们首先对于每一个实体提及m生成一个候选实体的初始列表Em = {e1, e2,…, en},然后对每个实体进行排序,选择得分最高的候选实体作为合适的链接实体。
  采用基于字典的候选生成方法(Medelyan和Legg, 2008):
  其中m是一组锚点链接,其中m是相同的锚点文本,而Am_e是其中的子集;
  然后,根据三个指标对每个初始候选实体列表进行重新排序:【显著性、相似性和一致性------salience, similarity, and coherence 】(Pan et al., 2015)。
  【显著性】是通过使用Wikipedia锚链接计算的:
  其中A*e是一组指向实体e的锚点链接,A**其中的所有锚点链接的集合在维基百科中。
  【相似性】是指 mention-entity pair之间的上下文相似性。 我们采用了 一种神经网络模型,该模型可以从 Wikipedia中联合学习单词和实体(word and entity)的embedding。 对于每一个提及到的实体m,作者使用上下文中的每个单词(出去自己和停用词)的向量表示来构建它的上下文向量Vt的向量表示。使用Cos来计算实体提及和候选实体之间的相似性。
  【一致性】一致性是由这样一种假设驱动的:如果多个实体提及同时出现在一个句子中,那么它们的引用实体在知识库中更有可能是一致的。
  跟随黄(2017),构造加权无向图G = (E, D) 从KB中,其中E是KB中所有实体的集合,dij∈D表示两个实体ei和ej共享一些KB属性。
  dij, wij :
  其中pi、pj分别为ei和ej的KB属性集合。在构建知识图之后,我们利用Tang等人(2015)提出的图嵌入框架,为KB中的所有实体生成知识表示.两个实体之间的一致性coh(ei, ej)是利用这两个实体的向量表示之间的余弦相似性来建模的。
  给定一个实体提及m及其候选实体e,一致性得分定义为:
  其中Cm是对实体提及m的实体联合。
  最后,我们结合这些度量来计算每个实体候选e的最终得分。
  我们将上述EDL系统应用于所有【问题和候选答案】的文本中。对于每个已发现和链接的实体,其Wikipedia摘要将被提取并附加到每个(问题,答案选项)对的相应参考文档中。
  3 Experiments
  3.1 Datasets
  在我们的实验中,我们使用RACE (Lai等--2017),这是目前最大的多项选择MRC数据集,作为迁移学习的源任务。我们对我们的方法的性能进行了评估在ARC (Clark-2016, 2018)和OpenbookQA (Mihaylov2-018)数据集上面。。所有这些任务都是从人类专家为了QA精心设计的考试中采集
而来的,其中收录
大量需要外部知识才可以回答的问题。但是 人类和机器之间还是存在着巨大的性能差异。 下图展示了这些数据集的统计数据:
  3.2 Experimental Settings
  使用 预训练的 BERT_largr。
  batch_size: 24
  lr: 2e-5
  maxlen = 512.
  RACE --fine:5 epochs---------other 数据集 8 epochs
  下图展示了 RACE数据集中的BERT baseline
  3.3 Experimental Results
  由下图看出,在应用EDL以丰富每个问题的参考文档之后,所有任务的准确性都得到了提高。 文章中举了‘磁铁’的例子,说明有的答案只有通过wikipidia之后才会回答起来容易很多。
  在初步实验的基础上,通过微调发现很多多选MRC数据集的性能都有了提升。
  4 Related Work
  4.1 Question Answering
  近年来有很多数据集和模型推动了QA的发展。
  在数据集方面,作者的工作主要集中在 教育专家设计的 多选择题考试数据集(2017-lai,Clark2018,2018...2019....).,因此这些数据集都是 干净的、无错误的、具有挑战性的。
  在模型方面,作者遵循了 针对 Q-A任务 有区别的微调 预训练语言模型的一般框架。
  4.2 Utilization of External Knowledge
  以前的工作探索了 许多利用外部知识的方法。 wang-2018,Sun-2019利用常识的概念图(Speer-2017).
  Chen提出使用维基百科回答开放域Q-A的方法。
  Ni等人研究了使用 重要基本术语 改进信息检索。
  【作为对比--作者】提出了 通过利用 外部 域内 和外部开放域的知识,尤其是第一个工作中的使用EDL的方法,,来提升多项选择QA.
  5 Conclusion
  在本研究中,我们研究了利用域内的外部问题回答数据集和利用域外外部语料库来丰富参考语料库,从而改进问题回答。在ARC和OpenBookQA数据集上的初步实验结果证明了我们提出的方法的有效性
  Improving Machine Reading Comprehension with General Reading Strategies
  Abstract
  阅读策略已被证明可以提高理解水平,特别是对于缺乏足够的先验知识的读者。 正如人类读者的知识积累过程是一个耗时的过程一样,通过预培训将丰富的一般领域知识传授给一个深层的语言模型也是一个资源需求的过程。受认知科学中确定的阅读策略的启发,在有限的计算资源(只有一个预先训练的模型和固定数量的训练实例)下,我们提出了三个旨在提高非抽取式机器阅读理解(MRC)的一般策略:
  1) 反复阅读,认为原创
和倒序输入序列(BACK AND FORTH READING)
  2)高亮显示,这增加了可训练的嵌入的文本嵌入标记相关的问题和候选答案(HIGHLIGHTING)
  3)直接从文本以一种无监督的方式,自我评估产生实践问题和候选答(SELFASSESSMENT)
  使用作者提出的策略通过微调pre-trained语言模型(雷德福et al ., 2018),在大型多选MRMC的数据集RACE上面,比不使用作者提出的阅读策略微调预训练的模型ACC提升 5.8;
  我们进一步对目标MRC任务上的结果模型进行微调,从而得到了在不同领域绝对的改进在6个6个非抽取式的MRC数据集(即, ARC, OpenBookQA, MCTest,SemEval-2018 Task 11, ROCStories,和MultiRC)。这些结果证明了我们提出的策略的有效性和通用性。
  1 Introduction
  本文主要研究非萃取性MRC (Khashabi et al., 2018;Ostermann等,2018)其中,很大比例的候选答案不受参考文档或语料库 文本跨度的限制。
  与提取MRC任务(第2.1节)相比,非提取任务MRC (Section 2.2)要求不同的阅读技能,因此,机器阅读者在这些任务上的表现更准确地反映了机器阅读者在现实环境(如考试)中的理解能力。最近,通过对预先训练好的通用语言模型进行微调,许多自然语言处理任务都取得了重大进展,包括MRC (Radford et al., 2018;Devlin等,2018)。 然而,与人类读者的知识积累过程类似,通过预训练将大量的外部语料库中的一般领域知识传授给一个深层的语言模型,既费时又费力。
  从实践的角度出发,给出了有限的训练实例和预训练模型,我们能否在微调过程中提高机器阅读理解能力,而不是通过昂贵的预培训将更多的先验知识传授给模型?灵感来自认知科学研究中确定的阅读策略,这些策略已被证明在提高人类读者的理解水平方面有效,特别是那些对文本主题缺乏足够先验知识的读者。
  基于现有的预训练transformer(3.1节),我们提出了三种相应的领域无关策略来改进MRC:
  1)来回阅读(“我在文本中来回查找思想之间的关系”):考虑输入序列的原创
顺序和倒序(第3.2节)。
  2)突出显示(“我在文本中突出显示信息,以帮助我记住它。”):在文本中添加可训练的嵌入,嵌入那些被认为与问题和候选答案相关的标记(第3.3节)。
  3)自我评估(“我问自己一些问题,我想在文本中回答这个问题,然后检查一下我对文本的猜测是对还是错。”)从现有参考文件中生成练习问题及其相关的基于span的候选答案(第3.4节).
  根据我们对语言考试中采集
到的最大通用域 多选--MRC数据集RACE (Lai等,2017)提出的策略,对一个预训练的transformer (Radford et al., 2018)进行微调,我们获得一个在不使用策略的情况下,相同的预训练变压器在种族上进行微调,其精度比以前的最佳结果提高了5:8%(第4.2节)。。 我们在目标上进一步微调得到的模型MRC的任务。实验表明,我们的方法在6个典型的非抽取MRC数据集上取得了最新的研究成果,这些数据集需要一系列的阅读技巧,如常识和多句推理(4.4)。这些结果表明了本文所提方法策略的有效性。我们的微调模型纳入了这些策略的通用性。
  2 Task Introduction
  我们将机器阅读理解任务大致分为两组: 根据预期答案类型抽取(第2.1节) 和 非抽取(第2.2节)
  2.1 Extractive MRC
  近年来,大规模的提取MRC数据集已经建成,例如 SQuAD 和 NewsQA. |给定一个参考文档和一个问题,预期的答案与文档的跨度很短。相比之下,答案在SearchQA等数据集(邓恩et al ., 2017)和NarrativeQA (Kociskˇy et al。”,2018)是基于给定文档的自由形式的人类生成文本。然而,由于注释者倾向于直接将span复制为答案,所以大多数答案仍然是抽取的。
  2.2 Non-Extractive MRC
  在本节中,我们主要讨论multiplechoice MRC数据集,其中答案选项不受提取文本范围的限制。给定一个问题和一个参考文档/语料库,将提供多个答案选项,其中至少有一个选项是正确的。构建这样一个数据集需要大量的人力工作(如 MCTest (Richardson et al., 2013), SemEval-2018 Task 11 (Ostermann et al., 2018)、MultiRC (Khashabi et al., 2018)和OpenBookQA (Mihaylov et al., 2018)通过众包完成。除了众包,数据集如RACE (Lai等,2017)和ARC (Clark等,2018)采集
自教育专家设计的语言或科学考试(Penas et al.,2014;Shibuki等,2014;Tseng et al., 2016)来评估人类参与者的理解水平。
  与提取MRC任务中的问题相比,除了表面匹配外,复杂的问题还有很多,如数学单词问题、归纳问题、逻辑推理问题、情绪分析问题,,需要先进的阅读技巧以及先验的世界知识。
  此外,在大多数情况下,我们可以采用准确性等客观评价标准来评价系统性能(Clark et al., 2016;Lai等,2017)。 由于这类数据集的构建和采集
相对困难,现有的数据集大多规模较小,阻碍了最先进的深度神经模型的发展。
  为此,本文以7个具有代表性的多选题MRC数据集为例,探讨了如何利用有限的资源来改进MRC。如表1所示,大多数数据集中(ARC和MCTest除外)的大多数正确答案选项都是非抽取的。除了MultiRC,每个问题都有一个正确的答案选项。对于ARC和OpenBookQA,将提供一个参考语料库,而不是与每个问题关联的单个参考文档。
  这里我们给出了一个正式的任务定义。 给定参考文档d、问题q和相关的回答选项o;目标是选择正确的答案选项。 我们可以很容易地使我们的方法适应只提供参考语料库的MRC任务(第4.4节) 。
  3 Approach
  我们首先介绍了一个基于预训练transformer的神经阅读器(第3.1节),然后详细阐述了微调阶段使用的策略——来回阅读(第3.2节)、高亮显示(第3.3节)和自我评估(第3.4节)。
  3.1 Framework Overview
  我们的神经阅读器遵循有区别地微调生成预训练变压器(GPT)的框架(Radford et al., 2018)。 我们的神经阅读器遵循有区别地微调生成预训练变压器(GPT)的框架(Radford et al., 2018)。 采用预训练的多层变压器(Vaswani et al., 2017;Liu等,2018)标记数据集C的语言模型.每个实例由输入令牌 x1 的序列;例如:;xn组成.加上标签y,通过最大化 :
  L是语言模型的可能性,λ是语言模型的重量,然后呢P (yjx1;例如:;xn)是通过线性分类层对最后一层transformer的语言模型的激活得到的。MRC的任务,x1;例如:;xn来自开始令牌、引用文档、问题、分隔符令牌、回答选项和结束令牌的连接;y表示答案选项的正确性。更多详情请参考Radford等人(2018) .
  除了设置分隔符将答案选项与文档和问题分隔开之外,最初的框架很少关注MRC任务中特定于任务的结构。受阅读策略的启发,利用有限的资源和一个预先训练的转换器,我们提出了三种策略来提高机器阅读理解。我们在图1中显示了整个框架----
  3.2 Back and Forth Reading (BF)
  为简单起见,我们表示微调期间GPT的原创
输入序列(Radford et al.,)作为[dq $ o],其中[、$和]分别表示开始令牌、分隔符令牌和结束令牌。受来回阅读的启发,我们考虑了原创
顺序[dq $ o]和反向顺序[o $ qd],仍然保留d、q和o中的令牌顺序.我们分别对使用[dq $ o]和[o $ qd]作为输入序列的两个GPTs进行微调,然后对这两个模型进行集成。我们还在实验中考虑了其他类似的输入序列对,如[qd $ o]和[o $ dq](第4.3节)。
  3.3 Highlighting (HL)
  在最初的实现中(Radford等,2018年),在GPT微调阶段,文档的文本嵌入 独立于 相关的问答选项。 受人类阅读中使用的高亮显示的启发,我们的目标是使文档编码意识到相关的问答选项对(q, oi)。我们关注问题和答案选项中的实词,因为它们似乎提供了更多有用的信息(Mirza和Bernardi, 2013),我们通过词性标记(POS)来识别它们,其中之一是:名词、动词、形容词、副词、数字或外来词.
  形式上,我们设T为内容词的POS标签集合。我们让d表示文档d的文本嵌入顺序,用dj表示d中的第j个令牌,dj表示dj的文本嵌入。给定d和a (q, oi)对,我们为d中的第j个令牌定义一个高亮嵌入hj i
  根据上述定义,高亮嵌入的序列hi = h1 i;h2。当我们编码一个文档时,我们用di = d + hi替换d。更具体地说,我们使用b ,di, q, l oi,的串联在整合和,e 是GPT在为微调阶段新的输入(3.1节),b, l,和e独立表示嵌入的开始令牌,分隔符令牌,和结束标记,q和oi代表q和oi的文本嵌入的序列。
  3.4 Self-Assessment (SA)
  在之前的工作中(Radford et al., 2018),原创
的GPT是直接在MRC结束任务上进行微调的,而我们根据自我评估阅读策略开发了一种新的微调方法。特别地,我们提出了一个简单的方法来生成问题及其相关的多个基于span的答案选项,这些选项涵盖了参考文档中多个句子的内容。通过首先对这些实践实例上的预训练模型进行微调,我们的目标是使最终的fine-tuned模型更加可以感知(了解)输入结构,并在回答给定问题时可能需要的多个句子之间集成信息。
  具体来说,我们随机生成不超过nq的问题 和
  相关的回答选项 依托于给定任务的文档(document)。 步骤描述如下。
  Input: a reference document from the end task 最终任务相关的参考文档
  输出: 与参考文档关联 的 一个问题和四个回答选项。
  1. 从文档中随机选择不超过ns的句子,并将这些句子连接在一起。
  2. 从连接的句子中随机选择不超过nc非重叠跨度。 每个span在一个句子中随机收录
不超过nt标记。我们将选择的span连接起来,形成正确的答案选项。我们从连接的句子中删除选定的span,并使用剩余的文本作为问题。
  3.产生三个干扰物(如 ;错误的答案选项)使用文档中随机选择的span替换正确答案选项中的span。
  其中,nq、ns、nc和nt用于控制问题的数量和难度级别。
  4 Experiment
  4.1 Experiment Settings
  对于大多数超参数,我们遵循Radford等人(2018)的工作。我们使用相同的预处理程序和释放的预训练变压器。 我们根据RACE的训练和开发集合中的参考文档生成119k个实例(Lai等人,其中nq = 10, ns = 3, nc = 4, nt = 4(3.4节)。我们首先在这些 自动生成的实例上对原创
的预训练模型进行微调,使用1个训练历元(数据流1在图1中框起来) ,然后在 RACE数据集上面对于上述模型进行5个epoch的微调(fine-turning)(图1中框入数据流2)。我们在前面提到的六个out- domain MRC数据集上对结果模型进行微调(最多10个epoch)(图1中框起来的数据流3)当我们微调模型在不同的数据集,我们将批量大小设置为8,语言模型权重λ=2。我们通过平均线性层后的对数来集成模型。对于策略高亮(3.3节),the contentword POS tagset T = fNN, NNP, NNPS, NNS,VB, VBD, VBG, VBN, VBP, VBZ, JJ, JJR, JJS,RB, RBR, RBS, CD, FW},我们随机初始化+和-。
  4.2 Evaluation on RACE
  在表2中,我们首先报告了最先进模型(MMN和原创
finetuned GPT)和Amazon Turkers(人类性能)的准确性。 然后,我们报告我们实现的经过微调的GPT基线和我们的模型(GPT+策略)的性能。结果显示在RACE dataset (Lai et al., 2017)及其两个子任务上:从初中考试中采集
的RACE- m和从高中考试中采集
的RACE- h。
  我们的单一和综合模式优于以往的先进水平(即 GPT和GPT(9×)) 相差较大(63:8% vs. 59:0%;66:7%比60:6%)。这两种单模型策略——自我评估和突出显示——分别比单模型微调的GPT基线(58:7%)提高了1:7%和4:5%。 使用前后阅读策略,包括两个模型,与两个原创
的finetuned GPTs(59:6%)相比,准确率提高了3个点。策略组合进一步提升绩效。通过结合自我评估和高亮显示,我们的单一模型在经过微调的GPT基线(63:8% vs. 58:7%)上实现了5 %的准确性改进。 我们通过对两个这样的单一模型进行集成来应用所有的策略,这两个模型以原创
或相反的顺序读取输入序列,从而使与 两个原创
的微调GPTs集成相比,准确率提高了5:8% (65:4% vs. 59:6%)
  为了进一步分析性能,我们大致将问题类型分为五类: 细节(事实和细节)、 推理(推理能力)、主旨(文档的主要思想或目的)、 态度(作者对主题或文档语气/源的态度) 和 词汇(词汇 问题)(Qian and Schedl, 2004;Lai等人,2017),并注释了所有RACE开发集的实例(按照这5类对于问题进行了注释)。如图2所示,与经过调优的GPT基线相比,我们的单模型策略(SA和HL)在所有类别中持续改进结果。与其他策略相比,对大多数问题类型来说,突出显示可能会带来更大的收益。
  与人类性能相比,仍有相当大的改进空间,尤其是在RACE-M上。我们仔细查看RACE-M开发集中 所有实现都不能正确回答的实例。我们注意到,其中82.0%需要一种或多种类型的世界知识(如否定决议、常识、释义和数学/逻辑知识)(Sugawara et al., 2017b,a,2018年)),尤其是在参考文献中没有明确提到正确答案选项的情况下。 例如:For example, we need the knowledge —“the type of thing that is written by a writer canprobably be a book” — to answer the question “follow your heart is a ” from the context“ Follow
  your heart by Andrew Matthews, an Australian writer, tells us that making our dreams real is life’s biggest challenge”.此外,19:7%的错误case需要使用 共指消解。利用共指消解可以连接不相邻的相关句子可能是有希望解决这类问题的。
  4.3 Further Discussions on Strategies
  除了第三节中介绍的策略,我们也探索 摘要 等阅读策略(““I take an overall view of the text to see what it is about before carefully reading it.”)通过在每个参考文档前附加一个摘录摘要(Boudin et al., 2015)。实验结果表明,与我们所关注的策略相比,该策略对机器阅读理解的效果较差。在本节中,我们将进一步讨论这三种策略 :
  Back and Forth Reading:
  我们注意到,两个集成模型之间的输入顺序差异很可能产生性能收益。除了集成两个使用输入序列的模型外[dq $ o]和[o $ qd],我们还研究了其他反向或几乎反向对。例如,我们可以通过组合[qd $ o]和[o $ dq](61:0%)或[qd $ o]和[o $ qd]来获得更好的结果(61:7%),相比之下,原来的两个微调的GPTs(他们都使用[d $ qo])用于种族数据集(表2中59:6%) .
  Highlighting:
  我们尝试了两种变体来定义突出显示嵌入(3.3节中的公式2)---通过只考虑问题的内容或只考虑回答选项.实验表明,使用部分信息的准确率(分别为60:6%和61:0%)有所下降相比于 同时考虑 问题的内容和答案选项 63:2%(表2),
  我们还试图 突出内容词的共指提及(coreferential mentions),但是这并不能带来进一步的收益。
  Self-Assessment
  我们探索生成问题的其他方法。 例如,我们使用来自SQuAD的Wikipedia文章(Rajpurkar et al., 2016),而不是来自end task RACE的一般域文档。按照第3.4节中提到的相同步骤,我们生成的问题数量与使用RACE生成的问题数量相同。 实验表明,该方法还提高了微调GPT基线的精度(59:7% vs. 58:7%)。由于自我评价在某种程度上可以被看作是一种数据增强方法,我们研究了其他非监督问题生成方法,如 句子变换 和 反译释义 (Ding and Zhou, 2018;Yu等,2018)。我们的实验表明,这两种方法都不能提高RACE数据集的性能。
  4.4 Adaptation to Other Non-Extractive Machine Reading Comprehension Tasks
  我们遵循的理念是将知识从对源任务的大规模监督数据进行预处理的高性能模型转移到只有少量训练数据的目标任务(Chung et al., 2018)。RACE用于为其他MRC任务预训练模型,因为它收录
了最多的一般领域非抽取问题(表1)(Ostermann et al.2018;王2018年)。在我们的实验中,我们也将RACE作为源任务,并将六个具有代表性的来自多个领域的非抽取的多选题MRC数据集作为目标任务。虑到这些数据集的不同结构,我们需要一些特定于任务的修改。在ARC和OpenBookQA中,没有与每个问题相关的参考文档。相反,它提供了一个参考语料库,由与问题相关的无序的科学相关句子组成。因此,我们首先使用Lucene (McCandless et al., 2010)通过在一个 问题中使用 不间断(non-stop)的单词及其每个答案选项作为查询来检索前50个句子。 检索到的句子用于形成每个答案选项的参考文档。MultiRC数据集中一个问题可以有多个正确答案选项。因此,我们在最后一层使用sigmoid函数代替softmax(图1),并将任务视为二进制(对错)即每个(文档、问题、答案选项)实例的分类问题.当我们将我们的方法应用于非传统的MRC数据集ROCStories时,它的目标是从两个答案选项中选择一个四句话不完整的故事的正确结尾(Mostafazadeh等人, ,由于没有提供明确的问题,我们将问题上下文留空。由于MultiRC数据集的测试集不可公开使用,我们报告了在开发集上获得最高微平均F1 (F1a)的模型的性能。对于其他任务,我们选择在开发集上达到最高精度的模型,并报告在测试集上的精度 。
  我们首先使用我们提出的关于RACE 的三种策略对GPT进行微调,然后对 六个目标任务之一的结果模型 进行进一步的微调(参见表3)。在后一个微调阶段,除了继承前一个微调阶段的突出嵌入外,我们还采用了前后阅读的策略,由于模型已经在第一个微调阶段从高质量的RACE数据集中的实例中获益,所以我们没有考虑自我评估策略。
  我们将首先对RACE数据集上面进行微调,然后在不使用策略的情况下对目标任务进行微调的基线进行比较,这些基线已经在6个数据集中的4个(OpenBookQA, semevall -2018任务11、ROCStories 和 MultiRC))上超过了之前的最先进(SOTA)。通过使用这些策略,我们获得了比集成基线(58:5%)平均准确度提高了7:8%的绝对准确度,比以前的SOTA(60:1%)提高了6:2%的绝对准确度。为了进一步研究这些策略的作用,我们直接对目标任务进行GPT微调,而不使用RACE中的标记数据(即与未使用策略进行微调的基线(54:6%)相比,我们获得了平均准确率10 . 4%的相对提高(60:3%),尤其是在数据集ARC、OpenBookQA和MCTest上的较大改进(表4)。
  5 Related Work
  5.1 Methods for Multiple-Choice Machine Reading Comprehension|
  我们主要讨论应用于大规模数据集的方法,如RACE (Lai等,2017)。研究人员开发了多种具有注意机制的方法(Chen et al., 2016;Dhingra等,2017;徐等,2018;Tay等2018;Tang等2019年)进行改进,如添加消除模块(Parikh等人2018)或应用分层注意策略(Zhu等人2018;王等,2018b)。这些方法很少考虑丰富的外部知识(除了预先训练好的单词嵌入)。相反,我们基于现有的预训练tr 查看全部

  总结:RACE数据集上各个模型文章的笔记
  问师兄一些问题,他说让我可以关注这个数据集寻找答案。。。。今天的服务器真卡,真的没办法跑数据,所以就先写文章笔记。量子语言模型是真的牛逼,听着很牛逼,但是结果e被问了好多回答不了的问题。
  先多写几篇吧,等后面这些文章都写了笔记之后再一起按照排名整理。
  RACE数据集的简介:
  1. 中国中考、高考试卷阅读理解,其中年龄为12-18岁的学生,与之前的数据集不大相同
  2 .总共有 27933 Passages, 97687 Questions,每篇文章差不多 3-5个问题。
  3. 对于推理要求较高,比例较大,有 对于【文章的总结】 和 【态度分析】之类的推理问题,其他数据集基本没有。
  4. 推理类型比较多,总共有5类。
  5.评价方式为准确率
  6. 问题和答案 不仅仅是简单的对于原文词语的重复,很可能是原文词语的其他表达等等。
  7. 5种推理类型:
  1) Detail reasoning(细节推理)---文章细节,但不是简单匹配
  2) Whole-picture reasoning(全局推理)--需读懂全文才可以回答
  3) Passage summarization (文章总结)---1/4文章的摘要
  4) Attitude analysis(态度分析)---作者或者原文对于事情的态度
  5) World knowledge(世界外部知识)---常见此类问题涉及简单的 算术计算。
  Figure1:一个数据集的例子
  Figure2: 数据集划分比例
  数据集中长度统计
  数据集的统计信息以及推理分布
  ACC分析
  按照推理类型分布
  1.DCMN----
  2.OCN--|
  3.Bert_Large
  4.Reading Strategies Model
  5。Hierachical Attention Flow
  好了这周已经安排满了,下周也快满了,下周和公司的会议又要开了,又要赶东西了-----
  1. DCMN__
  【分类】---【MRC】---多选题---RACE
  一。RACE数据集介绍:
  初中、高中英语阅读理解的文章,多选题,其中要做出选择需要能够做推理等等。
  二。摘要:
  多选择题阅读理解是一项具有挑战性的任务,需要复杂的推理过程。 给定文章和问题,需要从一组候选答案中选择一个正确的答案。 【贡献】--本文中提出了 Dual Co-Matching Network (DCMN)--协同匹配网络来双向建模问答关系的网络。 【特别之处】--与现有方法模型的不同之处: 我们同时计算 passage-aware question representation and passage-aware answer representation ,以前只是计算问题感知文章,或者答案感知文章。 【结果】---RACE数据集上面取得了最先进的结果
  1. Introduction
  MRC对于AI而言很有意义,但是现在的阅读理解任务大多集中在浅层的QA任务上面,这些问题可以通过现有的检索技术有效的解决,例如 SQuAD和NewsQA(好像目前都已经超过人类水平了)---简单说,就是之前的太简单了,在我这里不行。这种MRC就是给定一个文档和问题,然后预期的答案是来自于文档中的短距离跨度(short span)。 问题上下文一般收录
足够的信息来识别收录
问答对的证据句子。 SQuAD中90.2的问题可以由文章中一句话回答。 即使在一些一对多回合会话QA任务中,现有的模型也是基于检索的,也就是说之前的都是检索匹配都太简单了。
  【贡献--难度】---
  本文主要的RACE数据集,每个问题都有一组答案,大多数问题的正确答案不可能出现在原文中,这使得很有挑战性,并允许出现丰富的问题类型,比如 短文总结,态度分析等等(匹配是解决不了的--)。 这就需要对于单个文档有更深入的理解,并利用外界知识来回答这些问题。 【另外】此外,与传统的MRC比较,我们需要考虑: passage-question-abswer三元组而不像之前的 passage-question pairwise 的匹配
  【自己的工作/贡献】
  提出DCMN,双向的match question-answer to given passage . 使用了Bert最后一层隐层向量对应的第一个input token(【cls】)被用作聚合表示【00001】,然后利用分类层计算标准分类损失【00002】.作者认为这种方法过于粗糙,无法处理 passage-question-answer triplet,因为他只是粗略的将 短文和问句 作为第一个序列串联起来,然后使用问句作为第二个序列,而没有考虑文章和问句之间的关系。 所以,我们提出了一种新的方法来建模 文章、问题、候选答案之间的关系
  【自己做法】
  首先作者使用 Bert作为编码层分别去获得 文章的上下文表示、问题的上下文表示、答案的上下文表示。 然后利用得到的这三个东西构造匹配层,得到 passage-question-answer的三元组匹配表示,这个匹配表示编码了问题在文章中的位置信息,以及候选答案关于文章中的特殊的context.最后,我们在匹配表示层上面使用 层次聚合的方法(Hierarchical aggregation),从word-leval 到 document-level ,然后从 sequence level 到 document level。 模型在bert-base 以及 bert-large的soat的模型上效果分别提升2.6 /3个点。
  【模型】---
  论文使用目前 NLP 最新的研究成果 BERT 分别为 P 和 Q 中的每一个 Token 进行编码。基于 BERT 的编码,可以得到的编码是一个收录
了 P 和 Q 中各自上下文信息的编码,而不是一个固定的静态编码,如上图中 Hp 与 Hq;
  其次,通过 Attention 的方式,实现 P 和 Q 的匹配。具体来讲,构建 P 中的每一个 Token 在 Q 中的 Attendances,即 Question-Aware 的 Passage,如上图中 Mp。这样得到的每一个 P 的 Token 编码收录
了与 Question 的匹配信息;
  为了充分利用 BERT 带来的上下文信息,以及 P 与 Q 匹配后的信息,将 P 中每个 Token 的 BERT 编码 Hp 与 P 中每个 Token 与 Q 匹配后的编码 Mp 进行融合,对 Hp 和 Mp 进行了元素减法及乘法操作,通过一个激活函数,得到了 P 与 Q 的最终融合表示,图中表示为 Spq;最后通过 maxpooling 操作得到 Cpq l 维向量用于最后的 loss 计算。
  2. 各种匹配策略研究
  除了 P 与 A 之间的匹配,还可以有 Q 与 A、P 与 Q 之间的匹配,以及不同匹配得到的匹配向量间的组合,这些不同的匹配与组合构成了不同的匹配策略。对七种不同的匹配策略分别进行试验,以找到更加合适的匹配策略,分别是:[P_Q; P_A; Q_A], [P_Q; P_A], [P_Q; Q_A], [P_A; Q_A], [PQ_A], [P_QA], [PA_Q]「PA」表示先将 P 和 A 连接为一个序列,再参与匹配,「PQ」与「QA」同理。符号「[ ; ]」表示将多种匹配的结果组合在一起。[P_Q; P_A; Q_A] 模式下的模型架构如下图:
  7 种不同策略通过试验,采用 PQ_A 的匹配策略,即先将 P 与 Q 连接,然后与 A 匹配,无论是在初中题目 (RACE-M)、高中题目 (RACE-H) 还是整体 (RACE),该策略都得到了更优的结果。
  在多选题MRC任务中,机器会给出一篇文章,一个问题和一组候选答案。 目的是从候选答案中选出正确答案。对于每个候选答案,模型构造了一个 问题感知的段落表示(question-aware passage representation) ,answer-aware passage representation question-aware answer representation(原文中是不是写错了). 在一个 max-pooling 层之后,这三个表示被连接起来作为候选答案的最终表示。然后使用所有候选答案的表示形式进行答案选择。
  2.1 介绍 the encoding mechanism
  2.2 介绍 the calculation procedure of the matching representation between the passage, the question and the candidate answer
  2.3 介绍 the aggregation method and the objective function.
  2.1 Encoding layer
  该层将文章和问题中的每个标记编码为一个固定长度的向量,包括 word embedding 和 contextualized embedding.使用bert的最终的隐藏状态作为 模型的最终embedding。 【说明】--在原创
的bert论文中,处理多选择问题的过程中是使用 与第一个输入令牌【cls】对应的最终隐藏状态作为文章、问题、候选答案的聚合表示,作者认为这种方法过于简单和粗糙。所以作者将文章、问题、候选答案分别编码为:
  2. Matching layer
  为了充分挖掘{P,Q,a}三元组中的信息,作者充分利用了注意力机制,得到了 文章和答案之间的双向聚合表示,同理也使用这种方法得到了 问题和文章之间的 双向聚合表示。 文章与答案之间的注意向量计算如下:
  2.3 Aggregation layer
  为了得到每个候选答案的最终表示,Sp和Sa在行方向上的max-pooling操作。
  3. 实验
  评估结果在RACE数据集上面,其中收录
两个子集,RACE-H来自高中考试,RACE-M来自初中考试。 RACE是两者的结合。将自己的模型和其他模型比较,也和Bert_base 和 bert_large 进行比较。 bert的base使用的就是原文中的使用最后一层的第一个token【cls】作为聚合表示。结果就是 bert_base 以及 bert_large都是好于之前的最好模型,而我们的模型又是好于这两者的。
  4.总结
  提出DCMN,双向建模 passage、question、候选answer之间的关系。通过结合bert,模型在race数据集上面有一个很高的结果。
  【注意】--我觉得本篇文章值得学习的点就是 做了一个匹配的多次尝试,至于中间的计算公式有必要去看一下他文章中提到的那篇文章证明的那个公式计算匹配的得到的效果会比较好。
  二.OCN
  OCN---选择比较网络
  多项选择题阅读理解(MCRC)是在给定文章和问题的多个选项中选择正确答案的任务。 现有的MCRC模型要么独立读取每个选项,要么在比较每个选项之前计算每个选项的固定长度表示。 然而,在详细阅读文本之前,人们常常会在多粒度级别(multiple-granularity)比较候选项,以提高推理的效率。 模拟人类,我们提出了一个选项比较网络(OCN)---MCRC,在词级别(word-level)比较候选项以至于更好的识别他们之间的相关性从而帮助进行推理。特别的,每个选项都使用一个略读器(skimmer)编码成一个向量序列,以尽可能的保持细粒度信息(fine-grained information).使用注意力机制来进行向量序列之间的逐个比较(sequences vector-by-vector),来识别他们之间的微妙关系,这对于推理而言可能是有价值的,。
  【效果】结果明显优于现在的模型,也是第一个超越亚马逊 Turker的模型。
  Intorduction
  MCRC的目的是从一组给定问题和文章的选项中选择正确答案。 作为MCRC既需要对于自然语言的理解,也需要对世界知识的理解,才能将正确答案和感染选项区分开来。 这对于机器来说是一个挑战,也是人工智能的一个良好测试平台。
  随着深度学习的快速发展,近年来针对MCRC提出了很多模型,取得很好的效果。在阅读理解之前比较选项是人类在解决MCRC问题时常用的策略。 通过对于选项之间的比较,可以识别出选项之间的相关性,人们在阅读文章时候只需要注意与相关性相关的信息。 因此,问题可以得到更有效的回答。通过比较选项B和D,人们可能会发现,问题答案的关键区别在于:作者是否愿意参观工厂,这可以通过浏览文章很容易的解决。然而,大多数现有的MCRC方法并没有采用该策略。 Stanford AR(2016)and GA Reader(2017)编码独立于选项的问题和文章,忽略了他们之间的相关性。 2018和2019--MCMN使用复杂的匹配机制来采集
信息,2018还有一个利用预先训练好的语言模型来提出信息。然而,他们都没有明确的考虑选项之间的相关性。 据我们所知,2018--Hierarchical attention flow for multiple-choice reading comprehension.是唯一明确考虑选项之间的相关性的研究。 然而,在进行比较之前,这些选项被压缩成固定长度的向量,这可能使得模型很难识别选项之间的细微差别或者相似性。
  为了更有效的采集
选项相关信息,我们提出了一种选项比较网络(OCN),他可以在单次级别显式的比较选项,从而模拟上述人工策略。
  【特别的】我们首先使用略读器网络(skimmer network将选项独立的编码成向量序列作为他们的特征----就是不混合上下文,希望得到他们之间原创
的细微差别》
  【然后】对于每个选项在向量空间中使用基于attention机制,在单词级别逐个的与其他选项进行比较,来确定他们之间的相关性。
  【最后】将采集
到的相关信息进行重读做推理(reread to reasoning)然后选择正确的答案。 通过选项在单词级别的比较,我们可以使得模型更容易的检测选项之间的细微差别。使用基于Bert的略读器,我们的方法在RACE数据集上面超过现sota.
  2. OCN---Option Comparison Network
  符号定义:
  Q:question P: passage O:选项1.2.3
  任务:给定Q--P,选出 O----
  模型分四个阶段从候选答案集中选择正确的答案。
  2.1 首先将每个(article,question,option)三元组连接成一个序列,并使用一个略读器将他们编码成向量序列。
  2.2 使用attention机制去比较选项
  2.3 使用上一个阶段采集
的相关信息,作为额外输入重新阅读。
  2.4 最后计算每个选项正确答案的概率。
  2.1 Option Feature Extraction
  一个略读器网络用于独立略读 选项、问题、文章以提取选项的特征。
  Bert已经被证明是一个功能强大的特征提取器。特别的,选项O_k和问题Q和文章P连接在一起,定义为:
  。然后这个序列反馈给Bert计算他们的向量空间编码
  定义为------------------
  2.2 Option Correlation Features Extraction
  这个模块用于word级别比较选项,提取选项相关信息用作推理。 对于每个选项,使用attention机制去对比它和所有其他的选项
  来采集
相关信息。
  公式-------
  选项相关特征的提取分为以下三个步骤:
  首先,将一个选项与所有其他三个选项逐一进行比较,以采集
成对的相关信息。 特别的,对于选项 O_k,信息-----收取通过如下方式:
  ------------
  然后将为每个选项采集
的两两相关信息进行融合,得到选项之间的相关信息,可以被定义为:
  ----------
  最后,通过元素 gating机制将 选项特征与选项关联信息进行融合, 生成选项关联特征。 门控机制定义:——————————
  2.3文章阅读
  模仿人类,本文将以 选项相关特性作为 额外输入重新阅读,已获得更深入的理解。 特别的采用: co-attention(2017)和self-attention机制进行重读。
  首先,对于每个选项 O_k,co-attention 定义为:
  最终的整个选项表示的计算公式:
  ————————————————
  2.4 Answer Prediction
  2.4.1 计算选项O_k,作为正确答案的得分:
  最终的概率:
  损失函数:
  3. 实验
  3.1 Dataset
  RACE数据集,RACE-M,初中英语考试RACE-H,高中英语考试由于文章、问题、选项是由英语教师生成的,用于评估人类的阅读理解能力,所以数据集比SQuAD本质上来说更加困难。数据集中有59.2的问题需要推理,这明显高于SQuAD。最常用的推理技能是 ------ 细节推理、whole-picture understanding,passage summarization、态度分析和世界知识。 因此,对于模型来说,RACE是非常具有挑战性的MCRC的数据集。
  3.2 Training Details
  optimizer: Adam
  Bert_Base
  epochs:3
  batch_size:12
  lr:3*10**-5
  Bert_Large
  5
  24
  1.5
  L2--II---0.01
  文章:400
  问题:30
  选项:16
  
  3.3 实验结果
  -------我觉得并不怎么work,完全就是 bert在起作用。
  好吧,RACE数据集上面有很多需要推理的技能,但是所谓的这些很多之处都还是通过匹配或者更精细,变着花样的匹配来实现的,作者在文章中说道相信自己的模型学到了推理,还diss人家mcmn模型使用了复杂的匹配过程,再看看自己的计算过程比那个复杂多了,而且通过消融实验我也没有看见作者所谓的 考虑问题之间的联系帮助最后选择正确的答案。
  首先,我觉得作者的思路是正确的,因为说实话----如果我们可以立马判断出来两个答案之间的关系,比如同意,反义或者收录
的关系,其实对于最后的选择答案就会容易很多,最起码对于人而言是这样的,但是这个工作我觉得并不work的主要原因有以下:
  1.作者想希望这种方式快速、并且高效(正确率高)的方式来做阅读理解,可能是作者设计的函数或者计算选项之间关系没有设计好,这本质上和直接拿 问题和答案与 文章进行计算相似度求答案没有区别,无非就是本文加了一个选项之间的关系,那又怎么样呢,希望通过这个关系告诉机器哪些情况下是对的?最起码的日常经验---如果两个答案是反义的那么他们之间有一个正确的概率比较大这一点都没有实现吧。 如果真的要计算这一点是不是最后选择答案的时候给他们两个匹配最后的分数的权重是不是高一些,但是这首先需要标注预料来指导进行,其实我觉得可以试试通过无监督的方法或者迁移学习的方法来做这一步,相当于一个额外的知识参与到最后的决策。 其实类比自己做阅读理解好像就是这样,会一定程度考虑答案之间的关系,排除法之类的也都会使用。
  2.可以很明显看见确实---RACE数据集其中是收录
很多需要推理的地方,这很容易向我们怀念曾经做过的英语考试阅读理解。 什么是推理呢?这是一个值得思考的问题,可能匹配是推理构成中的很大一部分吧。 对比人类的推理,计算机的优势在于一方面可以认为他掌握所有的词汇这个是人类做不到的,说实话当年我要所有的单词都认识,现在------另一方面,是计算机超强的匹配能力,不仅仅指的是他可以将同义词,反义词等都可以识别出来(虽然我觉得bert也不可以,分布式假设的通病)还有一点是计算机的记忆能力可以记住所有的匹配到相关的问题知识,所以现在检索式阅读理解我个人认为的重点是 怎样将计算机的这两个优点极大的利用。 而人类不同于机器的优点在于:可以结合常识做出推理,这种推理是高级别的,常识可能不仅仅包括日常知识,还有之前的经验等。人类可以很自然的机型推理,但是对于神经网络而言推理是一件很困难的事情,有专门的数据集和任务去做这些事情,如果可以通过无监督或者其他方法可以把这些外部的对于做阅读理解而言很重要的事情添加进来,我觉得最后的实验效果会好很多。
  Hierachical Attention Flow:
  暂时还没有找到关于本篇文章的笔记,后面等看见就更新吧,写了自己的笔记之后再看看
  别人的笔记真的会神清气爽。-----
  Abstract
  【贡献】--对于多项选择题QA,【1】提出了层次注意流机制,以充分利用选项 候选选项、问题、和文章之间的交互(Interaction). 作者注意到,利用候选选项来促进文章中搜集证据在MRC任务中起着至关重要的作用。但是在以前的工作中被忽略了。 此外,【2】我们还显式的建立了选项和注意力机制的关联模型,以获取更好的选项表示形式,并将其进一步送入双线性层中以获取每个选项的排名分数。在RACE数据集上面取得了很好的效果。
  Introdunction
  在本文中,我们研究了多项选择题阅读理解,每个问题都有四个选项,其中只有一个是正确的。M-MRC的特点:不限制答案精确匹配给出的文章的范围,相反,候选选项是人工生成的句子,这些句子可能不会出现在文章中。 RACE 和 MCTest都是多项选择题的数据集。 2016--使用Cnn构建具有注意力机制的不同层次的表示。 2016--提出使用分层结构从多个平行的角度进行匹配(这个看起来真的挺有意思的),在MCTest数据集上面使用一种训练技术。等等 其他工作-----具体来说,模型只利用问题采集
和总结文章证据,然后进行证据和候选选项之间的匹配。
  受到2016年那两篇文章的启发,我么提出了基于神经网络的分层注意流,充分利用候选选项来建立文章、问题、候选选项之间的单次级和句子级的交互。 【结构】---注意流按照以下层顺序组织。 首先,使用BiRNN分别对文章中的句子、问题候选答案进行编码。 然后单词级别注意层构建 问题感知(question-aware)文章和感知候选项的表示。【接下来】句子上下文编码器使用BiRNN对 文章句子进行上下文建模。(就是是文章变为收录
问题信息的上下文编码)。 【然后】---句子级别的注意力层采集
文章中与 问题和候选项相关的证据,【2】并且为更好的选项表示建立选项关联模型。 【最后】---线性层计算每个选项的排名分数。
  主要介绍三方面的主要贡献:
  1. 首先,我们建议使用候选选项从文章中采集
证据。 2017---中只是使用问题在文章中搜集证据。 而在多项选择题阅读理解中,问题有时候信息不够丰富,不够清晰,不足以指导采集
证据。 特别是对于那些有空格或者关于一般目的的问题,仅仅凭问题采集
部分的证据就可能导致模型做出错误的预测。 候选选项可以提供额外的信息来澄清问题的意图。 因此我们是用问题感知选项表示来增强模型中的问题采集
。 这样,模型除了 利用问题信息之外,还利用候选选项信息来采集
更充分的证据来区分选项和干扰答案。
  2.为了进一步挖掘候选选项,我们利用之前工作中忽略的【选项相关性】作为原创
独立选项表示的附加信息。 以前的工作中关于多项选择题每个选项独立得分。 我们比较各个选项建模他们之间的相关性。 关联被编码成一个具有句子层级注意的向量表示,然后连接到独立的选项表示。 (上面的几篇文章也考虑到了这一点,不过做法或者使用的阶段不一样,说白了这里的方法就是 还是问题--文章之间建立感知,然后问题-候选项之间建立感知,然后对于问题-文章的感知再进行一遍RNN,得到最终的O2P,然后和之前的Q2O进行匹配感知,只是另外的将 Q-O对于各个选项再进行一次相关性计算,然后使用这个约束参与最终的答案选择---和前面提到的方法真的基本没什么区别----)。 因此,我们提出的模型在考虑其他选项的情况下对于每个选项进行评分。
  3.在RACE数据集上进行测试,效果达到了最好。
  Model
  按照之前的模型图中自左至右,从下往上的顺序进行介绍模型的各个模块。
  Word Context Encoder
  Attention Flow
  模型中,采用两个组件之间的交互来强调和组织相关的关系。 每一次交互都使用同样的注意力机制。
  Attention Mechanism
  Question-to-Passage (Q2P)Word-level Atteention
  句子中的单词并不是同等重要的,其中的意义可能会随着问题的变化变化。 为了得到文章句子的向量表示,我们将问句question中的每个单词向量表示应用到文章中的第i个句子中的每个单词。 我们使用Quetion BiGRU的每一步的输出而不是上一步的输出(2017)。 然后就得到了 文章中句子级别的每个句子的 问题感知表示(Question-aware)
  Question-to-Option (Q2O)Word-level Attention
  2017--等人使用GRU的最后一个隐藏状态作为候选、生成问题的自由向量表示。 而选项的意思和问题结合起来更容易理解。 因此,我们结合问题信息 将选项的单词表示形式组合成一个固定大小的向量,并在单次级别使用注意力机制。同样得到第i个候选项问题感知的形式(Question-aware)
  Sentence Context Encoder
  Sentence Context Encoder
  文章中句子的顺序很重要,就像句子中单词的顺序一样。 但我们并行处理文章中的句子,生成上下文无关的句子表示形式ViP. 为了对句子上下文进行编码,类似于单词上下文建模,我们在ViP上面 应用了另一个GRU。 句子的上下文编码到:
  Option-to-Passage (O2P) Sentence-level Attention 在阅读理解任务中,文章一般收录
大量的事件、地点等信息。 当一个文章涉及某一方面时,文章中不相关的部分可能是冗余和噪声。 为了避免冗余信息的负面影响,2017--等奖整篇文章总结为一个单一的向量作为 证据,并对文章中注意事项提出质疑。 这是一种流行的cloze-style阅读理解模型。
  在我们的模型中,利用问题感知的候选选项表示Q2O得到的结果,利用【句子层次上的注意力机制】,提高了从段落句子中采集
证据的能力。 在注意力计算过程中,每个候选选项对于其对应的句子赋予更高的权重(这样我觉得不行,注意力的计算仅仅可能是单词级别的关联比较机制,可能没有理解文章中句子的语义等信息,这样到最后的计算就成了问题-候选项 和 文章中句子注意力机制的得分的比较,这样是不是很容易将原文中和问题中出现比较相似或者原文重复的句子作为最终的答案,而问题在这个部分中起到的作用将会被削弱很多),然后,我们对于每个段落句子分配的权重进行平均得到最终的 文章中每个句子对于问题-候选句子的权重。 不同于以往的工作,我们隐式的纳入了问题信息,这是由Q2Oword-level attention编码带来的效果。。 最后,候选选项连同问题,将证据总结为一个固定大小的向量:
  Option Correlations
  候选选项的表示由Q2O word attention 得到,他是对于问题感知的。 但是这种 表示独立于其他选项,并且不会对选项之间的比较信息进行编码。 为了建立 选项之间的相关性,我们将候选选项和注意力机制进行了比较。 在将选项与自身进行比较的情况下,我们将注意力权重矩阵的对角线设置为0(去除自己的权重)。 Si,j表示第j个选项和第i个选项的相关性得分,不需要像以前那样进行合并操作。 灵感来自于chen2017-----需要看一下这篇文章。 我们建模选项之间的相关性通过求差的方式,然后连接到 独立选项表示增强。
  Answer Prediction
  和2017--一样使用双线性函数和正确概率Pi计算归纳证据,,,,得到最后的匹配得分。
  训练:最小化-log概率。
  Experiments
  Dataset
  RACE共收录
27,933篇文章和97,687个问题,其中5%为开发集,5%为测试集。
  数据集划分
  文章、句子、候选的平均长度和句子数量
  Implementation Details
  RACE放在一起训练测试。分词--
  训练细节----
  Ablation Study
  去掉 --Sentence
  验证段落句子归纳对于上下文编码的影响---
  2. 去掉 O2P Attention:
  像2017--那样使用问题去代替问题-选项去搜索证据。 证明了问题-选项结合在一起的重要性。
  3.去掉 Option Corrections
  验证选项之间的关联性学习确实是有效果的。
  Discussion
  Evidence Gathering and Option Correlations
  为了研究 候选选项如何从文章中采集
证据,我们可视化了 O2P注意中的注意权重矩阵。
  较深的颜色代表较高的权重。 注意权重矩阵表明,与每个选项相关的证据在passage中分散分布。
  段落句子的集中注意力权重尽可能多的总结必要的信息。 但是问题是可能会遗漏关键的证据,特别是对于不收录
明显指示性词语或者短语的问题,就像上面图中的第二个问题一样。 只有与候选选项结合,模型才能得到 提示,来采集
证据,从而强调句子的重点“state, money, recycling, landfill, disposal, raw material”。
  选项关系相关性在某些情况下也很有用。 在上面的图中第一个问题为例子。 没有相关性的模型选择了得分高于C的错误选项A。 通过引入 选项之间的相关性,模型选择了 得分极高的正确选项C,得分为:0.987。
  Top-N Accuracy
  为了进一步调查我们的模型总体精度之外,我们还统计分析--排名得分--的发展。由于每个问题的答案对应于只有一个正确答案,我们取 正确答案的的前N个排名,并相应的计算准确性(Acc@)。 acc@2:70.2 acc@3 :87.2。 对于随机猜测期望的领先从另一个角度说明了我们提出模型的有效性,并揭示了通过ranking可以进行潜在改进。
  Difficulty Gap between RACE-M and RACE-H
  RACE-M:中学RACE-H:高中
  两者的差异主要体现在 文章长度、问题和候选的长度M都较短,M词汇量小于H。
  词汇差不多都是收录
词汇表。 以上这些影响了最后的结果的不同。
  Related Work
  Large-scale Datasets
  大规模数据集促进了阅读理解研究的重大进展。根据答案是否限制在引用段落的精确匹配范围内,我们可以将现有数据集分为两类.
  CNN/Daily Mail (Hermann et al. 2015), Childrens Book Test (CBT) (Hill et al. 2016) and Who Did What (WDW)(Onishi et al. 2016) 是自动生成的 clozestyle 大规模数据集,答案通常是文章中的一个词(通常是一个命名实体)。
  SQuAD(Rajpurkar et al. 2016)------答案是span
  RACE(Lai et al. 2017) and MS MARCO (Nguyen et al. 2016)---------答案肯能不会出现在原文中。这与人类的阅读理解最接近。 此外RACE是一个多选题数据集,答案是四个选项中的一个。
  Multiple-choice Reading Comprehension
  多选题是语言考试中常见的题目。 MCTest多选---难度仅限于7岁儿童。
  RACE数据集: 与MCTest数据集格式差不多,但是难度更高,28000文章,100000问题组成,转为12--18岁中国孩子设计的英语考试。
  Hierarchical Structure
  阅读理解模型中,把文章处理成为一个长序列是一种常用的方法,只有少数模型中收录
了文章结构。 2016(Schutze)---构建并结合了句子级别和相邻句子级别的模型。但是时间关系没有在任何层次上进行建模。 2016(Trischler)---等人采用层次结构来建模比较 段落--问题--候选,并使用基于位置的权重对于顺序信息进行建模。 2017(zhang)--结合句法信息来探索更好的理解和适应,但是仅仅局限于 问题。 2017(xie and xing)---利用句法信息对问句和文章进行编码,然后他们使用RNN在句子表示得到 基础 上对于文章进行编码。 我们将文章的层次结构引入到交互模型中,并在单次级别和句子级别使用RNN对于时态上下文进行建模。
  Attention Mechanisms in Reading Comprehension Models
  注意力机制在之前很多模型中都用到了。 主要被用来 【模拟交互和预测答案】。
  2015-2016使用单个问题向量来总结文章,不是使用单个向量来表示问题。
  2016-2017 利用问题中的每一个单词和文章进行交互。
  2017--问题中的单词在对文章进行RNN的时候每一个步骤时间点都进行 与 文章中的单词进对齐。
  2017(Socher)--问题和文章之间的注意力是双向计算的。
  不管问题和文章之间的注意力,2017--提出了自我匹配机制来匹配段落本身。
  2017(Dhingra)--提出门控--注意力机制 通过多跳(mutil-hop)来选择单个问题的相关段落。
  2016(Sordoni)--交替计算短文和问题之间的注意力。
  2017(Shen)--进一步使用强化学习动态确定迭代步骤。
  当涉及到答案的预测的时候,受到2015(Vin)--2016(Kadlec)等的启发 直接以注意力作为指针,预测填空式阅读理解的答案。
  2016(Sorddon)--2017(Cui)--2017(Dhingra)随后在答案预测层中采用了相同的方法。
  2017(Wang)等利用注意力机制来产生 答案相关的span的边界。 这对于 SQuA数据集来说是一个有效和主流的模型配置(设置)。
  2017(Socher)提出了动态指针解码器(Dynamic pointing decoder),使用迭代的方法生成answer的边界。
  2017(Lai)等利用双线性函数在RACE数据集上面计算每个选项的匹配得分。
  Conclusion and Future Work
  本文提出了选择题阅读理解的分层注意流。文章、问题和候选选项通过不同层次的注意力相互作用。
  为了充分利用候选选项,我们将选项合并到一起,用来增强证据采集
和增强具有相关性的选项表示,这在以前的工作中没有做过【---】。
  结果还可以--
  最后作者认为:句法和篇章关系可以作为附加结构作为补充信息。
  在未来的工作中,作者希望通过结合 句法信息或者话语关系来进一步探索篇章结构来获取更好的表达。
  【说实话自己觉得这篇文章】比之前的两篇文章更有价值更有意义,不管是文章的编辑还是文章关于RACE数据集的做法。
  【Improving Question Answering with External Knowledge】---------
  Abstract
  先验背景知识是人类阅读和理解的基础。 作者本文中,研究如何使用外部知识来提高问题的回答(QA)。主要关注多项选择题,这需要外部知识来回答。 研究了利用【外部域内】(external in-domain)选择题回答的数据集,并且利用【外部域外语料库】丰富参考语料库。实验结果表明,在ARC和OpenBookQA这两个具有挑战性的选择题答题任务上,外部知识是有效的。
  1. Introduction
  外部知识在人类阅读和理解中起着至关重要的作用,因为作者假定读者从文本之外的来源获得了一定数量的背景知识--2013;
  越来越多的研究集中在 多选MRC的模型构建--2016-2019;或者问答的任务--2018;
  对于MRC任务而言,大多数问题依然是根据所提供的参考文献内容设计的可回答的。 本文中,我们主要关注多项选择题QA任务:
  只提供一个参考语料库,我们需要使用不同类型的知识去选择正确的候选选项--2018.
  如何利用外部知识来进行多项选择题的回答,以填补人与机器之间的知识鸿沟,仍然是一个有待解决的问题。
  近期的研究(2017-2018)都是通过先 预训练深度神经模型在大规模的语料库上面使用语言模型预训练LSTMs,Transforms.
  通过在下游任务上对这些预先训练的模型进行微调,我们已经看到在广泛的自然语言处理任务上取得了显著的改进;
  然而,在预训练阶段引入外部知识相对耗时、资源广泛性较强。
  本文旨在利用外部知识,在微调(fine-tuning)阶段提高多项选择题的正确率。我们研究了两方面的影响:
  1)利用外部域内(in-domain)Q-A数据集增强训练数据。
  2)基于问题和答案选项的实体发现和链接,从外部开放域(open-domain)中检索额外的知识,来丰富参考语料库。
  我们使用了Bert作为基本QA模型在从考试中采集
的两个具有挑战性的ARC和OpenBookQA数据集上做了初步的实验。实验结果表明,利用外部知识可以获得较好的实验效果。
  2.Method
  2.1 介绍作者使用的QA模型的baseline.
  2.2 --2.3 介绍使用两种方法引入 外部域内 和 开放域的知识。
  2.1 Basic Framework
  首先微调(fine-tuning)一个预训练语言模型在大型的多选MRC数据集RACE(Lai--2017)上面,然后对于目标 多选Q-A数据集上面对于结果模型进行微调(fine-tunning).在本文中使用bert作为预训练语言模型。
  给定问题q、答案选项o和参考文档d,我们用特殊的标记@和#将它们连接起来,作为输入序列BERT_large by @d#q#o#,其中@和#分别代表BERT中的[CLS]和[SEP]。我们在q (exclusive)之前将A嵌入到每个token中,并将B嵌入到其他token中。对于ARC和OpenBookQA中的实例,d来自Lucene (McCandless et al., 2010)从其对应的参考语料库中检索到的前50个句子的串联,以q和o中的不间断单词作为查询(Sun et al.,2018)。 每个问题的最终预测由一个线性加softmax层在每个输入序列的【第一个token的最终隐藏状态的输出】上得到。我们向读者推荐Devlin et al。Sun等人了解更多细节
  2.2 Utilization of In-Domain Data
  我们的基本框架包括两个阶段:在大型开放域机器阅读理解数据集(比如RACE)微调(fine-tuning)一个预训练的语言模型,然后在目标问题回答Q-A数据集上微调产生的神经阅读器(Reader),对于后一个步骤,我们没有对单个目标数据集上的神经阅读器进行微调(Sun et al., 2018),而是同时对多个目标数据集上的神经阅读器进行微调.
  【概述】先拿一个预训练的语言模型出来,然后在其他大型的域内的数据集上进行微调,然后再在目标数据集和域内数据集上面一起进行微调。
  
  2.3 Utilization of Open-Domain Data
  我们使用实体发现和链接(EDL)来帮助我们丰富参考文档。
  【Entity discovery】: 实体发现任务 就是从实体提及(mention)中提取实体的任务。大多数实体发现系统 使用的都是 预先定义好的类(person,位置等). 然而,在ARC和OpenbookQA中,绝大多数实体都来自于丰富的领域(e.g., “skin surface”,“oil”, “magnet”, and “iron”)。由于目前科学领域还没有一个强有力的系统,我们只是把所有的名词短语都看作是一个实体。
  【Entity Linking】:实体链接任务可分为两个子任务:【候选生成】和【实体消歧】。给定一组提取的实体提及M = {m1, m2,…,}我们首先对于每一个实体提及m生成一个候选实体的初始列表Em = {e1, e2,…, en},然后对每个实体进行排序,选择得分最高的候选实体作为合适的链接实体。
  采用基于字典的候选生成方法(Medelyan和Legg, 2008):
  其中m是一组锚点链接,其中m是相同的锚点文本,而Am_e是其中的子集;
  然后,根据三个指标对每个初始候选实体列表进行重新排序:【显著性、相似性和一致性------salience, similarity, and coherence 】(Pan et al., 2015)。
  【显著性】是通过使用Wikipedia锚链接计算的:
  其中A*e是一组指向实体e的锚点链接,A**其中的所有锚点链接的集合在维基百科中。
  【相似性】是指 mention-entity pair之间的上下文相似性。 我们采用了 一种神经网络模型,该模型可以从 Wikipedia中联合学习单词和实体(word and entity)的embedding。 对于每一个提及到的实体m,作者使用上下文中的每个单词(出去自己和停用词)的向量表示来构建它的上下文向量Vt的向量表示。使用Cos来计算实体提及和候选实体之间的相似性。
  【一致性】一致性是由这样一种假设驱动的:如果多个实体提及同时出现在一个句子中,那么它们的引用实体在知识库中更有可能是一致的。
  跟随黄(2017),构造加权无向图G = (E, D) 从KB中,其中E是KB中所有实体的集合,dij∈D表示两个实体ei和ej共享一些KB属性。
  dij, wij :
  其中pi、pj分别为ei和ej的KB属性集合。在构建知识图之后,我们利用Tang等人(2015)提出的图嵌入框架,为KB中的所有实体生成知识表示.两个实体之间的一致性coh(ei, ej)是利用这两个实体的向量表示之间的余弦相似性来建模的。
  给定一个实体提及m及其候选实体e,一致性得分定义为:
  其中Cm是对实体提及m的实体联合。
  最后,我们结合这些度量来计算每个实体候选e的最终得分。
  我们将上述EDL系统应用于所有【问题和候选答案】的文本中。对于每个已发现和链接的实体,其Wikipedia摘要将被提取并附加到每个(问题,答案选项)对的相应参考文档中。
  3 Experiments
  3.1 Datasets
  在我们的实验中,我们使用RACE (Lai等--2017),这是目前最大的多项选择MRC数据集,作为迁移学习的源任务。我们对我们的方法的性能进行了评估在ARC (Clark-2016, 2018)和OpenbookQA (Mihaylov2-018)数据集上面。。所有这些任务都是从人类专家为了QA精心设计的考试中采集
而来的,其中收录
大量需要外部知识才可以回答的问题。但是 人类和机器之间还是存在着巨大的性能差异。 下图展示了这些数据集的统计数据:
  3.2 Experimental Settings
  使用 预训练的 BERT_largr。
  batch_size: 24
  lr: 2e-5
  maxlen = 512.
  RACE --fine:5 epochs---------other 数据集 8 epochs
  下图展示了 RACE数据集中的BERT baseline
  3.3 Experimental Results
  由下图看出,在应用EDL以丰富每个问题的参考文档之后,所有任务的准确性都得到了提高。 文章中举了‘磁铁’的例子,说明有的答案只有通过wikipidia之后才会回答起来容易很多。
  在初步实验的基础上,通过微调发现很多多选MRC数据集的性能都有了提升。
  4 Related Work
  4.1 Question Answering
  近年来有很多数据集和模型推动了QA的发展。
  在数据集方面,作者的工作主要集中在 教育专家设计的 多选择题考试数据集(2017-lai,Clark2018,2018...2019....).,因此这些数据集都是 干净的、无错误的、具有挑战性的。
  在模型方面,作者遵循了 针对 Q-A任务 有区别的微调 预训练语言模型的一般框架。
  4.2 Utilization of External Knowledge
  以前的工作探索了 许多利用外部知识的方法。 wang-2018,Sun-2019利用常识的概念图(Speer-2017).
  Chen提出使用维基百科回答开放域Q-A的方法。
  Ni等人研究了使用 重要基本术语 改进信息检索。
  【作为对比--作者】提出了 通过利用 外部 域内 和外部开放域的知识,尤其是第一个工作中的使用EDL的方法,,来提升多项选择QA.
  5 Conclusion
  在本研究中,我们研究了利用域内的外部问题回答数据集和利用域外外部语料库来丰富参考语料库,从而改进问题回答。在ARC和OpenBookQA数据集上的初步实验结果证明了我们提出的方法的有效性
  Improving Machine Reading Comprehension with General Reading Strategies
  Abstract
  阅读策略已被证明可以提高理解水平,特别是对于缺乏足够的先验知识的读者。 正如人类读者的知识积累过程是一个耗时的过程一样,通过预培训将丰富的一般领域知识传授给一个深层的语言模型也是一个资源需求的过程。受认知科学中确定的阅读策略的启发,在有限的计算资源(只有一个预先训练的模型和固定数量的训练实例)下,我们提出了三个旨在提高非抽取式机器阅读理解(MRC)的一般策略:
  1) 反复阅读,认为原创
和倒序输入序列(BACK AND FORTH READING)
  2)高亮显示,这增加了可训练的嵌入的文本嵌入标记相关的问题和候选答案(HIGHLIGHTING)
  3)直接从文本以一种无监督的方式,自我评估产生实践问题和候选答(SELFASSESSMENT)
  使用作者提出的策略通过微调pre-trained语言模型(雷德福et al ., 2018),在大型多选MRMC的数据集RACE上面,比不使用作者提出的阅读策略微调预训练的模型ACC提升 5.8;
  我们进一步对目标MRC任务上的结果模型进行微调,从而得到了在不同领域绝对的改进在6个6个非抽取式的MRC数据集(即, ARC, OpenBookQA, MCTest,SemEval-2018 Task 11, ROCStories,和MultiRC)。这些结果证明了我们提出的策略的有效性和通用性。
  1 Introduction
  本文主要研究非萃取性MRC (Khashabi et al., 2018;Ostermann等,2018)其中,很大比例的候选答案不受参考文档或语料库 文本跨度的限制。
  与提取MRC任务(第2.1节)相比,非提取任务MRC (Section 2.2)要求不同的阅读技能,因此,机器阅读者在这些任务上的表现更准确地反映了机器阅读者在现实环境(如考试)中的理解能力。最近,通过对预先训练好的通用语言模型进行微调,许多自然语言处理任务都取得了重大进展,包括MRC (Radford et al., 2018;Devlin等,2018)。 然而,与人类读者的知识积累过程类似,通过预训练将大量的外部语料库中的一般领域知识传授给一个深层的语言模型,既费时又费力。
  从实践的角度出发,给出了有限的训练实例和预训练模型,我们能否在微调过程中提高机器阅读理解能力,而不是通过昂贵的预培训将更多的先验知识传授给模型?灵感来自认知科学研究中确定的阅读策略,这些策略已被证明在提高人类读者的理解水平方面有效,特别是那些对文本主题缺乏足够先验知识的读者。
  基于现有的预训练transformer(3.1节),我们提出了三种相应的领域无关策略来改进MRC:
  1)来回阅读(“我在文本中来回查找思想之间的关系”):考虑输入序列的原创
顺序和倒序(第3.2节)。
  2)突出显示(“我在文本中突出显示信息,以帮助我记住它。”):在文本中添加可训练的嵌入,嵌入那些被认为与问题和候选答案相关的标记(第3.3节)。
  3)自我评估(“我问自己一些问题,我想在文本中回答这个问题,然后检查一下我对文本的猜测是对还是错。”)从现有参考文件中生成练习问题及其相关的基于span的候选答案(第3.4节).
  根据我们对语言考试中采集
到的最大通用域 多选--MRC数据集RACE (Lai等,2017)提出的策略,对一个预训练的transformer (Radford et al., 2018)进行微调,我们获得一个在不使用策略的情况下,相同的预训练变压器在种族上进行微调,其精度比以前的最佳结果提高了5:8%(第4.2节)。。 我们在目标上进一步微调得到的模型MRC的任务。实验表明,我们的方法在6个典型的非抽取MRC数据集上取得了最新的研究成果,这些数据集需要一系列的阅读技巧,如常识和多句推理(4.4)。这些结果表明了本文所提方法策略的有效性。我们的微调模型纳入了这些策略的通用性。
  2 Task Introduction
  我们将机器阅读理解任务大致分为两组: 根据预期答案类型抽取(第2.1节) 和 非抽取(第2.2节)
  2.1 Extractive MRC
  近年来,大规模的提取MRC数据集已经建成,例如 SQuAD 和 NewsQA. |给定一个参考文档和一个问题,预期的答案与文档的跨度很短。相比之下,答案在SearchQA等数据集(邓恩et al ., 2017)和NarrativeQA (Kociskˇy et al。”,2018)是基于给定文档的自由形式的人类生成文本。然而,由于注释者倾向于直接将span复制为答案,所以大多数答案仍然是抽取的。
  2.2 Non-Extractive MRC
  在本节中,我们主要讨论multiplechoice MRC数据集,其中答案选项不受提取文本范围的限制。给定一个问题和一个参考文档/语料库,将提供多个答案选项,其中至少有一个选项是正确的。构建这样一个数据集需要大量的人力工作(如 MCTest (Richardson et al., 2013), SemEval-2018 Task 11 (Ostermann et al., 2018)、MultiRC (Khashabi et al., 2018)和OpenBookQA (Mihaylov et al., 2018)通过众包完成。除了众包,数据集如RACE (Lai等,2017)和ARC (Clark等,2018)采集
自教育专家设计的语言或科学考试(Penas et al.,2014;Shibuki等,2014;Tseng et al., 2016)来评估人类参与者的理解水平。
  与提取MRC任务中的问题相比,除了表面匹配外,复杂的问题还有很多,如数学单词问题、归纳问题、逻辑推理问题、情绪分析问题,,需要先进的阅读技巧以及先验的世界知识。
  此外,在大多数情况下,我们可以采用准确性等客观评价标准来评价系统性能(Clark et al., 2016;Lai等,2017)。 由于这类数据集的构建和采集
相对困难,现有的数据集大多规模较小,阻碍了最先进的深度神经模型的发展。
  为此,本文以7个具有代表性的多选题MRC数据集为例,探讨了如何利用有限的资源来改进MRC。如表1所示,大多数数据集中(ARC和MCTest除外)的大多数正确答案选项都是非抽取的。除了MultiRC,每个问题都有一个正确的答案选项。对于ARC和OpenBookQA,将提供一个参考语料库,而不是与每个问题关联的单个参考文档。
  这里我们给出了一个正式的任务定义。 给定参考文档d、问题q和相关的回答选项o;目标是选择正确的答案选项。 我们可以很容易地使我们的方法适应只提供参考语料库的MRC任务(第4.4节) 。
  3 Approach
  我们首先介绍了一个基于预训练transformer的神经阅读器(第3.1节),然后详细阐述了微调阶段使用的策略——来回阅读(第3.2节)、高亮显示(第3.3节)和自我评估(第3.4节)。
  3.1 Framework Overview
  我们的神经阅读器遵循有区别地微调生成预训练变压器(GPT)的框架(Radford et al., 2018)。 我们的神经阅读器遵循有区别地微调生成预训练变压器(GPT)的框架(Radford et al., 2018)。 采用预训练的多层变压器(Vaswani et al., 2017;Liu等,2018)标记数据集C的语言模型.每个实例由输入令牌 x1 的序列;例如:;xn组成.加上标签y,通过最大化 :
  L是语言模型的可能性,λ是语言模型的重量,然后呢P (yjx1;例如:;xn)是通过线性分类层对最后一层transformer的语言模型的激活得到的。MRC的任务,x1;例如:;xn来自开始令牌、引用文档、问题、分隔符令牌、回答选项和结束令牌的连接;y表示答案选项的正确性。更多详情请参考Radford等人(2018) .
  除了设置分隔符将答案选项与文档和问题分隔开之外,最初的框架很少关注MRC任务中特定于任务的结构。受阅读策略的启发,利用有限的资源和一个预先训练的转换器,我们提出了三种策略来提高机器阅读理解。我们在图1中显示了整个框架----
  3.2 Back and Forth Reading (BF)
  为简单起见,我们表示微调期间GPT的原创
输入序列(Radford et al.,)作为[dq $ o],其中[、$和]分别表示开始令牌、分隔符令牌和结束令牌。受来回阅读的启发,我们考虑了原创
顺序[dq $ o]和反向顺序[o $ qd],仍然保留d、q和o中的令牌顺序.我们分别对使用[dq $ o]和[o $ qd]作为输入序列的两个GPTs进行微调,然后对这两个模型进行集成。我们还在实验中考虑了其他类似的输入序列对,如[qd $ o]和[o $ dq](第4.3节)。
  3.3 Highlighting (HL)
  在最初的实现中(Radford等,2018年),在GPT微调阶段,文档的文本嵌入 独立于 相关的问答选项。 受人类阅读中使用的高亮显示的启发,我们的目标是使文档编码意识到相关的问答选项对(q, oi)。我们关注问题和答案选项中的实词,因为它们似乎提供了更多有用的信息(Mirza和Bernardi, 2013),我们通过词性标记(POS)来识别它们,其中之一是:名词、动词、形容词、副词、数字或外来词.
  形式上,我们设T为内容词的POS标签集合。我们让d表示文档d的文本嵌入顺序,用dj表示d中的第j个令牌,dj表示dj的文本嵌入。给定d和a (q, oi)对,我们为d中的第j个令牌定义一个高亮嵌入hj i
  根据上述定义,高亮嵌入的序列hi = h1 i;h2。当我们编码一个文档时,我们用di = d + hi替换d。更具体地说,我们使用b ,di, q, l oi,的串联在整合和,e 是GPT在为微调阶段新的输入(3.1节),b, l,和e独立表示嵌入的开始令牌,分隔符令牌,和结束标记,q和oi代表q和oi的文本嵌入的序列。
  3.4 Self-Assessment (SA)
  在之前的工作中(Radford et al., 2018),原创
的GPT是直接在MRC结束任务上进行微调的,而我们根据自我评估阅读策略开发了一种新的微调方法。特别地,我们提出了一个简单的方法来生成问题及其相关的多个基于span的答案选项,这些选项涵盖了参考文档中多个句子的内容。通过首先对这些实践实例上的预训练模型进行微调,我们的目标是使最终的fine-tuned模型更加可以感知(了解)输入结构,并在回答给定问题时可能需要的多个句子之间集成信息。
  具体来说,我们随机生成不超过nq的问题 和
  相关的回答选项 依托于给定任务的文档(document)。 步骤描述如下。
  Input: a reference document from the end task 最终任务相关的参考文档
  输出: 与参考文档关联 的 一个问题和四个回答选项。
  1. 从文档中随机选择不超过ns的句子,并将这些句子连接在一起。
  2. 从连接的句子中随机选择不超过nc非重叠跨度。 每个span在一个句子中随机收录
不超过nt标记。我们将选择的span连接起来,形成正确的答案选项。我们从连接的句子中删除选定的span,并使用剩余的文本作为问题。
  3.产生三个干扰物(如 ;错误的答案选项)使用文档中随机选择的span替换正确答案选项中的span。
  其中,nq、ns、nc和nt用于控制问题的数量和难度级别。
  4 Experiment
  4.1 Experiment Settings
  对于大多数超参数,我们遵循Radford等人(2018)的工作。我们使用相同的预处理程序和释放的预训练变压器。 我们根据RACE的训练和开发集合中的参考文档生成119k个实例(Lai等人,其中nq = 10, ns = 3, nc = 4, nt = 4(3.4节)。我们首先在这些 自动生成的实例上对原创
的预训练模型进行微调,使用1个训练历元(数据流1在图1中框起来) ,然后在 RACE数据集上面对于上述模型进行5个epoch的微调(fine-turning)(图1中框入数据流2)。我们在前面提到的六个out- domain MRC数据集上对结果模型进行微调(最多10个epoch)(图1中框起来的数据流3)当我们微调模型在不同的数据集,我们将批量大小设置为8,语言模型权重λ=2。我们通过平均线性层后的对数来集成模型。对于策略高亮(3.3节),the contentword POS tagset T = fNN, NNP, NNPS, NNS,VB, VBD, VBG, VBN, VBP, VBZ, JJ, JJR, JJS,RB, RBR, RBS, CD, FW},我们随机初始化+和-。
  4.2 Evaluation on RACE
  在表2中,我们首先报告了最先进模型(MMN和原创
finetuned GPT)和Amazon Turkers(人类性能)的准确性。 然后,我们报告我们实现的经过微调的GPT基线和我们的模型(GPT+策略)的性能。结果显示在RACE dataset (Lai et al., 2017)及其两个子任务上:从初中考试中采集
的RACE- m和从高中考试中采集
的RACE- h。
  我们的单一和综合模式优于以往的先进水平(即 GPT和GPT(9×)) 相差较大(63:8% vs. 59:0%;66:7%比60:6%)。这两种单模型策略——自我评估和突出显示——分别比单模型微调的GPT基线(58:7%)提高了1:7%和4:5%。 使用前后阅读策略,包括两个模型,与两个原创
的finetuned GPTs(59:6%)相比,准确率提高了3个点。策略组合进一步提升绩效。通过结合自我评估和高亮显示,我们的单一模型在经过微调的GPT基线(63:8% vs. 58:7%)上实现了5 %的准确性改进。 我们通过对两个这样的单一模型进行集成来应用所有的策略,这两个模型以原创
或相反的顺序读取输入序列,从而使与 两个原创
的微调GPTs集成相比,准确率提高了5:8% (65:4% vs. 59:6%)
  为了进一步分析性能,我们大致将问题类型分为五类: 细节(事实和细节)、 推理(推理能力)、主旨(文档的主要思想或目的)、 态度(作者对主题或文档语气/源的态度) 和 词汇(词汇 问题)(Qian and Schedl, 2004;Lai等人,2017),并注释了所有RACE开发集的实例(按照这5类对于问题进行了注释)。如图2所示,与经过调优的GPT基线相比,我们的单模型策略(SA和HL)在所有类别中持续改进结果。与其他策略相比,对大多数问题类型来说,突出显示可能会带来更大的收益。
  与人类性能相比,仍有相当大的改进空间,尤其是在RACE-M上。我们仔细查看RACE-M开发集中 所有实现都不能正确回答的实例。我们注意到,其中82.0%需要一种或多种类型的世界知识(如否定决议、常识、释义和数学/逻辑知识)(Sugawara et al., 2017b,a,2018年)),尤其是在参考文献中没有明确提到正确答案选项的情况下。 例如:For example, we need the knowledge —“the type of thing that is written by a writer canprobably be a book” — to answer the question “follow your heart is a ” from the context“ Follow
  your heart by Andrew Matthews, an Australian writer, tells us that making our dreams real is life’s biggest challenge”.此外,19:7%的错误case需要使用 共指消解。利用共指消解可以连接不相邻的相关句子可能是有希望解决这类问题的。
  4.3 Further Discussions on Strategies
  除了第三节中介绍的策略,我们也探索 摘要 等阅读策略(““I take an overall view of the text to see what it is about before carefully reading it.”)通过在每个参考文档前附加一个摘录摘要(Boudin et al., 2015)。实验结果表明,与我们所关注的策略相比,该策略对机器阅读理解的效果较差。在本节中,我们将进一步讨论这三种策略 :
  Back and Forth Reading:
  我们注意到,两个集成模型之间的输入顺序差异很可能产生性能收益。除了集成两个使用输入序列的模型外[dq $ o]和[o $ qd],我们还研究了其他反向或几乎反向对。例如,我们可以通过组合[qd $ o]和[o $ dq](61:0%)或[qd $ o]和[o $ qd]来获得更好的结果(61:7%),相比之下,原来的两个微调的GPTs(他们都使用[d $ qo])用于种族数据集(表2中59:6%) .
  Highlighting:
  我们尝试了两种变体来定义突出显示嵌入(3.3节中的公式2)---通过只考虑问题的内容或只考虑回答选项.实验表明,使用部分信息的准确率(分别为60:6%和61:0%)有所下降相比于 同时考虑 问题的内容和答案选项 63:2%(表2),
  我们还试图 突出内容词的共指提及(coreferential mentions),但是这并不能带来进一步的收益。
  Self-Assessment
  我们探索生成问题的其他方法。 例如,我们使用来自SQuAD的Wikipedia文章(Rajpurkar et al., 2016),而不是来自end task RACE的一般域文档。按照第3.4节中提到的相同步骤,我们生成的问题数量与使用RACE生成的问题数量相同。 实验表明,该方法还提高了微调GPT基线的精度(59:7% vs. 58:7%)。由于自我评价在某种程度上可以被看作是一种数据增强方法,我们研究了其他非监督问题生成方法,如 句子变换 和 反译释义 (Ding and Zhou, 2018;Yu等,2018)。我们的实验表明,这两种方法都不能提高RACE数据集的性能。
  4.4 Adaptation to Other Non-Extractive Machine Reading Comprehension Tasks
  我们遵循的理念是将知识从对源任务的大规模监督数据进行预处理的高性能模型转移到只有少量训练数据的目标任务(Chung et al., 2018)。RACE用于为其他MRC任务预训练模型,因为它收录
了最多的一般领域非抽取问题(表1)(Ostermann et al.2018;王2018年)。在我们的实验中,我们也将RACE作为源任务,并将六个具有代表性的来自多个领域的非抽取的多选题MRC数据集作为目标任务。虑到这些数据集的不同结构,我们需要一些特定于任务的修改。在ARC和OpenBookQA中,没有与每个问题相关的参考文档。相反,它提供了一个参考语料库,由与问题相关的无序的科学相关句子组成。因此,我们首先使用Lucene (McCandless et al., 2010)通过在一个 问题中使用 不间断(non-stop)的单词及其每个答案选项作为查询来检索前50个句子。 检索到的句子用于形成每个答案选项的参考文档。MultiRC数据集中一个问题可以有多个正确答案选项。因此,我们在最后一层使用sigmoid函数代替softmax(图1),并将任务视为二进制(对错)即每个(文档、问题、答案选项)实例的分类问题.当我们将我们的方法应用于非传统的MRC数据集ROCStories时,它的目标是从两个答案选项中选择一个四句话不完整的故事的正确结尾(Mostafazadeh等人, ,由于没有提供明确的问题,我们将问题上下文留空。由于MultiRC数据集的测试集不可公开使用,我们报告了在开发集上获得最高微平均F1 (F1a)的模型的性能。对于其他任务,我们选择在开发集上达到最高精度的模型,并报告在测试集上的精度 。
  我们首先使用我们提出的关于RACE 的三种策略对GPT进行微调,然后对 六个目标任务之一的结果模型 进行进一步的微调(参见表3)。在后一个微调阶段,除了继承前一个微调阶段的突出嵌入外,我们还采用了前后阅读的策略,由于模型已经在第一个微调阶段从高质量的RACE数据集中的实例中获益,所以我们没有考虑自我评估策略。
  我们将首先对RACE数据集上面进行微调,然后在不使用策略的情况下对目标任务进行微调的基线进行比较,这些基线已经在6个数据集中的4个(OpenBookQA, semevall -2018任务11、ROCStories 和 MultiRC))上超过了之前的最先进(SOTA)。通过使用这些策略,我们获得了比集成基线(58:5%)平均准确度提高了7:8%的绝对准确度,比以前的SOTA(60:1%)提高了6:2%的绝对准确度。为了进一步研究这些策略的作用,我们直接对目标任务进行GPT微调,而不使用RACE中的标记数据(即与未使用策略进行微调的基线(54:6%)相比,我们获得了平均准确率10 . 4%的相对提高(60:3%),尤其是在数据集ARC、OpenBookQA和MCTest上的较大改进(表4)。
  5 Related Work
  5.1 Methods for Multiple-Choice Machine Reading Comprehension|
  我们主要讨论应用于大规模数据集的方法,如RACE (Lai等,2017)。研究人员开发了多种具有注意机制的方法(Chen et al., 2016;Dhingra等,2017;徐等,2018;Tay等2018;Tang等2019年)进行改进,如添加消除模块(Parikh等人2018)或应用分层注意策略(Zhu等人2018;王等,2018b)。这些方法很少考虑丰富的外部知识(除了预先训练好的单词嵌入)。相反,我们基于现有的预训练tr

汇总:关键词搜索查找软件-批量关键词搜索查询导出工具免费

采集交流优采云 发表了文章 • 0 个评论 • 113 次浏览 • 2022-11-23 22:25 • 来自相关话题

  汇总:关键词搜索查找软件-批量关键词搜索查询导出工具免费
  关键词 搜索查找器,什么是 关键词 搜索查找器。关键词搜索工具就是搜索大量有流量的关键词,方便我们做排名。或者从媒体中选择一个主题。今天我想和大家分享一个免费的关键词搜索工具。免费的一键式批量搜索工具。自动查找最新流量关键词。详细参考图(支持批量关键词搜索搜索,支持文章自动采集,视频自动采集,图片自动采集,批量内容伪原创等)
  网站关键词优化是网站优化过程中非常重要的一步。网站关键词排名优化做好后,网站会在搜索引擎搜索结果页面快速展示给用户,达到增加网站流量、访问量和用户转化率。
  网站关键词优化难度的判断有几种方式,如:关键词的搜索索引、百度竞价后台的关键词策划师、关键词的类型、网站优化水平等。
  确定网站 关键词 优化的轻松级别之一:关键词 的搜索索引
  所谓关键词搜索指数可以从百度指数、360指数等中查看选择。关键词指数越高,关键词的优化难度就越大,反之亦然。
  
  查看关键词索引的平台不一定包括所有关键词。如果不收录
,则不会显示索引数据。购买后才能看到关键词的索引。
  确定网站关键词优化难度二:招标后台的关键词策划师
  在关键词 planner中,不仅可以展开相关的关键词,还可以分析关键词的相关索引。关键词规划器中的指标可以从这几点得出 分析:关键词显示原因,关键词整体日均搜索量,移动端日均搜索量,竞争激烈,referral bid(如果单词更改为出价),等等。
  确定网站 关键词 优化级别 3 的难度:关键词 的多样性
  所谓关键词类型,大致分为这四类:品牌词、产品词、转化词、流量词。这四类词的搜索优化难度越来越大。在选择关键词的类型时,需要从这四个词中进行选择,选择最有利于优化和用户搜索习惯的词。
  
  关于官网优化,如今的SEO优化已经成为很多企业网络营销推广的基本手段。除了为平台带来充沛的流量,也让更多的用户了解品牌和产品。它确实很受现代公司和企业的欢迎。告别。但是对于一些电商来说,他们会更看重这种推广方式的转化率。想要进一步提升效果,这些优化技巧还得自己把控。下面小编就给大家介绍一下如何优化官网提升效果?
  说到SEO优化技巧,不得不说的就是优化的频率和数量。由于优化的目的是提高关键词的排名,所以优化的时间点比较讲究。这个需要根据用户的搜索习惯来设置时间。例如,搜索时间是根据用户的正常工作时间来设置的,午餐和下班的时间可能会比较多。
  因此,需要提高这些节点的更新频率,集中精力提升关键词的排名,可以给商家带来更大的曝光度,从而吸引更大的流量,从而拥有更大的收益。是时候完成转换了。此外,写关键词软文还有一些要求,比如对原创性的要求,可以让平台给到更多的推荐,在一定程度上帮助提升排名。
  还有关键词优化的提升技巧。不仅需要熟悉网络平台的推广规则,还需要在标题上给予一定的引导,让用户产生点击进入观看的欲望。这样吸纳之后,后期准备的软文发布就会起到营销效果。所以在一般的关键词搜索中,SEO优化其实是一个综合的过程。
  以上是51小鱼网整理发布的用户投稿,希望对大家有所帮助!
  教程:使用网站采集软件必备伪原创秘笈
  这里的好文章是最好的原创文章,来源可以是博客、英文网站、周刊等原创性强的渠道。
  伪原创第二步:批量修改。(如果你使用的是优采云
Collector V9旗舰版,可以直接安装优采云
collector【伪原创插件下载】.types的伪原创插件。)
  1.标题一定要修改
  修改标题的重要性不用我强调,但需要强调的是,标题不要因为修改过多而失去点击价值或与文章内容不一致。比如可以把愚人节改成好玩的愚人节而不是节日。这可以在优采云
采集器数据处理中的同义词替换、参数组合等功能中实现。这取决于您喜欢使用哪一种。文本也可以替换同义词。
  2.修改文字
  
  修改文本的方法真的是多种多样,只要掌握好,就可以游刃有余了。我们来看看具体方法:
  2.1 修改开头和结尾
  搜索引擎在抓取文章时,首页主要看标题和文章的首末段。因此,更改第一段和最后一段的内容非常重要。在第一段和最后一段,可以选择优采云
Collector V9中的“随机插入”,插入有价值的关键词和关键句,或者使用“内容加后缀”等方式,可以提高质量第一段和最后一段,但足以保证意思不被修改。
  2.2 拼音转换
  优采云
采集器可以为新文章自动生成新摘要,数据处理可以选择“自动转拼音”,拼音显示部分可以提高一定的原创性。
  
  2.3 内容翻译
  您可以将从英文网站或文献中采集
的文章翻译成中文或英文,让您的文章绝对原创。在优采云
采集器V9中,内置了数据转换功能,默认为中译英。
  2.4 段落重新排序
  对于方法类文章,改变原文的结构和段落顺序对原文的意思影响不大,也可以使文章流畅。但是这个方法还是不推荐,因为对于采集
来说可能效果不是很好。
  大家在使用网站采集软件抓取数据时,可以试试上面的伪原创方法。如果你应用得好,加入有价值的观点,你可以改进一篇文章。如果只是改一段话,改几个字,是加不了什么新东西的。,还是没有什么价值,所以我们还是支持和鼓励有脑洞的伪原创。 查看全部

  汇总:关键词搜索查找软件-批量关键词搜索查询导出工具免费
  关键词 搜索查找器,什么是 关键词 搜索查找器。关键词搜索工具就是搜索大量有流量的关键词,方便我们做排名。或者从媒体中选择一个主题。今天我想和大家分享一个免费的关键词搜索工具。免费的一键式批量搜索工具。自动查找最新流量关键词。详细参考图(支持批量关键词搜索搜索,支持文章自动采集,视频自动采集,图片自动采集,批量内容伪原创等)
  网站关键词优化是网站优化过程中非常重要的一步。网站关键词排名优化做好后,网站会在搜索引擎搜索结果页面快速展示给用户,达到增加网站流量、访问量和用户转化率。
  网站关键词优化难度的判断有几种方式,如:关键词的搜索索引、百度竞价后台的关键词策划师、关键词的类型、网站优化水平等。
  确定网站 关键词 优化的轻松级别之一:关键词 的搜索索引
  所谓关键词搜索指数可以从百度指数、360指数等中查看选择。关键词指数越高,关键词的优化难度就越大,反之亦然。
  
  查看关键词索引的平台不一定包括所有关键词。如果不收录
,则不会显示索引数据。购买后才能看到关键词的索引。
  确定网站关键词优化难度二:招标后台的关键词策划师
  在关键词 planner中,不仅可以展开相关的关键词,还可以分析关键词的相关索引。关键词规划器中的指标可以从这几点得出 分析:关键词显示原因,关键词整体日均搜索量,移动端日均搜索量,竞争激烈,referral bid(如果单词更改为出价),等等。
  确定网站 关键词 优化级别 3 的难度:关键词 的多样性
  所谓关键词类型,大致分为这四类:品牌词、产品词、转化词、流量词。这四类词的搜索优化难度越来越大。在选择关键词的类型时,需要从这四个词中进行选择,选择最有利于优化和用户搜索习惯的词。
  
  关于官网优化,如今的SEO优化已经成为很多企业网络营销推广的基本手段。除了为平台带来充沛的流量,也让更多的用户了解品牌和产品。它确实很受现代公司和企业的欢迎。告别。但是对于一些电商来说,他们会更看重这种推广方式的转化率。想要进一步提升效果,这些优化技巧还得自己把控。下面小编就给大家介绍一下如何优化官网提升效果?
  说到SEO优化技巧,不得不说的就是优化的频率和数量。由于优化的目的是提高关键词的排名,所以优化的时间点比较讲究。这个需要根据用户的搜索习惯来设置时间。例如,搜索时间是根据用户的正常工作时间来设置的,午餐和下班的时间可能会比较多。
  因此,需要提高这些节点的更新频率,集中精力提升关键词的排名,可以给商家带来更大的曝光度,从而吸引更大的流量,从而拥有更大的收益。是时候完成转换了。此外,写关键词软文还有一些要求,比如对原创性的要求,可以让平台给到更多的推荐,在一定程度上帮助提升排名。
  还有关键词优化的提升技巧。不仅需要熟悉网络平台的推广规则,还需要在标题上给予一定的引导,让用户产生点击进入观看的欲望。这样吸纳之后,后期准备的软文发布就会起到营销效果。所以在一般的关键词搜索中,SEO优化其实是一个综合的过程。
  以上是51小鱼网整理发布的用户投稿,希望对大家有所帮助!
  教程:使用网站采集软件必备伪原创秘笈
  这里的好文章是最好的原创文章,来源可以是博客、英文网站、周刊等原创性强的渠道。
  伪原创第二步:批量修改。(如果你使用的是优采云
Collector V9旗舰版,可以直接安装优采云
collector【伪原创插件下载】.types的伪原创插件。)
  1.标题一定要修改
  修改标题的重要性不用我强调,但需要强调的是,标题不要因为修改过多而失去点击价值或与文章内容不一致。比如可以把愚人节改成好玩的愚人节而不是节日。这可以在优采云
采集器数据处理中的同义词替换、参数组合等功能中实现。这取决于您喜欢使用哪一种。文本也可以替换同义词。
  2.修改文字
  
  修改文本的方法真的是多种多样,只要掌握好,就可以游刃有余了。我们来看看具体方法:
  2.1 修改开头和结尾
  搜索引擎在抓取文章时,首页主要看标题和文章的首末段。因此,更改第一段和最后一段的内容非常重要。在第一段和最后一段,可以选择优采云
Collector V9中的“随机插入”,插入有价值的关键词和关键句,或者使用“内容加后缀”等方式,可以提高质量第一段和最后一段,但足以保证意思不被修改。
  2.2 拼音转换
  优采云
采集器可以为新文章自动生成新摘要,数据处理可以选择“自动转拼音”,拼音显示部分可以提高一定的原创性。
  
  2.3 内容翻译
  您可以将从英文网站或文献中采集
的文章翻译成中文或英文,让您的文章绝对原创。在优采云
采集器V9中,内置了数据转换功能,默认为中译英。
  2.4 段落重新排序
  对于方法类文章,改变原文的结构和段落顺序对原文的意思影响不大,也可以使文章流畅。但是这个方法还是不推荐,因为对于采集
来说可能效果不是很好。
  大家在使用网站采集软件抓取数据时,可以试试上面的伪原创方法。如果你应用得好,加入有价值的观点,你可以改进一篇文章。如果只是改一段话,改几个字,是加不了什么新东西的。,还是没有什么价值,所以我们还是支持和鼓励有脑洞的伪原创。

测评:文章句子采集效率提高50%,美丽说a5站长网-唯一自营商城

采集交流优采云 发表了文章 • 0 个评论 • 320 次浏览 • 2022-11-23 11:34 • 来自相关话题

  测评:文章句子采集效率提高50%,美丽说a5站长网-唯一自营商城
  文章句子采集软件可以在百度知道的文章里找各种人物动作描述。类似你可以把各种社交网站里的,写各种故事的文章都采集下来。理解了人物的行为,就有了脑图画。
  百度问答真是一个好产品,没有比它更好的社区了。找两句最典型的关键词,在贴吧发一个帖子。将你感兴趣的关键词收集起来,并一个个增加到采集列表里。将你感兴趣的关键词每天发十次,尽量找到高频词语。同样的方法运用在知乎和公众号领域。并且一定要采集到该领域的高频关键词,并且加上标注。发出去后随机组织内容,以下分享比较多的篇幅:我的时间有限,问答只有十几二十条左右,今天就分享到这里。以上,其他人感兴趣再更新。
  
  采集效率提高50%,采集长尾关键词比较好,
  我的seo过程中关注seo网站,像a5站长网、七度网、爱站这些网站都是不错的学习站,长尾关键词也是比较好的选择,能够发现很多潜在用户。具体教程:美丽说a5站长网-唯一自营商城、唯一自营站、唯一自营商城美丽说a5站长网注册地址:,
  
  这些问题,其实可以通过一些工具来完成。通过思维导图来帮助自己记忆,这样会事半功倍,可以从三个方面来记忆:1,为什么要采集?2,为什么采集多的?3,下采集到的文章该怎么排名?以上三个问题,只是引子,最终目的是:我需要的是清晰的业务线的数据,如果有价值可以用来做数据分析。方法一,抓取任意网站中长尾关键词,譬如说有大量的在线产品信息,我们可以分析网站流量,那么,我需要的是:图片类信息,产品信息,按钮信息。
  其中,产品信息对应很多类型,不同的用户在不同的网站寻找产品信息。比如,平安车险理赔,保险推销,二手车买卖,美容养生之类的信息。这些文章同类的下采集量多,一次性采集成千上万篇,出来后再按需采集,精简,然后做,同类信息一起,结合内容进行融合。方法二,抓取长尾词。这就是小众行业为什么容易发展,因为用户太少,大部分用户用不到(权重高的词),有价值的信息可以进行输出。
  方法三,采集文章标题。这个方法方法很简单,就是采集在各种网站中,一篇或者一段文章中关键词数量多,每一句或者每一个词语,我们用“/”代替。其他也可以换成单独词语。最好,最直接的就是采集,收集大量好文章,然后,再用excel表格进行统计分析。采集长尾词我觉得效率还是非常高的,从我自己来看,我能够找到大量长尾词,内容都和我内容有关,属于好内容。当然,一开始肯定会有痛苦,因为你要。 查看全部

  测评:文章句子采集效率提高50%,美丽说a5站长网-唯一自营商城
  文章句子采集软件可以在百度知道的文章里找各种人物动作描述。类似你可以把各种社交网站里的,写各种故事的文章都采集下来。理解了人物的行为,就有了脑图画。
  百度问答真是一个好产品,没有比它更好的社区了。找两句最典型的关键词,在贴吧发一个帖子。将你感兴趣的关键词收集起来,并一个个增加到采集列表里。将你感兴趣的关键词每天发十次,尽量找到高频词语。同样的方法运用在知乎和公众号领域。并且一定要采集到该领域的高频关键词,并且加上标注。发出去后随机组织内容,以下分享比较多的篇幅:我的时间有限,问答只有十几二十条左右,今天就分享到这里。以上,其他人感兴趣再更新。
  
  采集效率提高50%,采集长尾关键词比较好,
  我的seo过程中关注seo网站,像a5站长网、七度网、爱站这些网站都是不错的学习站,长尾关键词也是比较好的选择,能够发现很多潜在用户。具体教程:美丽说a5站长网-唯一自营商城、唯一自营站、唯一自营商城美丽说a5站长网注册地址:,
  
  这些问题,其实可以通过一些工具来完成。通过思维导图来帮助自己记忆,这样会事半功倍,可以从三个方面来记忆:1,为什么要采集?2,为什么采集多的?3,下采集到的文章该怎么排名?以上三个问题,只是引子,最终目的是:我需要的是清晰的业务线的数据,如果有价值可以用来做数据分析。方法一,抓取任意网站中长尾关键词,譬如说有大量的在线产品信息,我们可以分析网站流量,那么,我需要的是:图片类信息,产品信息,按钮信息。
  其中,产品信息对应很多类型,不同的用户在不同的网站寻找产品信息。比如,平安车险理赔,保险推销,二手车买卖,美容养生之类的信息。这些文章同类的下采集量多,一次性采集成千上万篇,出来后再按需采集,精简,然后做,同类信息一起,结合内容进行融合。方法二,抓取长尾词。这就是小众行业为什么容易发展,因为用户太少,大部分用户用不到(权重高的词),有价值的信息可以进行输出。
  方法三,采集文章标题。这个方法方法很简单,就是采集在各种网站中,一篇或者一段文章中关键词数量多,每一句或者每一个词语,我们用“/”代替。其他也可以换成单独词语。最好,最直接的就是采集,收集大量好文章,然后,再用excel表格进行统计分析。采集长尾词我觉得效率还是非常高的,从我自己来看,我能够找到大量长尾词,内容都和我内容有关,属于好内容。当然,一开始肯定会有痛苦,因为你要。

教程:文章句子采集软件:采集源文件链接(https)/git>

采集交流优采云 发表了文章 • 0 个评论 • 115 次浏览 • 2022-11-23 00:19 • 来自相关话题

  教程:文章句子采集软件:采集源文件链接(https)/git>
  文章句子采集软件:
  1、采集源文件链接(https)//git>gitclonecdpicture
  2、使用迅雷下载采集picture
  3、ps处理
  4、保存为pdfpdf
  5、保存到印象笔记中备用
  
  1.先去ieeedoc论文中找到“aaai2014”标题2.中文论文都比较长,按照超链接链接规则的第一种方法读取(图片)3.读取后将字段一一对应pdf文件中的论文标题,
  去了解什么是论文的摘要、简介、绪论、论文与展望、引言、前言等,自己琢磨怎么写摘要、简介、绪论。
  保存到印象笔记中
  你选择读取,
  中文论文太长,采集不了,可以试试百度文库里面的英文数据。
  找一个程序员服务商,比如抓取虫。找他们做采集服务。
  
  联系freecodecamp吧~
  知乎不支持外链链接服务,这个方法不是很适用于中文字段,可以用第三方工具进行文件读取,有些是可以自定义文件名的,
  gitindexhttps-pipedfastclip2.x
  我试了下ieeedoc,pdf,
  使用网易公开课
  不知道这个够不够用,
  1.安装node.js2.修改code.js,修改为index.js,安装成功后直接把png文件类型的变量post到code.js中,post进来的是code.js文件中的pdf链接地址, 查看全部

  教程:文章句子采集软件:采集源文件链接(https)/git>
  文章句子采集软件
  1、采集源文件链接(https)//git>gitclonecdpicture
  2、使用迅雷下载采集picture
  3、ps处理
  4、保存为pdfpdf
  5、保存到印象笔记中备用
  
  1.先去ieeedoc论文中找到“aaai2014”标题2.中文论文都比较长,按照超链接链接规则的第一种方法读取(图片)3.读取后将字段一一对应pdf文件中的论文标题,
  去了解什么是论文的摘要、简介、绪论、论文与展望、引言、前言等,自己琢磨怎么写摘要、简介、绪论。
  保存到印象笔记中
  你选择读取,
  中文论文太长,采集不了,可以试试百度文库里面的英文数据。
  找一个程序员服务商,比如抓取虫。找他们做采集服务。
  
  联系freecodecamp吧~
  知乎不支持外链链接服务,这个方法不是很适用于中文字段,可以用第三方工具进行文件读取,有些是可以自定义文件名的,
  gitindexhttps-pipedfastclip2.x
  我试了下ieeedoc,pdf,
  使用网易公开课
  不知道这个够不够用,
  1.安装node.js2.修改code.js,修改为index.js,安装成功后直接把png文件类型的变量post到code.js中,post进来的是code.js文件中的pdf链接地址,

官方客服QQ群

微信人工客服

QQ人工客服


线