解决方案:助力句子变换:35W抽象、43W同义、13W简称三大知识库对外开源

优采云 发布时间: 2022-12-20 13:27

  解决方案:助力句子变换:35W抽象、43W同义、13W简称三大知识库对外开源

  句子变换是指在给定的汉语句子的基础上,借助一定的语言处理方法,扩展出一组具有一定数据量的汉语句子。 是一个从1到N的过程)、抽取(数据回标)、推荐生成(关联引导)等工业级应用任务。

  我们发现,在处理上述任务的过程中,都是以句子中的词为基本单位来实现句子级的操作,即词的替换和删除、词序和组合规则的重组等。是基本手段。 .

  有效地组织和形式化词的运算基础是一项重要的任务。 在实际开发过程中,我们进一步将这项工作的结果分为“抽象知识”、“同义知识”和“缩写知识”。 Knowledge”三类知识库,并将部分数据集开放给OpenKG,供大家下载使用。

  本期内容围绕开放句变换,介绍了常见句变换操作的典型应用场景,数据视界开放的三大知识三元组概览,以及它们在实际句变换中所能发挥的作用。

  一、句子转换操作的典型应用场景

  句子转换用于典型的NLP传统任务,如搜索(查询扩展)、分类(样本扩展)、抽取(数据回标)、推荐和生成(关联引导)。 具体体现在三个方面:基于句子标准化的舆情文本聚合、基于句子扩展的信息采集与推荐、基于句子变换的数据扩展与数据回标。

  1. 基于句子标准化的舆情文本聚合

  文本去重是舆情分析中的一项重要任务。 解决方案包括基于标题的去重、基于全文的去重、基于文档摘要的去重、基于标题和文档元数据的去重等。

  处理速度和计算复杂度是去重过程中需要考虑的两个重要因素。 尤其是在项目工期紧、需要进行*敏*感*词*文本去重的情况下,对特定文本的代表性内容进行标准化和规范化成为一项重要的工作。 方法。

  图 1 - 文本去重系统中的指纹架构图

  内容的标准化和规范化是指为一个源内容生成唯一的md5指纹,指纹的价值取决于标准的结果。 一般来说,常规操作包括对内容进行停用词处理、短句统一重排等,并在此基础上进一步规范词义映射、句子缩写、句子重复、句子翻译等。 此外,还加入了一些其他信息,如文本的时间信息、作者信息等,用于标准化融合。

  2. 基于句子扩展的信息采集与推荐

  定点搜索和定点采集也是舆情处理过程中的两个重要手段。 定点搜索是指扩展关键词或由关键词组成的query,是搜索和采集的前置操作:比如在监控“营业收入下降”的节点时,考虑到目标文档中可能存在的不一致,需要Expand形成“收入下降”“收入下降”“营业收入下降”等多个关键词。

  图2——基于同义知识库的句子扩展

  基于句子扩展的关联推荐也是一个重要的应用。 通过识别原给定query中的关键信息,利用外部知识库,替换关键信息集中的元素,如获取抽象关系实体,替换同层次(属于同一抽象类)的实体,得到推荐“美元贬值”等结果扩大为“*敏*感*词*贬值”和“本币贬值”。

  3. 基于句子变换的数据扩充和数据回标

  无论是分类任务还是抽取任务,都存在样本不足和训练数据不足的问题。 为此,数据扩展和数据回标是两种主要方法。 其中,数据扩充主要包括词替换、回译等几种方法。

  单词替换是指在不改变句子意思的情况下,替换文中出现的单词。 实现方式包括基于同义词库的替换、基于词嵌入的替换、基于TF-IDF的词替换等。基于TF-IDF的词替换也常用于识别给定句子中需要替换的词成分; 带有反向翻译的数据扩充也是一种解决方案,其中使用机器翻译来解释文本,使用这个新句子作为原创文本的扩充结果。

  

  图3——基于远程监管思想的数据回溯

  远程监督思想下基于现有知识库的数据反标注是获取*敏*感*词*标注数据的重要方法。 它需要在给定知识三元组的条件下,在非结构化文本中进行回溯检查,假设两个实体句子可能存在实体关系。 但是这个操作在实际处理过程中会产生噪音。 因此,为了扩大候选召回,可以借助外部知识库对两个实体进行扩展,同时引入实体之间的关系标记词和标记词的扩展词为提高准确率的附加条件。

  2. 句子转换中的开放知识三元组

  准确、*敏*感*词*地记录词与词之间的同义、抽象、同义关系的知识三元组是完成上述三个应用任务的坚实基础。 在OpenKG中,我们开源了一些积累的中文摘要知识、中文同义词知识、中文缩写三元组数据集,供大家下载使用。 下面是数据集的介绍:

  1. 35万中文抽象知识三元组

  1)地址:

  图4-35万中文摘要知识三元组详情截图

  2)样品及介绍

  该数据集开放了346048个中文摘要知识三元组的优质知识库,来自公网文本摘要三元组挖掘、人工整理等多种渠道,涵盖商品、行业、行为、特征、名义实体等诸多方面类型。 示例如下图所示:

  图5-35万中文抽象知识实例截图

  该知识库可用于查询扩展、句子改写、句子相似度计算、句子推荐等多种应用场景。

  2. 43万中文同义知识三元组

  1)地址:

  数据集开放了43万个中文同义词知识三元组,来自公开数据文本同义词挖掘、词典整理、人工纠错等多个渠道。 示例如下图所示:

  图7- 43万中文同义词知识示例截图

  该知识库可用于同义词扩展相关的应用,如搜索扩展查询、句子相似度计算、数据增强等。

  3. 130,000个中文缩写知识三元组

  

  地址:

  图8-13 中文缩写知识详情截图

  2)介绍和样品

  该数据集通过提取公网文本缩写、人工整理等多种渠道,发布了136081个中文缩写知识三元组,涉及大学、产品名称、公司缩写等多个领域。 示例如下图所示:

  图9-13 中文缩写知识示例截图

  中文缩略语知识库可用于缩略语抽取评估、实体链接、搜索查询扩展、句子改写等多种场景。

  三、总结

  句子级的操作是以句子中的词为基本单位来实现的,即词的替换、删除、词序和组合规则重组等操作是基本手段。 有效地组织和形式化词的运算基础是一项重要的任务。 我们进一步将这种形式化的结果分为三大类:“抽象知识”、“同义知识”和“缩略知识”。 类知识库,并向 OpenKG 开放一些数据集:

  346,048个中文摘要知识三元组知识库,可用于查询扩展、句子改写、句子相似度计算、句子推荐等多种应用场景;

  43万中文同义词知识三元组,可用于同义词扩展相关的应用,如搜索扩展查询、句子相似度计算、数据增强等场景;

  136081个中文缩写知识三元组,涉及大学、产品名称、公司简称等领域,可用于缩写抽取评估、实体链接、搜索查询扩展、句子改写等多个场景。

  底层知识三元组可以在句子转换中发挥重要作用,具体体现在基于句子标准化的舆情文本聚合、句子扩展的信息采集和推荐、基于句子转换的数据扩展和数据回标等。

  我们认为,底层知识库是自然语言处理的坚实基础,能够对业界各种算法的落地起到基础性和实践性的支撑作用。

  参考链接

  1、

  2、

  3.

  4.

  5.

  解决方案:梅州小程序商城制作开发网络推广SEO优化公司,网络推广排名

  系统开发

  网站制作 | 网络推广

  小程序商城系统| 微商城制作

  电话:(微信)

  点击一个按钮拨打电话:

  微信小程序商城一年运营成本团购外卖制作网站改版企业微信商城开发网站网络营销优化微信公众号推文如何制作小程序分发系统企业官网设计企业官网建造

  

  公司主营业务:微信公众号推广开发、小程序制作、网站制作、网络关键词推广排名、APP制作开发、微信商城制作等。

  为网站选择合适的目标关键词,然后优化这些目标关键词的排名。 这个过程就是关键词优化。 我们也可以把关键词优化定义为网站关键词的排名过程。 对于长尾关键词,排名的前提是保证内容页面“被百度快速收录”,主要原因是承担快速排名的责任。 使用标签的标题属性。

  在不影响页面功能的情况下,我们可以尝试在标签中加入title属性,更有利于蜘蛛抓取信息。 直击引流推广 站内整站优化:所谓整站优化是网站搜索引擎优化(SEO)的高级应用,是一种高级的网站营销策略。 整个网站的优化服务并不是针对特定的关键词,而是以提高网站搜索引擎的友好度为核心,通过提高网站的质量,可以获得更好的排名权重和搜索流量。 为避免关键词堆积,这里主要指新闻源站软件发布,通常是根据不同站点的价格来计算。 如果能利用关键字相关的“软文”来实现首页SEO,那么这方面的收益是相当可观的。

  这个决定也会影响你的 SEO 策略。 我强调转型或品牌强化。 大多数实际案例告诉我们,在弱品牌的情况下,基于网络平台的*敏*感*词*广告转化率是比较低的,往往是你力所不及的。

  将百度蜘蛛引入目标站点,其实就是做百度快搜的过程,通常是以下形式: 锚链接是否与关键词相关? SEO不变 外部入口 很多SEO人员,在做长尾关键词排名的时候,经常会问一个问题,那就是我可以使用:长尾关键词排名系统吗? 需要明确的是:长尾关键词的排名是为了获得点击,所以尽量避免长尾内容的贡献。 在回答这个问题之前,我们先简单了解一下长尾关键词排名系统。 类似于市场上推出的所谓云推广。 它使用蜘蛛池来引导爬取这些需要排名的长尾页面。 总的原则是使用大量的网站。 操作。

  关键词优化只是对一小部分网站进行修改和优化。 优化效果无法一直保持,存在一定的风险。 只能优化少量关键词,不利于效果的转化。 百度相关关键词及常见问题 理论上应该给核心关键词加上反向链接。 为了避免链接分离和简化,我们通常会在相关关键词的锚文本中添加一些合理的链接,使链接结构看起来自然而不做作。

  第一种情况,自加权重慢,但广告单价高,流量精准有价值。 使用新闻台制作所谓的“新闻投稿”已经存在多年。 通常结算费用是按50元300条新闻链计算的。 一般情况下是一系列文章。 网站的结构是扁平树,目录结构不宜太深。 每个页面从主页点击不超过 3 次,这对于搜索引擎来说太深了。

  

  关键词优化和整站优化效果 此前,很多专家博主强调利用社交媒体跑长尾SEO,就是通过社交媒体发布长尾内容。 这其实是一个错误的想法,主要原因是:大型网站转发。 搜索引擎优化的变化关键词优化只能保证排名,而排名必须靠点击才能获得流量和访客,而访客是转化的基础。 在图像上使用 alt 属性。

  该属性可以在图片无法加载时在页面显示相关的文字信息,效果相同。 虽然我们可以利用长尾关键词对站内流量入口进行排名,但是对于蜘蛛来说,我们需要在站外建立少量的优质链接,引导蜘蛛继续爬行。 长尾关键词排名常见问题 权威网站一旦转发了长尾内容,自己的网站就很难排在大网站的前列。 至少现阶段,即使有原创链接,作用也有限。

  提高页面加载速度。 可以用css来解决不能使用背景图片的问题,也可以尝试压缩背景图片的大小,可以在一张图片上放几个图标,使用CSSsprite,利用背景位置找到想要的图片位置. 减少 HTTP 请求次数,提高网页加载速度。

  提高内容相关性随着雄跑的引入,SEO技术的排名方式正在被削弱。 也就是说,过去基于超链接技术的搜索排名将被打破,这使得新的SEO更加注重内容质量和社会影响力。 集中网站权重。

  由于蜘蛛给每个页面分配的权重是确定的,并且这些权重会平均分配给每个链接,为了集中网站的权重,我们可以使用“rel=nofollow”属性,告诉蜘蛛分配权重到其他链接而不是爬取目标页面是没有必要的。 关键词优化和全站优化的转化效果 第二种情况,自己的网站获得了快速的流量,但是广告单价低,泛滥,转化率不高。 主要区别:使用关键字挖掘工具进行查询。

  当你试图写文章关于热门关键词的文章时,我们通常会检查相关关键词的数量。 通过对多个相关关键词进行分类,合理分布在段落内容中,可以增加内容的广度,从而提高核心关键词和文章的权威性。 “内容为王”仍然发挥着非常重要的作用,尤其是在新搜索时代,百度对优质内容的支持不断加深,基于区块链技术对原创内容进行识别和保护,让优质内容能够获得合理陈列。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线