优化的解决方案:管正雄:基于预训练模型、智能运维的QA生成算法落地
优采云 发布时间: 2022-10-14 03:38优化的解决方案:管正雄:基于预训练模型、智能运维的QA生成算法落地
演讲嘉宾:阿里云高级算法工程师关正雄
制作平台:DataFunTalk
导读:面对大量的用户问题,有限的支持人员如何高效地为用户服务?智能QA生成模型给业务带来的效率提升,以及如何高效构建算法服务为业务提供支撑。本文将介绍:阿里云计算平台大数据产品问答场景;基于Dharma Academy AliceMind预训练模型的智能QA生成算法的核心能力及其背后的原理;如何通过智能运维服务平台输出算法能力,提供业务服务一站式服务,优化问答体验。主要分为以下几个部分:
--
01 背景介绍
一、计算平台产品介绍
阿里云计算平台的产品和形式多种多样,主要包括数据计算与分析、数据开发与治理、机器学习三大模块,包括阿里云自研的MaxCompute、Hologres等产品,如以及 Flink 等开源产品,阿里云 Elasticsearch 等提供资源和托管服务。
2、售后技术支持与痛点
用户购买阿里云产品后,如果在使用过程中遇到问题,可以通过以下方式寻求解决方案,但同时也存在一些痛点:
一个。机器人问答:机器人语料库覆盖范围有限。
湾。文档查询:内容过多,搜索效率低。
C。社区问答:专注于高频问题,中长尾问题较少。
d。工单:问题无法实时解答。
3. 解决方案:漏斗问答支持模型
一个。产品:产品诊断等商务服务。
湾。自助解决:自助查询文档和社区。
C。智能服务:智能机器人问答,分为用户提问过程和知识补充过程,实现知识预定位,将多源知识转化为机器人语料。
d。人工协助:转移到人工对话和工单。
接下来,我们将专注于智能服务,将知识预先定位到智能机器人自助问答,并通过QA生成框架快速补充语料库。
--
02 QA生成框架
一、框架介绍
上图是QA生成框架的概览。智能文档拆解模块将MarkDown文档、Html文档、PDF文档、工单等不同文档拆解成知识点,生成知识点列表。知识点列表是基于 AliceMind 模型系统中的 PALM 模型生成的。这些知识点生成QA,最终得到一个QA列表,从而实现多源知识到QA语料的一站式转换。
2.文件智能拆解
一个。统一的协议分析:不同的文档有不同的协议,Office文档、PDF文档、扫描文档、语雀文档等协议在一个统一的文档中表达。
湾。文档树生成:将文档的第一、二、三标题等结构生成树状结构,将文档内容整理成树状知识点汇总。
C。知识点提取:基于自适应划分或知识点评分,将知识树拆解成具体的知识点。
下图是HTML文档反汇编和PDF文档反汇编的示例:
3.爱丽丝心
AliceMind 是一个领先的、系统的深度语言模型系统。本文将重点介绍 AliceMind 中的生成语言模型 (PALM) 如何生成 QA。
一个。AliceMind的商业价值和应用领域举例
湾。基于 PALM 的 QA 生成模型
进一步阅读:PALM:预训练用于上下文条件生成的自动编码和自回归语言模型。
BinBi, Chenliang Li, Chen Wu, Ming Yan, Wei Wang, Songfang Huang, Fei Huang, and Luo Si. EMNLP 2020
4.文档转换为QA示例
一个。文档:
湾。质量保证对:
问:Dataworks的工作空间是什么
答:工作区是 Dataworks 管理任务,成员...
Q:DataWorks的解决方案有什么优势
A:一个解决方案可以包括多个业务流程,解决方案...
--
03 QA生成在业务场景中的应用
1. ABM运维管控平台
ABM运维管控平台为飞天大数据管理器(ABM,Apsara Big Data Manager)。研发方提供企业级运维平台。
2. ABM智能算法平台
ABM智能算法平台为算法提供从开发-构建-部署的全生命周期支持。
如图,算法开发可以添加算法配置和注册算法检测器。SRE用户或者运维可以创建场景生成检测实例。这个检测实例是QA生成算法的一个应用实例,然后算法调度框架调度,最后交给用户。这一系列流程可以通过智能场景操作面板进行全生命周期的管理。
3.知识管理业务流程图
根据前面对QA生成框架的概述,最终生成的QA列表可能不是100%准确的,所以需要通过一些指标来评估是否符合预期。同时,经过我们专家的评审,符合预期的QA会被注入到Robot语料库、FAQ页面、知识图谱等中,这就是整体的业务流程。
4.QA生成产品界面
一个。创建一个新的挖矿任务
湾。导出以生成 QA 语料库
--
04 总结与规划
1. 降水
提取对话、论坛、工单等不同形式,以某种方式将有效知识存入统一的知识库。
关键词:多源数据,格式化。
规划:增加更多数据源,进一步提高格式化方法的能力。
2、消费
通过人机交互界面,精准推送知识,解决用户内心困惑。
关键词:搜索和推荐、个性化、评估和反馈。
规划:通过深度模型提高搜索和推荐能力。
3. 流动
基于流程,链接各个角色之间的知识积累和消费,让知识流动,实现迭代优化。
关键词:机制,人机协作。
规划:进一步优化流程,在流程符合习惯的同时,进一步降低人工成本。
--
05 精彩问答
Q:如果这个QA生成方案用在其他领域,迁移成本会不会高?有哪些预防措施?
答:不高。我们在构建下游任务时需要一些数据。这个数量不需要很大。目前,我们的应用场景主要在电力和合同领域。大约几百个数据可能在这个领域有很好的表现。需要注意的是,训练集的质量比较高,更能体现这个领域的属性。
Q:这样构建的问答对在风格上会不会比较简单?
- 答:这与产品有关。一个问题就是一个知识点和对应这个知识点的答案。在这种情况下,QA 还是比较容易使用的。
问:您如何衡量问题生成的质量?
答:这有两个主要部分。第一部分,从模型层面会有一个分数,然后会有一些评价指标来衡量,这部分在论文中有明确的解释;第二部分是人工评估,需要领域内的专家来完成,比如看这个QA是不是符合用户提问的习惯?
Q:是否支持多轮问答?
答:支持。这取决于您的训练集。如果训练集有多轮,可以提取多轮对话的问答。然而,多轮对话问答的训练集比文档生成问题的训练集更难构建。
成熟的解决方案:海洋CMS插件-内置接口的海洋CMS插件
如何使用Oceancms插件对网站快速收录和关键词进行排名?我们应该如何管理和维护我们的网站?今天给大家分享一个海洋cms插件工具,可以批量管理网站。不管你有成百上千个不同的海洋cms网站还是其他网站都可以统一管理。一个人维护数百个 网站文章 更新也不是问题。
1、Oceancms插件发布
1. 批量监控管理不同的cms网站数据(你的网站是Empire, Yiyou, ZBLOG, 织梦, WP, Yunyoucms, Renrenzhan cms、Oceancms、Small Cyclone、站群、PB、Apple、Mito、搜外等各大cms,可批量同时管理和发布工具)
2.设置批量发布数量(可以设置发布间隔/每天总发布数量)
3.可以设置不同的关键词文章发布不同的栏目
4、伪原创保留字(当文章原创未被伪原创使用时设置核心字)
5、直接监控已经发布、即将发布的软件,是否是伪原创、发布状态、网站、程序、发布时间等。
6、每日蜘蛛、收录、网站权重可通过软件直接查看
2.Oceancms插件批量发布设置——涵盖SEO功能
这个Oceancms还配备了很多SEO功能,不仅可以通过Oceancms插件实现采集伪原创发布,还具备很多SEO功能。可以提高页面的关键词密度和原创,增加用户体验,实现优质内容。
1.标题前缀和后缀设置(标题更好区分收录)
2.内容关键词插入(合理增加关键词的密度)
3.随机图片插入(文章如果没有图片可以随机插入相关图片)
4、搜索引擎推送(文章发布成功后主动向搜索引擎推送文章,保证新链接能被搜索引擎及时搜索到收录)
5. 随机点赞-随机阅读-随机作者(增加页面度原创)
6.内容与标题一致(使内容与标题一致)
7、自动内链(在执行发布任务时自动生成文章内容中的内链,有利于引导页面蜘蛛抓取,提高页面权重)
8、定期发布(定期发布网站内容可以让搜索引擎养成定期抓取网页的习惯,从而提升网站的收录)
3. 海洋cms插件采集
1. 通过海洋cms填充内容,根据关键词采集文章。(Oceancms 插件还配置了关键词采集 功能和无关词屏蔽功能)
2.自动过滤其他网站促销信息/支持其他网站信息替换
3. 支持多个采集来源采集(涵盖所有行业新闻来源,海量内容库和每天都有新内容,采集新内容)
4.支持图片本地化或存储到其他平台
5、全自动批量挂机采集伪原创并自动发布推送到搜索引擎
4. 海洋cms插件采集
1.查看采集平台
2. 处理 采集
3. 已经采集
4. 采集 内容查看
5.查看采集后的内容
前段时间相信很多seoer都听过“内容为王,外链为王”的说法,但是随着外链的作用越来越小,很多seoer更加关注网站内链, 网站内链是通过网站内链投票的形式。可以使用内链聚合某个页面的权重来增加关键词和页面的权重,也可以使用内链来增加关键词和页面的权重。链式布局增加全站优质的内链框架,那么博主就为大家介绍网站的内链如何做好?如何在 Ocean cms 插件的帮助下优化 网站。
网站内链对于整个网站的意义是什么?
网站内部链接可以帮助蜘蛛爬行。在我看来,网站首页对于整个网站的权重一般都比较高。同样,蜘蛛的数量也应该是比较高的页面。完善的内链可以让蜘蛛爬到网站的页面更深,蜘蛛爬到的页面也会帮助网站的收录。
之前一直告诉大家网站收录是排名网站的依据,这里先介绍一下页面收录的流程:网站页面存在且可以正常打开→蜘蛛爬取页面→表单索引→发布快照。
如何做好网站内链布局?
首先要明确网站收录,大量内页必须由收录添加到首页,个别站长操作网站获取全站流量和排名需要使用扩词工具获取长尾词,将获取的长尾词排列在网站内容页面。在这种情况下,需要完成网站内链的构建,才能得到网站页面被爬取和收录,我们需要做什么呢?
1、网站首页的权重高于内页。在 网站 主页上,需要布置一些新闻或 文章 模块,以帮助蜘蛛爬行。
2、网站内容页和栏目页需要保持到首页的直接链接,可以通过面包屑导航解决,例如:首页-栏目页-内容页。
3.做好网站地图制作。网站 地图分为两种格式:xml 和 html。建议制作xml图,提交给站长平台。
4、在网站的内容页面的编写中,文章中提到的内容可以链接到本站的产品或栏目页面,在完善的前提下还加入了蜘蛛爬取用户体验页面。
网站内链的布局是为了提升用户体验和操作习惯,同时也增加了蜘蛛的爬取。不同的网站在进行网站的内链布局时或多或少会有一些差异。文末要告诉大家,网站的内部链式布局,不仅仅是为了提高爬虫的爬取能力,现在搜索引擎越来越重视用户体验,我们需要做更好的工作网站内部链接,改善用户需求和操作行为。
很多时候在网站SEO的过程中,由于一些不当操作,网站被搜索引擎惩罚,导致网站的排名和网站的实力下降. 有经验的优化者或许一眼就能看出网站被降级的原因,并及时做出调整。但是对于新手优化器来说,可能会有点困难。那么今天,博主就来和大家聊聊如何找到网站被降级的原因。
如何找出 网站 被降级的原因?
1. 网站服务器稳定吗?
网站服务器的稳定性是决定网站能否正常运行的重要因素。一些网络推广公司为了省钱,选择使用不稳定且便宜的服务器。不稳定,打不开,影响蜘蛛正常访问,从而导致网站被降级。
2.是否经常修改网站关键词,title和description
关键词、网站 的标题和描述一旦确定,就不应轻易修改。作为网站优化器,需要明确网站关键词及其发展方向。另外,关键词的布局也要掌握好。优化周期过长,效果不佳,频繁替换关键词也会被百度惩罚。
网站降级
3. 网站的内容
优质的原创内容一定会受到搜索引擎的青睐。我们不仅要更新网站内容,还要更新优质内容。再问一个不经常更新的网站。会受到搜索引擎的喜爱吗?反之,也会受到搜索引擎的惩罚。
4. 链接
友情链接对于 网站 来说非常重要。如果本站添加的链接有权删除,我们必须及时删除链接,否则,我们的网站将受到牵连。所以,一定要定期检查你的网站朋友链,保证网站可以一直保持良好的状态。
以上就是小编为大家带来的一些关于SEO优化的实用技巧。如果您需要更多SEO优化技巧,请继续关注我,每周不定期更新SEO实用技巧!