解决方案:SpiderFoot:自动化智能信息收集系统
优采云 发布时间: 2022-10-16 18:19解决方案:SpiderFoot:自动化智能信息收集系统
SpiderFoot:自动化智能信息采集系统
CSNS实验室
铸剑网络安全实验室
CSNS实验室
关注*敏*感*词*网络安全,提供优质的网络安全服务,培养网络空间安全顶尖人才,欢迎有志于各种奇思妙想和创造力的年轻人加入我们。
发表于
收录采集中
项目地址:
项目介绍:
SpiderFoot 是一个开源的智能自动化工具。其目的是自动化和智能地采集有关给定目标的所有信息。如目标IP地址、域名、主机名或子网、敏感信息等。
SpiderFoot 用于渗透测试,即作为黑盒渗透测试的一部分,用于采集有关目标或防御弱点等信息。
蜘蛛脚特点:
*铸剑网络安全实验室 CSNS-Lab
行业解决方案:58同城智能客服系统“帮帮”技术揭秘
今天的分享将从以下几个方面入手:首先介绍智能客服的背景,然后介绍整体的技术架构、算法和工程架构,最后做一个总结。主要目的是通过本次分享让大家了解智能客服系统中的技术全貌,希望对大家有所启发。
01
智能客服的背景
传统客服工作模式包括客服网站和电话客服:
(1)公司为用户提供客服网站,用户通过网站提交问题反馈,反馈信息通过系统展示给客服人员,客服人员将每天一一解决这些问题。通过信件或短信回复用户。这种模式下,用户对客服网站的操作往往比较繁琐,解决问题的流程周期长,可能需要数小时甚至数天,用户体验较差。
(2)公司向用户提供客服电话号码,用户通过电话咨询客服。虽然这个模型简单明了,但可能存在问题描述不清晰和沟通成本高的问题。例如,客服在解决问题时往往需要用户提供额外的信息,一个电话会持续很长时间。一般一个客服每天可以完成60-80个电话,服务效率低,客服人工成本高。
大多数客户服务问题实际上是经常重复的问题。这些问题往往有标准答案,可以通过机器来解决。可以构建智能问答系统,自动回答用户的问题。当用户对答案不满意时,他们会向人工客服寻求帮助。在这种自动问答和人工客服协助的模式下,大部分客服问题由机器解决,只有少数机器无法解决的复杂问题会由人工客服解决,不仅提高了用户经验也提高了客服人员。人为的影响。
58同城的旧客服系统是通过客服网站和客服电话提供客服。我们需要重塑这个模式,建立一个新的客户服务体系。在新的客服系统下,用户所有的客服咨询都将首先经过智能客服系统“广帮”,“广帮”会自动回答用户的问题。如果用户对回答不满意,可以转人工客服。人工客服包括旧电话客服和新设计的IM(即时通讯)在线客服。IM在线客服是指通过IM聊天提供客户服务。用户可以通过聊天窗口直接与客服人员*敏*感*词*交流。客服和IM在线客服将无缝集成在同一个聊天窗口中。转人工客服时,我们会先转给IM在线客服。如果用户仍然不满意,我们将通过电话解决问题。在新的客服体系下,用户可以获得业务咨询、投诉建议、产品反馈、闲聊、工单处理等客服服务。我们将通过电话解决问题。在新的客服体系下,用户可以获得业务咨询、投诉建议、产品反馈、闲聊、工单处理等客服服务。我们将通过电话解决问题。在新的客服体系下,用户可以获得业务咨询、投诉建议、产品反馈、闲聊、工单处理等客服服务。
这种新的客户服务模式相对于旧模式的优势在于:
(1) 用户体验好。传统的客服方式网站用户需要很长时间才能得到答案。这是因为客服人员需要手动回答在客服网站上采集的每个用户的问题。由于日常问题较多,客服人员数量有限,部分用户的问题无法立即得到解答。新模式下,用户可以通过IM聊天窗口提出问题并即时获得答案,简单高效。
(2)客户服务效率高。“广帮”可以自动回答大部分问题,人工客服只需使用IM在线客服聊天工具回答少量复杂问题。机器与人工搬运的比例约为8:2。每名IM客服人员每天可以处理约120-150个用户查询,远高于电话客服每天处理的60-80个用户查询。因此,我们会尽量让用户的查询先流向IM在线客服。复杂问题将转至电话客服。通过这种智能客服到IM在线客服到电话客服,我们可以利用有限的客服人员来处理更多的用户查询。
--
02
助力智能客服系统
“帮帮”智能客服系统是一套基于深度学习和自然语言理解技术的自动问答对话机器人。会话机器人一般分为商务咨询、任务和闲聊三种。“广帮”还支持这三个功能:
最重要的是提供业务咨询功能,帮助用户解决业务问题;其次,支持任务类型的回答,用户可以实现查询删帖原因、注销账号等任务;此外,为了丰富“帮助”的功能,它还支持小聊天功能,用户可以在聊天窗口中与机器人聊天。
“帮帮”整体技术架构如图所示,包括基础服务层、应用服务层、编辑运营层、接入层和在线客服系统。
基础服务层提供对话系统的基础技术能力。系统需要理解用户输入的句子。在这里,需要一个自然语言理解模块来执行分词、词性标注、实体识别、关键词 提取和语法分析。;同时,需要识别用户的意图,包括一般意图和商业意图。一般意向是指用户是来这里是为了业务咨询还是闲聊,业务意向是指用户是否在做业务咨询,咨询什么业务。这里将使用文本分类。识别用户意图的技术。
基础服务之上是应用服务层。该层具体实现了基于问答知识库的KB-Bot机器人、Task-Bot任务对话型机器和Chat-Bot聊天型机器人。这是“帮助”系统的三种类型。核心竞争力。编辑操作层是指支持“棒棒”算法策略迭代的编辑团队,主要完成数据标注、问答操作、数据分析和效果评估等工作。这些工作的输出会影响到基础服务层和应用服务层。基于应用服务层,我们提供通用接口服务,方便业务方接入。我们支持访问 Android、iOS 和 Web。另外,机器也不是万能的,用户还有很多复杂的问题需要手动解决。有一个在线客服系统,提供人工在线客服能力,应用服务层将与这个在线客服系统无缝对接。
“帮帮”系统的核心是提供三种能力:KB-Bot、Task-Bot和Chat-Bot。下面介绍这里使用的技术。
KB-Bot 是指基于问答知识库的会话机器人。主要实现“帮帮”最重要的能力——提供商务咨询服务。
58位用户使用帮帮主要是为了业务咨询,比如问为什么账号被锁、为什么删帖、如何购买帖顶服务等。业务咨询的回答需要根据问答知识来实现base,其中问答知识库是一个收录许多问答对的数据集。我们将问题分为标准问题和扩展问题。例如,“为什么要删除我的帖子?” 这是一个标准问题。句子表达很标准,会有标准答案。我们称之为扩展问题。比如“为什么删除我的帖子”、“告诉我为什么我删除了帖子”等等,这些都表达了相同的意思,这些问题也对应着相同的标准答案。有了问答知识库,当用户提问时,就是一个问题匹配的过程。只需要将用户输入的问题与知识库中的问题进行匹配,得到意义最相似的问题,然后将对应的答案返回给用户,这样就完成了一次问答操作。Q&A知识库的建设非常关键。在这里,将客服团队在历史中积累的问题数据进行抽象,形成标准题,然后通过结合算法和注释对标准题进行扩充,形成初步的问答知识库。生成的数据将被再次挖掘,以不断扩大知识库。只需要将用户输入的问题与知识库中的问题进行匹配,得到意义最相似的问题,然后将对应的答案返回给用户,这样就完成了一次问答操作。Q&A知识库的建设非常关键。在这里,将客服团队在历史中积累的问题数据进行抽象,形成标准题,然后通过结合算法和注释对标准题进行扩充,形成初步的问答知识库。生成的数据将被再次挖掘,以不断扩大知识库。只需要将用户输入的问题与知识库中的问题进行匹配,得到意义最相似的问题,然后将对应的答案返回给用户,这样就完成了一次问答操作。Q&A知识库的建设非常关键。在这里,将客服团队在历史中积累的问题数据进行抽象,形成标准题,然后通过结合算法和注释对标准题进行扩充,形成初步的问答知识库。生成的数据将被再次挖掘,以不断扩大知识库。Q&A知识库的建设非常关键。在这里,将客服团队在历史中积累的问题数据进行抽象,形成标准题,然后通过结合算法和注释对标准题进行扩充,形成初步的问答知识库。生成的数据将被再次挖掘,以不断扩大知识库。Q&A知识库的建设非常关键。在这里,将客服团队在历史中积累的问题数据进行抽象,形成标准题,然后通过结合算法和注释对标准题进行扩充,形成初步的问答知识库。生成的数据将被再次挖掘,以不断扩大知识库。
基于知识库的问答可以使用检索或分类模型来实现。
检索式回答的过程是:首先,处理用户输入的问题,如分词、关键词的提取、同义词扩展、句向量的计算等;然后根据处理结果在知识库中进行搜索匹配。TF-IDF或向量相似度等匹配一组问题,类似于推荐系统中的召回过程;由于我们是一个问答系统,最终直接将答案返回给用户,因此我们需要从集合中选择最相似的问题集。对于那个问题,这里会对问题集进行重新排序,例如使用规则、机器学习或深度学习模型进行排序,每个问题都会被分配一个分数,最后会选出top1,得到这个问题对应的答案将退还给用户,这样就完成了一个对话流程。在实际应用中,我们还会设置一个阈值来保证答案的准确性。如果每道题的最终得分低于阈值,头部中的几个问题会以列表的形式返回给用户,最终用户可以选择自己想要的。提出问题并获得具体答案。
这里也可以使用分类模型来实现问答。标准问题有多种扩展提问方法。每个标准问题都可以看作一个分类,通过将用户的输入映射到标准问题来完成答案。因此,问答可以看做是一个*敏*感*词*的短文本分类问题。我们使用多特征、多模型、多分类结果融合来完成短文本分类。在特征层,我们尝试使用单个字符、词、词性、词属性等多种特征,在模型层应用FastText、TextCNN和Bi。-LSTM等模型,每个模型的结果输出最终会被融合得到最终的分类结果。
Task-Bot任务型机器人在特定条件下提供服务,以满足用户明确目的,如查询天气、查询物流、预订机票等任务型场景。用户的需求一般比较复杂,通常需要机器人与用户进行多轮交互,帮助用户明确目的。我们实施了标准的多轮对话系统。首先,自然语言理解模块会识别当前输入问题的意图和槽位,然后将其输入到对话管理器中以确定接下来的回答动作,最后通过自然语言生成模块生成。答案返回给用户。
这是一个具体的应用示例。用户输入“为什么删除我的帖子”。经过自然语言理解处理后,意图识别模块将其识别为任务型服务。用户想询问删除帖子的原因。通常,问答系统会向用户进行回访,并要求用户提供帖子ID进行查询。这里我们用另一种设计来完成:首先调用发布中心接口拉取用户发布的帖子列表并展示给用户,让用户可以自主选择对应的帖子,用户点击后具体的帖子,帖子ID会传给问答系统,问答系统会调用相关接口查询帖子被删除的原因,并返回给用户。这整个过程是用户的自助查询过程。相比以往用户需要向客服人员查询自己的帖子ID,现在客服人员登录相关系统,输入帖子ID查询结果,效率要高很多。
聊天服务基于聊天语料库,并使用各种技术实现,例如模板匹配、基于检索的响应和生成对话。模板匹配使用AIML和正则表达式匹配;检索答案类似于KB-Bot中先检索再使用模型排序的方式;当模板匹配和检索答案不能给出聊天答案时,我们会使用 SeqSeq 生成对话,我们使用标准的 Seq2Seq 模型,首先将问题输入到一个双向 LSTM 编码器,然后加入 Attention 机制,最后一个单层 LSTM 用于解码得到结果输出。生成式对话往往会产生难以理解的答案,这也是行业难以解决的问题。
当用户对“广邦”给出的答案不满意时,用户会寻求人性化服务。“帮帮”支持人工在线客服无缝转接。用户只需在聊天窗口中点击一个按钮,即可连接到IM手动在线客服,实现*敏*感*词*聊天。人工客服转接成功后,人工客服会通过客服工作台中类似微信的聊天窗口与用户进行沟通。虽然前端用户的操作很简单,但其实背后还有一个复杂的在线客服系统。
在线客服系统是用户与客服人员之间的桥梁。在58业务场景下,支持多个业务部门的不同客服团队注册使用,不同客服团队可以管理自己的客服人员。当用户在智能客服窗口点击转接人工客服按钮时,智能客服会识别用户转入的目标客服团队,在线客服会指派客服人员与用户进行沟通. 在线客服系统支持用户排队功能。当同时转人工客服的用户较多且客服人员人力有限时,用户将进入等待队列。智能客服在识别用户的商业意图时往往存在一定的错误率。有时客服人员与用户沟通一段时间后,会发现用户的业务问题需要其他客服团队来解决。此时,客服人员会将对话转移到其他业务团队。因此,在线客服系统也需要支持会话流的功能。此外,通信过程中的数据非常重要。例如,自动问答的答案可以根据人工沟通记录进行优化。因此,数据监控也是必不可少的功能。智能客服在识别用户的商业意图时往往存在一定的错误率。有时客服人员与用户沟通一段时间后,会发现用户的业务问题需要其他客服团队来解决。此时,客服人员会将对话转移到其他业务团队。因此,在线客服系统也需要支持会话流的功能。此外,通信过程中的数据非常重要。例如,自动问答的答案可以根据人工沟通记录进行优化。因此,数据监控也是必不可少的功能。智能客服在识别用户的商业意图时往往存在一定的错误率。有时客服人员与用户沟通一段时间后,会发现用户的业务问题需要其他客服团队来解决。此时,客服人员会将对话转移到其他业务团队。因此,在线客服系统也需要支持会话流的功能。此外,通信过程中的数据非常重要。例如,自动问答的答案可以根据人工沟通记录进行优化。因此,数据监控也是必不可少的功能。有时客服人员与用户沟通一段时间后,会发现用户的业务问题需要其他客服团队来解决。此时,客服人员会将对话转移到其他业务团队。因此,在线客服系统也需要支持会话流的功能。此外,通信过程中的数据非常重要。例如,自动问答的答案可以根据人工沟通记录进行优化。因此,数据监控也是必不可少的功能。有时客服人员与用户沟通一段时间后,会发现用户的业务问题需要其他客服团队来解决。此时,客服人员会将对话转移到其他业务团队。因此,在线客服系统也需要支持会话流的功能。此外,通信过程中的数据非常重要。例如,自动问答的答案可以根据人工沟通记录进行优化。因此,数据监控也是必不可少的功能。客服人员会将对话转给其他业务团队。因此,在线客服系统也需要支持会话流的功能。此外,通信过程中的数据非常重要。例如,自动问答的答案可以根据人工沟通记录进行优化。因此,数据监控也是必不可少的功能。客服人员会将对话转给其他业务团队。因此,在线客服系统也需要支持会话流的功能。此外,通信过程中的数据非常重要。例如,自动问答的答案可以根据人工沟通记录进行优化。因此,数据监控也是必不可少的功能。
智能客服系统需要一套完整的评价体系来评价其质量。在我们的评估系统中,有两种方法:基于人工标注的评估和基于用户反馈的评估:
(1) 基于人工标注的评价
“帮帮”可以自动回答业务查询、任务和聊天类型。基于问答知识库回答业务查询。系统的回答能力受限于知识库的丰富程度,无法回答用户的所有问题。,系统的最佳状态是所有可以回答的答案都是准确的,所有不能回答的都被拒绝,即拒绝回答。因此,这里的评价指标包括结果率、拒绝率、召回率和准确率等。我们的目标是使系统的结果率无限接近数据的真实结果率,召回率和准确率率尽可能高。这里我们通过标注标准评估集来计算系统的指标。我们会从每日全数据集中抽取一个小数据集,保证小数据集的数据分布尽可能匹配全数据集。标注数据集,标注每个问题的实际答案。一般在打标完成后会有一个质检环节,保证打标结果尽可能准确,从而生成标准的日常数据评估集。
基于这个标准评估集,我们会评估系统的质量,每次我们做一个新的模型迭代,我们都会使用标准评估集来评估新的模型。只有新模式效果好,才允许上线。