网页采集器的自动识别算法( 一种基于bert算法的网页有害文本识别方法及系统技术领域)

优采云 发布时间: 2022-03-21 09:12

  网页采集器的自动识别算法(

一种基于bert算法的网页有害文本识别方法及系统技术领域)

  

  一种基于bert算法的网页有害文本识别方法及系统

  技术领域

  1.本发明属于网页文本处理领域,具体涉及一种基于bert算法的网页有害文本识别方法及系统。

  背景技术:

  2.互联网促进了社会的发展进步,同时也为各种有害文字的传播提供了极大的便利。这些充斥网络的有害文字,正日益危害着公众的正常社会活动和健康价值观,尤其是青少年的身心健康。网络上的有害文字包括暴力、恐怖、反应、*敏*感*词*、*敏*感*词*等,对网络上传播的各种有害网页的自动识别亟待解决。

  3.在互联网上,网页以超文本标记语言(html)的内容文本的形式存在,它本质上是一个文本文件。通常网页分类方法主要使用文本信息,并使用适当的分类器对文本信息进行分类。具体分类方法主要有以下几种:

  4.(1)一种基于专家规则的方法。通过采集各种有害文本内容关键词,形成词袋,然后对大量文本进行统计,得到词的权重包,结合有害类别领域知识中的相关信息,制定分类规则。

  5.(2)基于向量空间特征表示方法。该方法可以分为三个步骤,第一步:选择和提取特征;第二步:构建表示文本表的向量空间; 第三步 Step:构建分类器,该方法忽略词间语义,向量空间不易选择,容易造成维度灾难。

  6.(3)一种分布式词向量方法。该方法可以分为三个步骤,第一步:选择和提取特征;第二步:使用lda(主题模型)或word2vec等。第三步,建立分类器,这两类方法对全局信息的把握不够,分类准确率低。

  7. 因此,鉴于上述不足,本发明迫切需要提供一种基于bert算法的网页有害文字识别方法及系统。

  技术实施要素:

  8.本发明的目的是提供一种基于bert算法的网页有害文本识别方法及系统,以解决目前国内对网页有害文本识别效率低、准确率低的问题。现有技术。

  9.本发明提供的基于bert算法的网页有害文本识别方法包括以下步骤:

  10.第一步:使用网络爬虫抓取网页的原创内容,获取初始文本;第二步:基于html协议,对第一步得到的初始文本进行文本组织,得到一组待识别文本;2 将得到的待识别文本集输入到基于有害文本识别的bert中文预训练模型训练的有害信息识别模型中,得到识别结果;第四步:人工验证第三步得到的识别结果,根据异常情况进行异常识别。样本更新有害信息识别模型。

  11.上述基于bert算法的网页有害文本识别方法,进一步优选地,步骤1具体包括: 步骤1.1:获取待处理网页的域名地址识别,并获得一个域名地址集;步骤1.2:使用网络爬虫爬取步骤1.1中得到的域名地址集,并根据广度优化搜索策略,

  网页被一一抓取得到初始文本。

  12.上述基于bert算法的网页有害文本识别方法,进一步优选地,步骤2具体包括: 步骤2.1:基于html协议,得到的原文步骤1中是将功能划分为不同区域,得到不同区域的文本内容;步骤2.2:去除步骤2.1中不同区域的文本内容中与html协议相关的标签信息,得到相关的中文步骤2.3:拼接和根据上下文相关性对步骤2.2中得到的中文相关文本内容进行切分,得到标准化的文本句子;步骤2.@ >4:

  13.上述基于bert算法的网页有害文本识别方法,进一步优选地,步骤3中有害信息识别模型的训练包括以下步骤: 正常文本样本和有害文本样本形成一个样本集;Step3.2:将Step3.1中的样本集划分为训练集、评估集和测试集;Step3.3:加载bert中文预训练模型,在预训练模型顶部添加分类全连接层,合并得到训练模型;Step3.4:以训练集、评估集、测试集为step3.3中训练模型的输入是对训练模型进行训练、评估、测试、调整,得到一个有害信息识别模型。

  14.上述基于bert算法的网页有害文字识别方法,进一步优选地,步骤4具体包括: 步骤4.1:对步骤中得到的识别结果进行人工验证3、获取识别结果中的识别错误文本;Step4.2:为Step4.1中识别错误的文本创建标签,得到新的训练样本;Step4.3:利用Step4.2中得到的训练样本,学习训练步骤3中的有害信息识别模型,更新有害信息识别模型。

  15. 本发明还公开了一种基于bert算法的网页有害文本识别系统,包括: text采集模块,用于利用网络爬虫爬取网页的原创内容,获取初始文本;文本筛选模块,用于将text采集模块基于html协议获取的初始文本组织起来,得到一组待识别的文本;文本识别模块用于将文本筛选模块得到的待识别文本输入到基于bert中文的预训练中,在模型训练得到的有害信息识别模型中进行有害文本识别,识别结果为获得; 模型更新模块用于人工验证文本识别模块得到的识别结果,

  16.上述基于bert算法的网页有害文本识别系统,进一步优选地,文本采集模块包括:网页信息采集器,用于获取网页地址和通过http协议访问获取网页地址获取网页内容;网页分析器用于解析网页内容,将网页内容中的链接地址发送给网页地址管理器,也用于将网页内容转换为初始文本;网页地址管理器用于从网页地址数据库中获取网页地址集合并传递给信息采集器,也用于获取从网页分析器中提取的网页地址并存储它在网页地址数据库中。

  17.上述基于bert算法的网页有害文本识别系统,进一步优选地,所述文本过滤模块包括: 内容过滤模块,用于获取初始文本并过滤出初始文本中的标签信息、渲染信息和脚本信息获取有效文本;内容分类模块,用于根据网页定义规则对获取的有效文本内容进行划分,得到网页正文的内容。内容整合模块用于整合网页正文的内容,得到句子文本,句子文本的组合就是一组待识别的文本。

  18.上述基于bert算法的网页有害文本识别系统,进一步优选地,文本识别模块包括:模型识别单元,用于将一组待识别文本输入到有害信息中。进行识别模型。有害文本识别,获取有害文本和无害文本;网页判断单元,用于根据网页中有害文字的比例和预设阈值的大小判断网页是否为有害网页,得到有害文字、无害文字和判断结果

  找出缺点。

  19.上述基于bert算法的网页有害文本识别系统,进一步优选地,模型更新模块包括: 人工排序模块,用于显示识别结果进行人工排序,得到异常识别样本; 样本训练模块用于基于异常识别样本对有害信息识别模型进行模型训练,得到更新后的有害信息识别模型。

  20.与现有技术相比,本发明具有以下优点:

  21. 本发明公开了一种基于bert算法的网页有害文本识别方法,具体包括步骤1:利用网络爬虫对网页的原创内容进行爬取,得到初始文本;将得到的初始文本进行文本组织,得到一组待识别文本;第三步:将第二步得到的待识别文本集合输入到基于bert中文预训练模型训练的有害信息识别模型中,对有害文本进行识别,得到识别结果;第四步:对第三步得到的识别结果进行人工验证,并根据得到的异常识别样本更新有害信息识别模型。在上述方法中,通过网页爬取步骤的设计,网页文字整理步骤、网页文字识别步骤和网页文字校正步骤,通过分析网页结构分离网页内容,达到准确提取有效网页文字的目的。利用有害文本样本库和成熟的bert算法得到有害文本判断模型,利用有害文本判断模型实现网页文本和有害文本的内容识别;此外,通过对识别结果的人工校正结果,对有害文本判断模型进行训练和更新。,进一步提高有害文本判断模型的准确性。通过分析网页结构分离网页内容,达到准确提取有效网页文本的目的;利用有害文本样本库和成熟的bert算法得到有害文本判断模型,利用有害文本判断模型实现网页文本和有害文本的内容识别;此外,通过对识别结果的人工校正结果,对有害文本判断模型进行训练和更新。,进一步提高有害文本判断模型的准确性。通过分析网页结构分离网页内容,达到准确提取有效网页文本的目的;利用有害文本样本库和成熟的bert算法得到有害文本判断模型,利用有害文本判断模型实现网页文本和有害文本的内容识别;此外,通过对识别结果的人工校正结果,对有害文本判断模型进行训练和更新。,进一步提高有害文本判断模型的准确性。此外,通过对识别结果的人工校正结果,对有害文本判断模型进行训练和更新。,进一步提高有害文本判断模型的准确性。此外,通过对识别结果的人工校正结果,对有害文本判断模型进行训练和更新。,进一步提高有害文本判断模型的准确性。

  图纸说明

  22.为了更清楚地说明本发明的具体实施例或现有技术中的技术方案,下面将简要介绍具体实施例或说明中需要用到的附图。现有技术。显然,以下描述中的附图是本发明的一些实施例。对于本领域的技术人员来说,在没有创造性劳动的情况下,还可以从这些附图中获得其他的附图。

  23. 图。附图说明图1为本发明基于bert算法的网页有害文字识别方法流程图;

  24. 图。图2为本发明基于bert算法的网页有害文字识别系统的模块连接图。

  详细说明

  25.如图所示。如图1所示,本实施例公开了一种基于bert算法的网页有害文字识别方法,包括以下步骤:

  26.第一步:使用网络爬虫抓取网页的原创内容,得到初始文本;

  27.第二步:根据html协议对第一步得到的初始文本进行文本排序,得到一组待识别的文本;

  28.步骤3:将步骤2得到的待识别文本集输入到基于bert中文预训练模型训练的有害信息识别模型中进行有害文本识别,得到识别结果;

  29.第四步:人工验证第三步得到的识别结果,根据异常识别样本更新有害信息识别模型。

  30.具体来说,步骤1具体包括:

  31.步骤1.1:获取待识别网页的域名地址,获取域名地址集;

  32.Step1.2:使用网络爬虫爬取Step1.1得到的域名地址集合,基于广度优化搜索

  策略是对读取的域名地址信息对应的网页逐一爬取,得到初始文本。

  33.具体来说,步骤2具体包括:

  34.Step2.1:基于html协议,将步骤1得到的原文按照功能划分为不同的区域,得到不同区域的文本内容;

  35.Step2.2:去除Step2.1中不同区域的文本内容中与html协议相关的标签信息,得到与中文相关的文本内容;

  36.Step2.3:将Step2.2中得到的中文相关文本内容根据上下文相关度进行拼接分割,得到标准化的文本句子;

  37.Step2.4:将同一网页中得到的文本句子组合成一个集合,得到一个待识别的文本集合。

  38.具体来说,步骤3中有害信息识别模型的训练包括以下步骤:

  39.Step3.1:采集正常文本样本和带标记的有害文本样本,形成样本集;

  40.Step3.2:将Step3.1中的样本集划分为训练集、评估集和测试集;

  41.Step3.3:加载bert中文预训练模型,在预训练模型顶部添加分类全连接层,合并得到训练模型;

  42.Step3.4:训练集、评估集和测试集分别作为step3.3中训练模型的输入,进行训练、评估、测试和调整训练模型。获取有害信息识别模型。

  43.具体来说,步骤4具体包括:

  44.Step4.1:对第3步得到的识别结果进行人工验证,得到识别结果中有识别错误的文字;

  45.Step4.2:为Step4.1中识别错误的文本创建标签,获取新的训练样本;

  46.Step4.3:利用步骤4.2得到的训练样本,学习训练步骤3中的有害信息识别模型,更新有害信息识别模型。

  47.如图2所示,进一步地,本实施例还公开了一种基于bert算法的网页有害文字识别系统,包括:

  48.Text采集模块,用于用网络爬虫抓取网页的原创内容,得到初始文本;

  49.文本筛选模块,用于对text采集模块基于html协议得到的初始文本进行排序,得到一组待识别的文本;

  50.文本识别模块,用于将文本筛选模块得到的待识别文本输入到基于bert中文有害文本识别预训练模型训练的有害信息识别模型中,得到识别结果;

  51.模型更新模块,用于人工验证文本识别模块得到的识别结果,根据异常识别样本更新有害信息识别模型。

  52.进一步,text采集模块包括:

  53.网页信息采集器,用于获取网页地址,通过http协议访问网页地址获取网页内容;

  54.网页分析器,用于解析网页内容,将网页内容中的链接地址发送给网页地址管理器,也用于将网页内容转换为初始文本;

  55.网页地址管理器,用于从网页地址库中获取网页地址集并传递给信息采集器,也用于获取从网页地址库中提取的网页地址网页分析器并将其存储在网页地址库中。

  56.具体来说,网页信息采集器是一个网络爬虫,位于网络爬虫系统的底层,是

  网络爬虫系统与外部互联网信息交互的接口部分。网页信息采集器的主要目的是通过访问互联网获取网页的页面信息。具体来说,网络信息采集器从网页地址的采集开始,通过http协议请求,使用广度优先遍历算法搜索和下载网页。信息,获取页面内容。

  57.网页分析器的主要作用是解析网页信息采集器得到的页面内容,可以分为两个方面:一方面是提取有效的链接地址从页面内容,并发送到网址管理器,另一方面,是将页面内容转换为文本格式,产生原创文本。

  58.网址管理器的主要功能是管理网址。一方面,网址管理器从网址库中获取网址集合,依次传递给信息采集器;另一方面,网址管理器获取从信息采集器地址中提取的新链接,并将这些地址保存到网址库中。

  59.此外,text采集模块还包括一个url过滤器和一个网页地址库。网页地址库用于存储网页地址。url过滤器用于过滤网页地址库中重复的网页地址,避免网页地址。采集器重新访问。

  60.其中,文本筛选模块包括:

  61.内容过滤模块,用于获取初始文本,过滤掉初始文本中的标签信息、渲染信息和脚本信息,获取有效文本;

  62.内容分类模块,用于根据网页的定义规则对获得的有效文本内容进行划分,得到网页的主要内容;

  63.一个内容整合模块,用于整合网页正文的内容得到句子文本,句子文本的组合就是一组待识别的文本。

  64.爬取网页的原创内容收录大量的html标签元素、渲染信息、脚本等信息。此信息对最终识别没有影响,需要删除。同时需要区分网页不同区域的文本信息,根据前后的相关性对文本信息进行组合分割,有助于后续的模型识别效果。

  65.具体来说,内容过滤模块用于构造正则表达式。根据html协议规则,去除类似于“div class='age'”和“/div”的标签元素信息,去除类似于css的渲染信息。去除类似于javascript语言的脚本信息,从而达到保留符合中文规范的文本内容,即获取有效文本的目的。

  66.内容分类模块用于将网页内容按照通常的网页定义规则分为网页菜单内容、网页正文内容和网页页脚内容。其中,网页菜单的内容主要是网页导航菜单,而网页页脚的内容通常是网页底部与网页归档相关的信息。

  67.其中,文本识别模块包括:

  68.模型识别单元,用于将待识别的文本集合输入到有害信息识别模型中进行有害文本识别,得到有害文本和无害文本;

  69.网页判断单元,用于根据网页中有害文字的比例和预设阈值的大小,判断该网页是否为有害网页,得到包括有害的识别缺点文本、无害文本和判断结果。

  70.其中,模型更新模块包括:

  71.人工分拣模块,用于显示人工分拣的识别结果,获取异常识别样本;

  72.样本训练模块,用于基于异常识别样本训练有害信息识别模型,得到更新后的有害信息识别模型。

  73. 最后需要说明的是:以上实施例仅用于说明本发明的技术方案,并不用于限制本发明。本领域技术人员应当理解:

  当然,可以对上述实施例中描述的技术方案进行修改,或者对其部分或者全部技术特征进行等效替换;这些修改或替换并不使相应技术方案的实质脱离本发明实施例的技术方案。范围。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线