采集的文章和关键词不符(一种网站数据采集的判定系统及方法、信息数据处理终端)
优采云 发布时间: 2021-12-11 03:21采集的文章和关键词不符(一种网站数据采集的判定系统及方法、信息数据处理终端)
本发明属于计算机软件技术领域,具体涉及一种网站数据采集的确定系统、方法及信息数据处理终端。
背景技术
目前,业界普遍采用的现有技术如下: 随着大数据挖掘和人工智能技术的兴起,数据和内容的重要性越来越被大众认可。在大数据采集系统中,如何及时发现新的、有价值的网站,然后继续抓取这些网站的内容,是当前数据采集的迫切需要@> 系统解决了问题。在数据采集系统中,通过提取页面上的链接并对链接进行处理,自动发现新的网站 URL。之后需要判断新的网站采集的值,比如在某个领域是否是网站,。
文本类型(a)的判断主要通过文本分类技术实现。本发明采用有监督的方法。首先准备好场内场外的每一批文章,然后利用机器学习或深度学习技术训练出一个二分类器。使用经过训练的分类器来确定 网站 采样文本的类型。最后统计样本文本中该字段的章节比例。如果比例高于指定阈值(建议95%以上),则认为网站的内容符合用户需求,即a=1,否则a=0。
(2)文字质量
文本质量(q)主要评估文本数据中是否存在乱码、js代码文本、标题内容不一致、水化文本等。采用基于深度表示的文本质量评价方法(申请号:2.5)对每章的质量进行打分,取采样文本的平均质量分数作为文本质量分数。由于原创质量分值范围是[0,100],为了归一化,q值在原创文本质量分值的基础上除以100。
(3)文章更新频率
网站 更新内容的速度是其采集价值的重要指标。长期网站 不需要继续采集。为了提高实用性,本发明没有采用跟踪网页变化过程的检测方法,而是统计采样文本网站的时间分布,采用平均每天新章节数来参考文章 @>更新频率。另外,为了数据处理的一致性,对更新频率(f)进行了归一化处理,即:
其中fmin和fmax是网站大量网站的系统统计结果。
(4)原创% 的内容
原创高内容网站采集更有价值。为了计算原创内容的比例,我们首先需要确定什么是原创内容。