采集的文章和关键词不符(一种网站数据采集的判定系统及方法、信息数据处理终端)

优采云发布时间: 2021-12-11 03:21

　　本发明属于计算机软件技术领域，具体涉及一种网站数据采集的确定系统、方法及信息数据处理终端。

　　背景技术

　　目前，业界普遍采用的现有技术如下：随着大数据挖掘和人工智能技术的兴起，数据和内容的重要性越来越被大众认可。在大数据采集系统中，如何及时发现新的、有价值的网站，然后继续抓取这些网站的内容，是当前数据采集的迫切需要@> 系统解决了问题。在数据采集系统中，通过提取页面上的链接并对链接进行处理，自动发现新的网站 URL。之后需要判断新的网站采集的值，比如在某个领域是否是网站，。

　　文本类型(a)的判断主要通过文本分类技术实现。本发明采用有监督的方法。首先准备好场内场外的每一批文章，然后利用机器学习或深度学习技术训练出一个二分类器。使用经过训练的分类器来确定网站采样文本的类型。最后统计样本文本中该字段的章节比例。如果比例高于指定阈值（建议95%以上），则认为网站的内容符合用户需求，即a=1，否则a=0。

　　(2)文字质量

　　文本质量（q）主要评估文本数据中是否存在乱码、js代码文本、标题内容不一致、水化文本等。采用基于深度表示的文本质量评价方法（申请号：2.5)对每章的质量进行打分，取采样文本的平均质量分数作为文本质量分数。由于原创质量分值范围是[0,100]，为了归一化，q值在原创文本质量分值的基础上除以100。

　　(3)文章更新频率

　　网站更新内容的速度是其采集价值的重要指标。长期网站不需要继续采集。为了提高实用性，本发明没有采用跟踪网页变化过程的检测方法，而是统计采样文本网站的时间分布，采用平均每天新章节数来参考文章 @>更新频率。另外，为了数据处理的一致性，对更新频率(f)进行了归一化处理，即：

　　其中fmin和fmax是网站大量网站的系统统计结果。

　　（4)原创% 的内容

　　原创高内容网站采集更有价值。为了计算原创内容的比例，我们首先需要确定什么是原创内容。

0

2021-12-11

采集的文章和关键词不符

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集的文章和关键词不符(一种网站数据采集的判定系统及方法、信息数据处理终端)

0 个评论

发起人

AI时代内容工厂

采集的文章和关键词不符(一种网站数据采集的判定系统及方法、信息数据处理终端)

0 个评论

发起人

相关问题