文章采集系统(本发明针对各式各样的网站文章进行自动采集的方法-专利)

优采云 发布时间: 2021-11-05 21:22

  文章采集系统(本发明针对各式各样的网站文章进行自动采集的方法-专利)

  专利名称:文章采集的一种方法

  技术领域:

  本发明涉及一种对各种网站文章进行自动采集的方法。

  背景技术:

  文章采集基于用户自定义的关键词字符,从各类网站中检索相关数据,对数据进行合理的截取、分类、归类。删除和过滤,然后将其保存为文件或数据库。文章采集 应用的关键是如何从众多的网站中获取所需的准确内容到预期的中央资源库,然后快速使用。文章 采集 的核心技术是模式定义和模式匹配。模型属于人工智能的术语,是前人积累经验的抽象和升华。简单的说就是从反复发生的事件中发现和抽象出来的规律,是解决问题的经验总结。只要是反复出现的东西,就可能有一定的规律。文章采集 的大多数模式不会被程序自动发现。目前几乎所有的文章采集产品都需要手动定义。但是模型本身是一个非常复杂和抽象的内容,所以开发者的所有精力都花在了如何让模型定义更简单、更准确上。这也是衡量文章采集技术竞争力的一个指标。. 目前使用最多的是正则表达式定义和文档结构定义。传统的文章采集有几个问题。1、采集是整篇文章文章,需要手动页面处理才能使用;<

  发明内容

  本发明的目的是提供一种文章采集的方法,支持网站组采集的多个站点,并且可以对文章进行分段采集和采集的子列采集、文章可以自动应用自己的网站格式进行发布,无需人工处理。文章采集的一种方法,具体包括以下步骤:首先选择采集的来源,使用正则表达式制定采集规则,使用关键信息处理方法确定采集内容范围,将采集的内容绑定到目标站点的栏目;启动采集文章时,先搜索采集的源码,采用多线程技术,多站点采集 网站 组的;根据采集的设置规则,将采集的内容存放在对应的栏目下;如果需要自动发布,则调用文章合并模板发布。使用正则表达式制定采集的规则是指输入需要采集的静态页面地址,并确定地址中第N个“/”为静态文件,需要< @采集 内容地址,自动转换成正则表达式规则。关键信息处理方法是指确定文章标题或需要采集内容的关键信息串的位置。本发明采用正则表达式定义方式,根据用户自定义任务配置,批量准确提取目标网络媒体栏目中的新闻或文章,并转换为结构化记录(标题、作者、内容、采集时间、来源、分类、相关图片等),存储在本地数据库中,用于内部使用或外部网络发布,快速实现外部信息的获取,对于各种网站新闻采集具有更快的速度和更高的准确率。本发明可以自动和手动两种模式运行。系统定时自动更新指定站点的最新信息,手动提供及时触发机制;支持使用不同模式的不同信息采集。本发明改进了传统的文章采集技术,真正满足了用户的应用需求。您需要的内容;2、每一列可以自定义对应的采集任务,文章 采集然后自动存入对应的列;3、采用多线程技术,支持网站组多站点采集;4、结合模板引擎技术,文章采集可以自动应用网站模板进行自动发布。

  图1是本发明的逻辑流程图。

  图2为本发明实施例中采集内容的字符串位置*敏*感*词*。下面结合附图和具体实施例对本发明作进一步详细说明。

<p>具体实施方式如图1所示,本发明的一种文章采集的方法,具体包括:首先选择采集的来源,制定

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线