一种文章采集的方式

优采云 发布时间: 2020-08-25 21:18

  一种文章采集的方式

  专利名称:一种文章采集的方式

  技术领域:

  本发明涉及一种针对各式各样的网站文章进行手动采集的技巧。

  背景技术:

  文章采集是按照用户定义的关键词字,从各式各样的网站上检索出相关的数据, 并对数据进行合理的截取、分类、去重和过滤,然后以文件或数据库的形式保存出来。文章采集应用的关键在于怎样从众多的网站获取所须要的确切内容到预期的中 心资源库中,然后进行快速的借助。文章采集的核心技术是模式定义和模式匹配。模式属 于人工智能的术语,是对前人积累的经验的具象和升华。简单地说,就是从不断重复出现的 事件中发觉和具象出的规律,是解决问题的经验的总结。只要是一再重复出现的事物,就可 能存在某种模式。文章采集的模式大多不是程序手动发觉的,目前几乎所有的文章采集产 品都须要通过人工来定义。但模式本身是个很复杂、很具象的内容,所以所有的开发者精力 都花在如何使模式定义更简单、更准确上,这也是文章采集技术竞争力的评判标准。目前大 多采用正则表达式定义和文档结构定义。传统的文章采集存在几个方面的问题1、采集的是每篇文章,需要手工进行页面 处理能够被借助;2、不能分栏目采集;3、只支持单一站点的采集;4、采集的文章不能手动 套用自己网站的格式进行发布,需要进行手工处理。

  发明内容

  本发明的目的在于提供一种文章采集的方式,支持网站群的多站点采集,可针对 文章进行分段采集和分栏目采集,采集的文章能手动套用自己网站的格式进行发布,不需 要进行手工处理。一种文章采集的方式,具体包括如下步骤先选取采集来源,采用正则表达式制订 采集规则,使用关键信息处理方法确定采集内容的范围,将采集的内容和目标站点的栏目 进行绑定;开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站点采集; 根据设定的采集规则,把采集到的内容储存在各自对应的栏目下;若须要手动发布,则调用 文章合并模板进行发布。所述的采用正则表达式制订采集规则,是指输入须要采集的静态页面地址,确定 地址中到第N个“/”为须要被采集的静态文件内容的地址,并将其手动转换成正则表达式 规则。所述的关键信息处理方法,指确定须要采集内容的文章标题或则关键信息的字符 串位置。本发明采用正则表达式定义的形式,根据用户自定义的任务配置,批量而精确地 抽取目标网路媒体栏目中的新闻或文章,转化为结构化的记录(标题,作者,内容,采集时 间,来源,分类,相关图片等),保存在本地数据库中,用于内部使用或内网发布,快速实现外 部信息的获取,对各种网站新闻的采集具有较快的速率和较高的准确率。本发明可在手动、手动两种模式下运行,自动由系统定期到指定的站点更新最新的信息,手动提供了及时触 发的机制;支持不同的信息采集使用不同的模式。本发明对传统的文章采集技术进行改进,真正满足了用户的应用需求1、可以针 对文章进行分段采集,只获取所须要的内容;2、每个栏目都可以订制相应的采集任务,文章 采集后手动储存在对应栏目下;3、采用多线程技术,支持网站群的多站点采集;4、结合模 板弓I擎技术,文章采集后可以手动套用网站模板进行手动发布。

  图1为本发明的逻辑流程图。

  图2为本发明施行例中采集内容的字符串位置*敏*感*词*。以下结合附图和具体施行例对本发明作进一步阐述。

  具体施行例形式如图1所示,本发明一种文章采集的方式,具体包括如下先选取采集来源,采用正则表达式制订采集规则,使用关键信息处理方法确定采 集内容的范围,将采集的内容和目标站点的栏目进行绑定。所述的采用正则表达式制订采集规则指输入须要采集的静态页面地址,该路径 指向待采集页面的某个栏目中的其中一篇文章,确定第N个“/”开始下的内容,自动转换成 正则表达式规则,符合表达式规则的静态文件内容将被采集。所述的关键信息处理方法指确定须要采集内容的文章标题或则关键信息的字符 串位置(如图2举例所示)。由于每位网站内容展示位置不一样,在配置采集时需先找到所 要采集内容的字符串位置,才能准确地采集到数据。所述的将采集的内容和目标站点的栏目进行绑定就是用户在采集配置中,用户 需选择所属栏目,或在创建栏目时,用户可选择指定的文章模板,开始采集时,通过栏目找 到指定的文章模板,在发布时合并生成静态页面。开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站点采集; 根据设定的采集规则,把采集到的内容储存在各自对应的栏目下;若须要手动发布,则调用 文章合并模板进行发布。所述的文章合并模板指将动态的文章数据通过调用模板引擎生成静态的HTML 页面。以上所述,仅是本发明较佳施行例而已,并非对本发明的技术范围作任何限制,故 凡是根据本发明的技术实质对以上施行例所作的任何细微更改、等同变化与修饰,均仍属 于本发明技术方案的范围内。

  权利要求

  1.一种文章采集的方式,其特点在于包括如下步骤先选取采集来源,采用正则抒发 式制订采集规则,使用关键信息处理方法确定采集内容的范围,将采集的内容和目标站点 的栏目进行绑定;开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站 点采集;根据设定的采集规则,把采集到的内容储存在各自对应的栏目下;若须要手动发 布,则调用文章合并模板进行发布。

  2.根据权力要求1所述的一种文章采集的方式,其特点在于所述的采用正则表达式 制定采集规则,是指输入须要采集的静态页面地址,确定地址中到第N个“/”为须要被采集 的静态文件内容的地址,并将其手动转换成正则表达式规则。

  3.根据权力要求1所述的一种文章采集的方式,其特点在于所述的关键信息处理方 式,指确定须要采集内容的文章标题或则关键信息的字符串位置。

  全文摘要

  一种文章采集的方式,先选取采集来源,采用正则表达式制订采集规则,使用关键信息处理方法确定采集内容的范围,将采集的内容和目标站点的栏目进行绑定;开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站点采集;根据设定的采集规则,把采集到的内容储存在各自对应的栏目下;若须要手动发布,则调用文章合并模板进行发布;本发明按照用户自定义的任务配置,批量而精确地抽取目标网路媒体栏目中的新闻或文章,转化为结构化的记录保存或用于内部使用或内网发布,能快速实现外部信息的获取,对各种网站新闻的采集具有较快的速率和较高的准确率。

  文档编号G06F17/30GK102096705SQ20101061842

  公开日2011年6月15日 申请日期2010年12月31日 优先权日2010年12月31日

  发明者曾文语, 林雅珊 申请人:南威软件股份*敏*感*词*

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线