文章采集系统(文章采集功能演示(一)(2)_国内] )

优采云 发布时间: 2022-03-05 16:02

  文章采集系统(文章采集功能演示(一)(2)_国内]

)

  一、简介

  采集的功能

  文章是通过程序远程获取目标网页的内容,解析处理本地规则后存入服务器的数据库中。

  文章采集系统颠覆了传统的采集模式和流程,采集规则与采集界面分离,规则设置为更简单,只需要基础技术 知识渊博的人员制定相关规则。

  编辑不需要了解太详细的技术规则,只需选择自己想要的文章列表采集,就可以像发布文章一样轻松完成数据采集操作。

  二、函数演示

  一、采集流程简单来说,分为三步:1、添加采集点,填写采集规则。 2、采集网址,采集内容3、发布内容到指定版块

  以采集新浪新闻()为例介绍详细流程。

  示例描述: 目的:采集新浪新闻将被添加到V9系统的“国内”栏目。目标网址:,添加采集dots 2.网址规则配置

  1.添加采集点并填写采集规则

  

  A.内容规则

  

  注意:上图中的“目标网页源代码”是指目标网页的源代码。具体步骤如下:

  目标网页->右键->查看源代码->找到你想要的源代码的开始和结束采集,按照“上图”填写规则。

  添加成功后,测试你的网址采集规则是否正确,如下图:

  

  B.内容规则配置

  为了便于说明,我们只使用 采集title 和 content 字段。

  采集内容URL:采集规则的内容,请打开该URL,然后在页面空白处右键->查看源文件搜索标题和内容起始边界。

  标题采集配置:从网页中获取标题并删除不需要的字符。如下图

  

  内容采集配置:新浪新闻最后一页,新闻内容夹在中间,这两个节点在整个页面源码中是唯一的。因此,您可以将此作为规则来获取内容。并过滤内容。如下图

  

  C.自定义规则

  除了系统自带的规则外,还可以根据自己的需要自定义规则采集。操作和系统规则相同,如下图:

  

  D.高级配置

  可以设置是否下载图片到服务器,是否打印水印等配置。如下图:

  

  2. 采集管理

  测试成功后添加采集点,可以管理自己添加的采集点(采集网址,采集内容,内容发布,测试,修改,复制、导出)。如下图:

  

  A.采集网址

  采集采集 点的 URL。

  B.采集内容

  采集采集点内容。

  C.内容发布

  将采集的内容发布到指定版块。如下图:

  

  点击“导入”跳转到“选择列”页面。如下图:

  

  点击“提交”跳转到栏目配置设置页面。如下图:

  

  

  提交成功,将采集的内容导入到指定列(如下图)。在此期间请耐心等待,完成后会自动转动。至此,一个简单的采集流程就完成了。你的采集的内容信息已经存在于指定栏目下。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线