文章采集系统(文章采集功能演示(一)(2)_国内] )
优采云 发布时间: 2022-03-05 16:02)
一、简介
采集的功能
文章是通过程序远程获取目标网页的内容,解析处理本地规则后存入服务器的数据库中。
文章采集系统颠覆了传统的采集模式和流程,采集规则与采集界面分离,规则设置为更简单,只需要基础技术 知识渊博的人员制定相关规则。
编辑不需要了解太详细的技术规则,只需选择自己想要的文章列表采集,就可以像发布文章一样轻松完成数据采集操作。
二、函数演示
一、采集流程简单来说,分为三步:1、添加采集点,填写采集规则。 2、采集网址,采集内容3、发布内容到指定版块
以采集新浪新闻()为例介绍详细流程。
示例描述: 目的:采集新浪新闻将被添加到V9系统的“国内”栏目。目标网址:,添加采集dots 2.网址规则配置
1.添加采集点并填写采集规则
A.内容规则
注意:上图中的“目标网页源代码”是指目标网页的源代码。具体步骤如下:
目标网页->右键->查看源代码->找到你想要的源代码的开始和结束采集,按照“上图”填写规则。
添加成功后,测试你的网址采集规则是否正确,如下图:
B.内容规则配置
为了便于说明,我们只使用 采集title 和 content 字段。
采集内容URL:采集规则的内容,请打开该URL,然后在页面空白处右键->查看源文件搜索标题和内容起始边界。
标题采集配置:从网页中获取标题并删除不需要的字符。如下图
内容采集配置:新浪新闻最后一页,新闻内容夹在中间,这两个节点在整个页面源码中是唯一的。因此,您可以将此作为规则来获取内容。并过滤内容。如下图
C.自定义规则
除了系统自带的规则外,还可以根据自己的需要自定义规则采集。操作和系统规则相同,如下图:
D.高级配置
可以设置是否下载图片到服务器,是否打印水印等配置。如下图:
2. 采集管理
测试成功后添加采集点,可以管理自己添加的采集点(采集网址,采集内容,内容发布,测试,修改,复制、导出)。如下图:
A.采集网址
采集采集 点的 URL。
B.采集内容
采集采集点内容。
C.内容发布
将采集的内容发布到指定版块。如下图:
点击“导入”跳转到“选择列”页面。如下图:
点击“提交”跳转到栏目配置设置页面。如下图:
提交成功,将采集的内容导入到指定列(如下图)。在此期间请耐心等待,完成后会自动转动。至此,一个简单的采集流程就完成了。你的采集的内容信息已经存在于指定栏目下。