采集文章系统(文章采集功能演示(一)(2)_国内] )
优采云 发布时间: 2022-02-19 06:06)
一、简介
文章的采集的作用是通过程序远程获取目标网页的内容,解析处理本地规则后存入服务器的数据库中。
文章采集系统颠覆了传统的采集模式和流程,采集规则与采集界面分离,规则设置更简单,只需需要具备基本技术知识的人制定相关规则。
编辑们不需要了解太详细的技术规则,只需选择自己想要的文章列表采集,就可以像发布文章一样轻松完成数据采集 @> 操作。
二、功能演示
一、采集流程简单,分三步:1、添加采集点,填写采集规则。2、采集网站,采集内容3、将内容发布到指定栏目
以采集新浪新闻()为例介绍详细流程。
示例说明: 目的:采集新浪新闻将被添加到V9系统的“国内”栏目。目标网址:添加采集dots2.网址规则配置
1. 添加采集 点,填写采集 规则
A. 内容规则
注:上图中的“目标网页源代码”是指:目标网页的源代码。具体步骤如下:
目标网页->右键->查看源代码->找到你要采集的源代码的开始和结束,按照“上图”填写规则。
添加成功后,测试你的URL采集规则是否正确,如下图所示:
B. 内容规则配置
为了解释方便,我们只写了采集title和content字段。
采集内容网址:采集的内容采集规则,请打开该网址,然后在页面空白处右键->查看源文件搜索标题和开始边界内容。
标题采集配置:从网页中获取标题并删除不需要的字符。如下所示
内容采集 配置:新浪新闻最后一页,新闻内容夹在中间,这两个节点在整个页面源码中是唯一的。因此,您可以将此作为规则来获取内容。并过滤内容。如下所示
C. 自定义规则
除了系统自带的规则外,您还可以根据自己的需要自定义规则采集。操作和系统规则相同,如下图:
D. 高级配置
可以设置是否下载图片到服务器、是否打印水印等配置。如下所示:
2. 采集管理
添加采集点并测试成功后,您可以管理您添加的采集点(采集 URL、采集内容、内容发布、测试、修改、复制、导出)。如下所示:
A.采集网址
采集采集 点的 URL。
B. 采集内容
采集采集 点内容。
C. 内容发布
将 采集 的内容发布到指定版块。如下所示:
单击“导入”以跳转到“选择列”页面。如下所示:
点击“提交”跳转到栏目配置设置页面。如下所示:
提交成功后,采集的内容会被导入到指定的列(如下图)。在此期间请耐心等待,完成后会自动转动。至此,一个简单的采集流程就完成了。您的 采集 的内容信息已经存在于指定列下。