采集文章系统(文章采集功能演示(一)(2)_国内] )

优采云 发布时间: 2022-02-19 06:06

  采集文章系统(文章采集功能演示(一)(2)_国内]

)

  一、简介

  文章的采集的作用是通过程序远程获取目标网页的内容,解析处理本地规则后存入服务器的数据库中。

  文章采集系统颠覆了传统的采集模式和流程,采集规则与采集界面分离,规则设置更简单,只需需要具备基本技术知识的人制定相关规则。

  编辑们不需要了解太详细的技术规则,只需选择自己想要的文章列表采集,就可以像发布文章一样轻松完成数据采集 @> 操作。

  二、功能演示

  一、采集流程简单,分三步:1、添加采集点,填写采集规则。2、采集网站,采集内容3、将内容发布到指定栏目

  以采集新浪新闻()为例介绍详细流程。

  示例说明: 目的:采集新浪新闻将被添加到V9系统的“国内”栏目。目标网址:添加采集dots2.网址规则配置

  1. 添加采集 点,填写采集 规则

  

  A. 内容规则

  

  注:上图中的“目标网页源代码”是指:目标网页的源代码。具体步骤如下:

  目标网页->右键->查看源代码->找到你要采集的源代码的开始和结束,按照“上图”填写规则。

  添加成功后,测试你的URL采集规则是否正确,如下图所示:

  

  B. 内容规则配置

  为了解释方便,我们只写了采集title和content字段。

  采集内容网址:采集的内容采集规则,请打开该网址,然后在页面空白处右键->查看源文件搜索标题和开始边界内容。

  标题采集配置:从网页中获取标题并删除不需要的字符。如下所示

  

  内容采集 配置:新浪新闻最后一页,新闻内容夹在中间,这两个节点在整个页面源码中是唯一的。因此,您可以将此作为规则来获取内容。并过滤内容。如下所示

  

  C. 自定义规则

  除了系统自带的规则外,您还可以根据自己的需要自定义规则采集。操作和系统规则相同,如下图:

  

  D. 高级配置

  可以设置是否下载图片到服务器、是否打印水印等配置。如下所示:

  

  2. 采集管理

  添加采集点并测试成功后,您可以管理您添加的采集点(采集 URL、采集内容、内容发布、测试、修改、复制、导出)。如下所示:

  

  A.采集网址

  采集采集 点的 URL。

  B. 采集内容

  采集采集 点内容。

  C. 内容发布

  将 采集 的内容发布到指定版块。如下所示:

  

  单击“导入”以跳转到“选择列”页面。如下所示:

  

  点击“提交”跳转到栏目配置设置页面。如下所示:

  

  

  提交成功后,采集的内容会被导入到指定的列(如下图)。在此期间请耐心等待,完成后会自动转动。至此,一个简单的采集流程就完成了。您的 采集 的内容信息已经存在于指定列下。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线