行业解决方案:采集模块

优采云 发布时间: 2020-11-04 11:01

  采集模块

  模块的常用操作

  操作名称

  说明

  采集详细过程

  没有

  其他功能说明

  没有

  说明:

  文章的采集功能是通过程序远程获取目标网页的内容,并在进行本地规则分析后将其存储在服务器的数据库中。

  文章 采集系统颠覆了传统的采集模型和过程。 采集规则与采集界面分开,并且规则设置更简单。只有具有基本技术知识的人员才需要设置相关规则。编辑人员不需要了解太详细的技术规则,只需选择所需的文章列表即可,就像发布文章一样,他们可以轻松地完成数据采集的操作。

  一、采集进程

  简单来说,分三个步骤:

  1、添加采集点并填写采集规则。

  2、采集网址,采集内容

  3、将内容发布到指定的列

  以采集 Sina News()为例,介绍详细过程。

  示例说明:

  目标:采集新浪新闻转至V9系统国际新闻专栏。

  目标网址:

  1、加采集分

  1.1 URL规则配置

  

  添加采集点URL规则配置图1

  检查目标URL到采集的源代码,并找到URL的起点和终点采集(这两个点在整个源代码中必须是唯一的)。进一步缩小采集 URL搜索范围。

  

  添加采集点URL规则配置图2

  测试您的URL 采集规则是否正确,如下图所示

  

  1.2内容规则配置

  内容规则在这里看起来很复杂,但实际上非常简单。为了便于说明,我们只有两个字段采集标题和内容。 采集内容网址:

  内容

  采集规则,请打开此网站,然后右键单击页面的空白区域->查看源文件搜索标题并开始内容的边界。

  标题采集配置:

  从网页上获取标题并删除不必要的字符。如下图所示

  

  内容采集配置:

  在新浪新闻的最后一页中,新闻内容介于两者之间,并且这两个节点在整个页面的源代码中是唯一的。因此,您可以将内容作为规则。并过滤内容。如下图所示

  

  1.3个自定义规则

  1.4高级配置

  您可以设置是否将图片下载到服务器,是否打印水印和其他配置。

  

  2、采集网址,采集内容

  配置采集规则后,您可以转到URL的采集,然后转到内容的采集。

  

  3、将内容发布到指定的列

  

  

  选择要导入的列

  

  设置采集内容和数据库字段之间的对应关系。提交数据存储,在此期间请耐心等待,完成后它将自动重定向。到目前为止,一个简单的采集过程已完成。

  其他功能,我们期待您的发现。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线