文章采集程序(模块常用操作操作名说明采集流程详述(图))

优采云 发布时间: 2022-03-29 03:03

  文章采集程序(模块常用操作操作名说明采集流程详述(图))

  模块常用操作

  操作名称

  阐明

  采集流程详情

  没有

  其他功能说明

  没有

  阐明:

  文章的采集的作用是通过程序远程获取目标网页的内容,解析处理本地规则后存入服务器的数据库中。

  文章采集系统颠覆了传统的采集模式和流程,采集规则与采集界面分离,规则设置更简单,只需需要具备基本技术知识的人制定相关规则。编辑们不需要了解太详细的技术规则,只需选择自己想要的文章列表采集,就可以像发布文章一样轻松完成数据采集 @> 操作。

  一、采集进程

  有三个简单的步骤:

  1、添加采集点并填写采集规则。

  2、采集网址,采集内容

  3、发布内容到指定版块

  以采集新浪新闻()为例介绍详细流程。

  示例说明:

  目标:采集新浪新闻将加入V9系统的国际新闻栏目。

  目标网址:

  1、添加 采集 点

  1.1 网址规则配置

  

  添加采集点——URL规则配置图1

  查看目标 URL 的源代码为 采集,找到 URL 的起点和终点为 采集(这两个点在整个源代码中必须是唯一的)。进一步缩小您的 采集 URL 搜索范围。

  

  添加采集点——URL规则配置图2

  测试你的网址采集规则是否正确,如下图

  

  1.2 内容规则配置

  这里的内容规则看起来很复杂,但实际上非常简单。为了解释方便,我们只采集标题和内容两个字段。采集内容网址:

  内容采集规则,请打开此网址,然后在页面空白处右键->查看源文件,搜索标题和内容的起始边界。

  标题采集配置:

  从网页中获取标题并删除不需要的字符。如下所示

  

  内容采集配置:

  在新浪新闻的最后一页中,新闻内容被收录在中间,而这两个节点在整个页面的源码中是唯一的。因此,您可以将此作为规则来获取内容。并过滤内容。如下所示

  

  1.3 自定义规则

  1.4 高级配置

  可以设置是否下载图片到服务器、是否打印水印等配置。

  

  2、采集网址,采集内容

  采集规则配置好后,可以进行URL的采集,然后是内容的采集。

  

  3、发布内容到指定版块

  

  

  选择导入的部分

  

  设置采集的内容与数据库字段的对应关系。提交数据进行存储。期间请耐心等待,完成后会自动开启。至此,一个简单的采集流程就完成了。

  更多其他功能,期待您的发现。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线