PHPCMS采集模块

优采云 发布时间: 2020-08-07 16:48

  模块的常用操作

  操作名称

  说明

  详细的采集过程

  没有

  其他功能说明

  没有

  描述: 文章采集功能是通过程序远程获取目标网页的内容,并在进行本地规则分析处理后将其存储在服务器的数据库中.

  文章采集系统颠覆了传统的采集方式和过程,将采集规则与采集界面分开,规则设置更加简单. 只有具有基本技术知识的人员才需要设置相关规则. 编辑人员不需要了解太多详细的技术规则,只需选择要采集的文章列表,就可以像发布文章一样轻松地完成数据采集操作.

  首先,采集过程很简单,分三个步骤:

  1. 添加采集点并填写采集规则.

  2. 采集网址和内容

  3. 将内容发布到指定的列

  以Sina News()的集合为例,并介绍详细过程.

  示例说明:

  目标: 将新浪新闻采集到V9系统的国际新闻专栏中.

  目标网址:

  1. 添加采集点1.1 URL规则配置

  

  添加采集点URL规则配置图1

  检查要采集的目标URL的源代码,并找到要采集的URL的起点和终点(这两个点在整个源代码中必须是唯一的). 进一步缩小集合URL的搜索范围.

  

  添加采集点URL规则配置图2

  测试您的URL采集规则是否正确,如下图所示

  

  1.2内容规则配置

  内容规则在这里看起来很复杂,但实际上非常简单. 为了便于说明,我们仅采集两个字段: 标题和内容. 集合网址:

  内容采集规则,请打开此网站,然后右键单击页面的空白区域->查看源文件以搜索内容的标题和起始边界.

  标题采集配置:

  从网页上获取标题并删除不必要的字符. 如下图所示

  

  内容采集配置:

  新浪新闻的最后一页,新闻内容收录在两者之间,并且这两个节点在整个页面的源代码中都是唯一的. 因此,您可以将内容作为规则. 并过滤内容. 如下图所示

  

  1.3自定义规则

  1.4高级配置

  您可以设置是否将图片下载到服务器,是否打印水印和其他配置.

  

  2. 采集网址和内容

  设置采集规则后,可以采集网站,然后可以采集内容.

  

  3. 将内容发布到指定的列

  

  

  选择要导入的列

  

  设置采集的内容和数据库字段之间的对应关系. 提交数据存储,在此期间请耐心等待,完成后它将自动重定向. 到目前为止,一个简单的采集过程就完成了.

  其他更*敏*感*词*,期待您的发现.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线