PHPCMS采集模块
优采云 发布时间: 2020-08-07 16:48模块的常用操作
操作名称
说明
详细的采集过程
没有
其他功能说明
没有
描述: 文章采集功能是通过程序远程获取目标网页的内容,并在进行本地规则分析处理后将其存储在服务器的数据库中.
文章采集系统颠覆了传统的采集方式和过程,将采集规则与采集界面分开,规则设置更加简单. 只有具有基本技术知识的人员才需要设置相关规则. 编辑人员不需要了解太多详细的技术规则,只需选择要采集的文章列表,就可以像发布文章一样轻松地完成数据采集操作.
首先,采集过程很简单,分三个步骤:
1. 添加采集点并填写采集规则.
2. 采集网址和内容
3. 将内容发布到指定的列
以Sina News()的集合为例,并介绍详细过程.
示例说明:
目标: 将新浪新闻采集到V9系统的国际新闻专栏中.
目标网址:
1. 添加采集点1.1 URL规则配置
添加采集点URL规则配置图1
检查要采集的目标URL的源代码,并找到要采集的URL的起点和终点(这两个点在整个源代码中必须是唯一的). 进一步缩小集合URL的搜索范围.
添加采集点URL规则配置图2
测试您的URL采集规则是否正确,如下图所示
1.2内容规则配置
内容规则在这里看起来很复杂,但实际上非常简单. 为了便于说明,我们仅采集两个字段: 标题和内容. 集合网址:
内容采集规则,请打开此网站,然后右键单击页面的空白区域->查看源文件以搜索内容的标题和起始边界.
标题采集配置:
从网页上获取标题并删除不必要的字符. 如下图所示
内容采集配置:
新浪新闻的最后一页,新闻内容收录在两者之间,并且这两个节点在整个页面的源代码中都是唯一的. 因此,您可以将内容作为规则. 并过滤内容. 如下图所示
1.3自定义规则
1.4高级配置
您可以设置是否将图片下载到服务器,是否打印水印和其他配置.
2. 采集网址和内容
设置采集规则后,可以采集网站,然后可以采集内容.
3. 将内容发布到指定的列
选择要导入的列
设置采集的内容和数据库字段之间的对应关系. 提交数据存储,在此期间请耐心等待,完成后它将自动重定向. 到目前为止,一个简单的采集过程就完成了.
其他更*敏*感*词*,期待您的发现.