phpcms采集管理,如何填写采集规则 2014-05
优采云 发布时间: 2020-08-08 04:001. 简介文章的采集功能是通过程序远程获取目标网页的内容,并在进行本地规则分析过程后将其存储在服务器的数据库中. 文章采集系统颠覆了传统的采集方式和过程,将采集规则与采集界面分开,规则设置更加简单,只需要基本的技术知识即可.
I. 简介
文章采集功能是通过程序远程获取目标网页的内容,并在进行本地规则分析后将其存储在服务器的数据库中.
文章采集系统颠覆了传统的采集方式和过程,将采集规则与采集界面分开,规则设置更加简单. 只有具有基本技术知识的人员才需要设置相关规则.
编辑人员无需了解太详细的技术规则,只需选择要采集的文章列表,就可以像发布文章一样轻松地完成数据采集操作.
第二,功能演示
1. 采集过程简单来说,分三个步骤: 1.添加采集点并填写采集规则. 2.采集网站并采集内容. 3.将内容发布到指定的列
以Sina News()的集合为例,并介绍详细过程.
示例描述: 目标: 将新浪新闻采集到V9系统的“国内”列中. 目标URL: 1.添加采集点2. URL规则配置
1. 添加采集点并填写采集规则
A. 内容规则
注意: 上图中的“目标网页源代码”是指目标网页的源代码. 具体步骤如下:
目标网页->右键单击->查看源代码->找到要采集的源代码的开头和结尾,并根据“上图”填写规则.
添加成功后,测试您的URL采集规则是否正确,如下图所示:
B. 内容规则配置
为便于说明,我们仅采集两个字段: 标题和内容.
采集内容URL: 的内容采集规则,请打开此URL,然后右键单击页面的空白区域->查看源文件搜索标题并开始内容的边界.
标题采集配置: 从网页上获取标题并删除不必要的字符. 如下图所示
内容采集配置: 新浪新闻的最后一页,新闻内容收录在两者之间,并且这两个节点在整个页面的源代码中是唯一的. 因此,您可以将内容作为规则. 并过滤内容. 如下图所示
C. 自定义规则
除了系统随附的规则外,您还可以根据需要采集自定义规则. 操作与系统规则相同,如下图所示:
D. 高级配置
您可以设置是否将图片下载到服务器,是否打印水印和其他配置. 如下图所示:
2. 馆藏管理
添加采集点的测试成功后,您可以管理添加的采集点(采集URL,采集内容,内容发布,测试,修改,复制,导出). 如下图所示:
A. 采集网址
采集点的URL.
B. 采集内容
采集采集点的内容.
C. 内容发布
将采集的内容发布到指定的列. 如下图所示:
单击“导入”以跳至选择页面. 如下图所示:
单击“提交后”以跳到部分配置设置页面. 如下图所示:
成功将采集到的内容提交到指定的列(如下图所示). 在此期间请耐心等待,完成后它将自动打开. 至此,一个简单的采集过程就完成了. 您采集的内容信息已经存在于指定列下.
相关热词搜索: 规则