行业解决方案:采集模块
优采云 发布时间: 2020-11-04 11:01采集模块
模块的常用操作
操作名称
说明
采集详细过程
没有
其他功能说明
没有
说明:
文章的采集功能是通过程序远程获取目标网页的内容,并在进行本地规则分析后将其存储在服务器的数据库中。
文章 采集系统颠覆了传统的采集模型和过程。 采集规则与采集界面分开,并且规则设置更简单。只有具有基本技术知识的人员才需要设置相关规则。编辑人员不需要了解太详细的技术规则,只需选择所需的文章列表即可,就像发布文章一样,他们可以轻松地完成数据采集的操作。
一、采集进程
简单来说,分三个步骤:
1、添加采集点并填写采集规则。
2、采集网址,采集内容
3、将内容发布到指定的列
以采集 Sina News()为例,介绍详细过程。
示例说明:
目标:采集新浪新闻转至V9系统国际新闻专栏。
目标网址:
1、加采集分
1.1 URL规则配置
添加采集点URL规则配置图1
检查目标URL到采集的源代码,并找到URL的起点和终点采集(这两个点在整个源代码中必须是唯一的)。进一步缩小采集 URL搜索范围。
添加采集点URL规则配置图2
测试您的URL 采集规则是否正确,如下图所示
1.2内容规则配置
内容规则在这里看起来很复杂,但实际上非常简单。为了便于说明,我们只有两个字段采集标题和内容。 采集内容网址:
内容
采集规则,请打开此网站,然后右键单击页面的空白区域->查看源文件搜索标题并开始内容的边界。
标题采集配置:
从网页上获取标题并删除不必要的字符。如下图所示
内容采集配置:
在新浪新闻的最后一页中,新闻内容介于两者之间,并且这两个节点在整个页面的源代码中是唯一的。因此,您可以将内容作为规则。并过滤内容。如下图所示
1.3个自定义规则
1.4高级配置
您可以设置是否将图片下载到服务器,是否打印水印和其他配置。
2、采集网址,采集内容
配置采集规则后,您可以转到URL的采集,然后转到内容的采集。
3、将内容发布到指定的列
选择要导入的列
设置采集内容和数据库字段之间的对应关系。提交数据存储,在此期间请耐心等待,完成后它将自动重定向。到目前为止,一个简单的采集过程已完成。
其他功能,我们期待您的发现。