文章采集程序(模块常用操作操作名说明采集流程详述(图))
优采云 发布时间: 2022-03-29 03:03文章采集程序(模块常用操作操作名说明采集流程详述(图))
模块常用操作
操作名称
阐明
采集流程详情
没有
其他功能说明
没有
阐明:
文章的采集的作用是通过程序远程获取目标网页的内容,解析处理本地规则后存入服务器的数据库中。
文章采集系统颠覆了传统的采集模式和流程,采集规则与采集界面分离,规则设置更简单,只需需要具备基本技术知识的人制定相关规则。编辑们不需要了解太详细的技术规则,只需选择自己想要的文章列表采集,就可以像发布文章一样轻松完成数据采集 @> 操作。
一、采集进程
有三个简单的步骤:
1、添加采集点并填写采集规则。
2、采集网址,采集内容
3、发布内容到指定版块
以采集新浪新闻()为例介绍详细流程。
示例说明:
目标:采集新浪新闻将加入V9系统的国际新闻栏目。
目标网址:
1、添加 采集 点
1.1 网址规则配置
添加采集点——URL规则配置图1
查看目标 URL 的源代码为 采集,找到 URL 的起点和终点为 采集(这两个点在整个源代码中必须是唯一的)。进一步缩小您的 采集 URL 搜索范围。
添加采集点——URL规则配置图2
测试你的网址采集规则是否正确,如下图
1.2 内容规则配置
这里的内容规则看起来很复杂,但实际上非常简单。为了解释方便,我们只采集标题和内容两个字段。采集内容网址:
内容采集规则,请打开此网址,然后在页面空白处右键->查看源文件,搜索标题和内容的起始边界。
标题采集配置:
从网页中获取标题并删除不需要的字符。如下所示
内容采集配置:
在新浪新闻的最后一页中,新闻内容被收录在中间,而这两个节点在整个页面的源码中是唯一的。因此,您可以将此作为规则来获取内容。并过滤内容。如下所示
1.3 自定义规则
1.4 高级配置
可以设置是否下载图片到服务器、是否打印水印等配置。
2、采集网址,采集内容
采集规则配置好后,可以进行URL的采集,然后是内容的采集。
3、发布内容到指定版块
选择导入的部分
设置采集的内容与数据库字段的对应关系。提交数据进行存储。期间请耐心等待,完成后会自动开启。至此,一个简单的采集流程就完成了。
更多其他功能,期待您的发现。