文章采集规则(图片如下:4.列表页采集设置4.1获取列表(组图))
优采云 发布时间: 2021-09-05 22:43文章采集规则(图片如下:4.列表页采集设置4.1获取列表(组图))
1.登录后台,点击“内容管理”,选择“采集管理”。
本主题相关图片如下:
2.在“采集Management Wizard”中选择“添加采集Project”。
本主题相关图片如下:
3.采集项目设置这里以采集亿讯网络学院的c#部分为例
本主题相关图片如下:
注意:编码选择为我们提供了三种编码方式(指网站的编码即采集)。怎么知道采集网站的编码方式?答案是看对方的源码。
易讯网>>学院>>程序开发>>C#语言
看一下上面的代码,对方使用的是GB2312,所以我这里也选择了GB2312。
4.List page采集Settings
4.1获取列表页
本主题相关图片如下:
点击“测试列表”按钮,左边的源代码文本框会根据规则截取相应的源代码。
本主题相关图片如下:
4.2获取连接
本主题相关图片如下:
本主题相关图片如下:
点击“测试连接”按钮,左边的源代码文本框会根据规则截取相应的源代码。
4.3 分页设置
本主题相关图片如下:
5.内容页采集Settings 我只以文章title 和文章content 为例。您可以根据需要设置其他选项。
5.1 获取文章的标题
本主题相关图片如下:
本主题相关图片如下:
选择列表中的“标题”列。使用采集rule。点击“Set采集rule”按钮,设置字段的开始和结束代码。单击测试字段。左侧的源代码文本框显示了结果。标题已定。
5.2获取文章内容设置
选择列表中的“文章内容”栏。使用采集rules 并点击“Set采集rules”按钮
本主题相关图片如下:
本主题相关图片如下:
设置字段的起止码,可以根据网站的需要选择过滤参数。点击测试字段左侧的源代码文本框,显示结果文章Content is set。
注意:通过匹配获取文章内容时,可以通过选择左侧下拉列表中的网页列表来分析文章内容,并选择合适的字段作为开始和结束标签。以求完美。
本主题相关图片如下:
6.Project采集
在采集管理向导中,选择“Start采集”,选择你想要采集的项目,点击“Start采集”按钮采集启动系统。
本主题相关图片如下:
本主题相关图片如下: