如何文章采集(图片点击可在新窗口打开查看3.内容页采集项目设置)
优采云 发布时间: 2021-11-06 06:17如何文章采集(图片点击可在新窗口打开查看3.内容页采集项目设置)
1.登录后台,点击“内容管理”,选择“采集管理”。
点击图片在新窗口打开查看本专题相关图片如下:
点击图片打开新窗口查看
2. 在“采集管理向导”中,选择“添加采集项”。
点击图片在新窗口打开查看本专题相关图片如下:
点击图片打开新窗口查看
3.采集项目设置这里我们以采集易讯网络学院的c#部分为例
点击图片在新窗口打开查看本专题相关图片如下:
点击图片打开新窗口查看
注意:编码选择为我们提供了三种编码方式(指网站的编码即为采集)。如何知道采集网站的编码方式?答案是看对方的源码。
易讯网>>学院>>程序开发>>C#语言
上面的代码显示对方使用的是GB2312,所以我这里也选择GB2312。
4.列表页面采集设置
4.1获取列表页
点击图片在新窗口打开查看本专题相关图片如下:
点击图片打开新窗口查看
点击“测试列表”按钮左侧的源代码文本框,按照规则截取相应的源代码。
点击图片在新窗口打开查看本专题相关图片如下:
点击图片打开新窗口查看
4.2获取连接
点击图片在新窗口打开查看本专题相关图片如下:
点击图片打开新窗口查看
点击图片在新窗口打开查看本专题相关图片如下:
点击图片打开新窗口查看
点击左侧源文本框中的“测试连接”按钮,按照规则截取相应的源代码
4.3 分页设置
点击图片在新窗口打开查看本专题相关图片如下:
点击图片打开新窗口查看
5.内容页面采集设置我只会举例设置文章标题和文章内容等选项,大家可以根据自己的需要设置。
5.1 获取文章的title
点击图片在新窗口打开查看本专题相关图片如下:
点击图片打开新窗口查看
点击图片在新窗口打开查看本专题相关图片如下:
点击图片打开新窗口查看
选择列表中的“Title”栏使用采集规则,点击“设置采集规则”按钮设置字段的起止码,然后点击源代码文本框在测试字段的左侧显示结果标题集。
5.2获取文章内容设置
选择列表中的“文章Content”栏使用采集规则,点击“设置采集规则”按钮
点击图片在新窗口打开查看本专题相关图片如下:
点击图片打开新窗口查看
点击图片在新窗口打开查看本专题相关图片如下:
点击图片打开新窗口查看
设置好字段的起止码后,可以根据需要选择过滤参数。点击测试字段左侧的源代码文本框,显示结果文章内容设置完毕。
注:匹配获取文章的内容时,可以通过选择左侧下拉列表中的网页列表,选择合适的字段开始和结束来分析文章的内容标签。为了达到完美。
点击图片在新窗口打开查看本专题相关图片如下:
点击图片打开新窗口查看
6.项目采集
在采集管理向导中,选择“开始采集”,选择要采集的项目,点击“开始采集”按钮采集开始系统。
点击图片在新窗口打开查看本专题相关图片如下:
点击图片打开新窗口查看
点击图片在新窗口打开查看本专题相关图片如下:
点击图片打开新窗口查看