文章采集规则(图片如下:4.列表页采集设置4.1获取列表(组图))

优采云 发布时间: 2021-09-05 22:43

  文章采集规则(图片如下:4.列表页采集设置4.1获取列表(组图))

  1.登录后台,点击“内容管理”,选择“采集管理”。

  

  本主题相关图片如下:

  2.在“采集Management Wizard”中选择“添加采集Project”。

  

  本主题相关图片如下:

  3.采集项目设置这里以采集亿讯网络学院的c#部分为例

  

  本主题相关图片如下:

  注意:编码选择为我们提供了三种编码方式(指网站的编码即采集)。怎么知道采集网站的编码方式?答案是看对方的源码。

  易讯网>>学院>>程序开发>>C#语言

  看一下上面的代码,对方使用的是GB2312,所以我这里也选择了GB2312。

  4.List page采集Settings

  4.1获取列表页

  

  本主题相关图片如下:

  点击“测试列表”按钮,左边的源代码文本框会根据规则截取相应的源代码。

  

  本主题相关图片如下:

  4.2获取连接

  

  本主题相关图片如下:

  

  本主题相关图片如下:

  点击“测试连接”按钮,左边的源代码文本框会根据规则截取相应的源代码。

  4.3 分页设置

  

  本主题相关图片如下:

  5.内容页采集Settings 我只以文章title 和文章content 为例。您可以根据需要设置其他选项。

  5.1 获取文章的标题

  

  本主题相关图片如下:

  

  本主题相关图片如下:

  选择列表中的“标题”列。使用采集rule。点击“Set采集rule”按钮,设置字段的开始和结束代码。单击测试字段。左侧的源代码文本框显示了结果。标题已定。

  5.2获取文章内容设置

  选择列表中的“文章内容”栏。使用采集rules 并点击“Set采集rules”按钮

  

  本主题相关图片如下:

  

  本主题相关图片如下:

  设置字段的起止码,可以根据网站的需要选择过滤参数。点击测试字段左侧的源代码文本框,显示结果文章Content is set。

  注意:通过匹配获取文章内容时,可以通过选择左侧下拉列表中的网页列表来分析文章内容,并选择合适的字段作为开始和结束标签。以求完美。

  

  本主题相关图片如下:

  6.Project采集

  在采集管理向导中,选择“Start采集”,选择你想要采集的项目,点击“Start采集”按钮采集启动系统。

  

  本主题相关图片如下:

  

  本主题相关图片如下:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线