定向采集功能使用教程完整版

优采云 发布时间: 2023-11-22 15:47

定向采集,与使用关键词进行采集的主要区别是,它直接抓取目标页面或目标网址。提供三种模式:

  1. 跟踪采集:用户提交一个列表页网址,并选择页面上的某些位置的链接,采集系统进行持续跟踪,发现所选区域存在新网址时进行抓取。只跟踪一个单独页面,不支持设置翻页。
  2. 单次采集:用户提交一个列表页网址,并选择页面上的某些位置的链接,采集系统进行一次性抓取,直到把每个翻页上的历史文章全部抓取完为止。支持设置翻页范围,系统会自动翻页
  3. URL直采:用户提交一系列文章页网址,系统直接抓取文章页进行采集。

目录:

  1. 跟踪采集设置教程
  2. 单次采集设置教程
  3. 头条号百家号定向采集教程
  4. URL直采设置教程

跟踪采集设置教程:

首先从左侧栏找到任务目标管理,然后点击定向采集按钮。输入任务名称目标栏目ID(自媒体发布请填1),文章来源选择定向采集

点击下面框中跟踪采集按钮,输入要采集的目标网址。注意如果是采集头条号或百家号文章列表,系统还会自动显示阅读量过滤(请往后看)。

点击规则设置按钮,选取要采集的链接。

最后,保存即可完成任务添加。


单次采集设置教程:

单次采集与跟踪采集主要的不同,体现在翻页设置上。首先我们要找到目标网站的页码变量,我们以人民网经济科技栏目为例,先找到页码区

点击每个具体页码,看浏览器地址栏所显示的网址:

第1页:http://finance.people.com.cn/index1.html#fy01
第2页:http://finance.people.com.cn/index2.html#fy01
第3页:http://finance.people.com.cn/index3.html#fy01
第4页:http://finance.people.com.cn/index4.html#fy01
第5页:http://finance.people.com.cn/index5.html#fy01

可以看到网址有一个数字在变,而且跟页码相同,就是上面的index1,index2,index3,index4,index5,它就是我们要找到页码变量。在填写定向目标网址时,我们要把这个页码变量数字替换成{PageNo},如下所示:

http://finance.people.com.cn/index{PageNo}.html#fy01

现在我们把它填到设置中,并填上页码范围,比如1-5页,也可以倒着填,比如5-1页。页码顺序决定采集顺序。但注意,一条目标网址最多可翻100页,超过100页的可以另外再添加一条,然后翻页范围写为101-200,以此类推。

事实上,我们还提供了一个更为简便的方法,可以自动识别上述分析过程。您只需要把第一页的原始网址粘贴进去,点一下旁边的帮我填按钮,系统即会尝试自动识别页码变量,并帮你完成修改和填写,甚至会自动识别页码范围。您只需确认一下是否正确,适当修改页码范围即可。

单次采集的后续设置,即规则设置,与跟踪采集完全一样,请参照跟踪采集设置教程。


头条号百家号定向采集教程:

以头条号为例,首先要找到目标账号的主页。找到目标账号任意一篇文章,点击账号头像即可进入账号主页。

点击文章或者微头条,复制浏览器地址栏整个网址,粘贴到定向目标网址(不用去找页码变量,不用{PageNo}),并填上页码范围。注意头条号每页是20条文章,最多可采100页,也就是2000篇。

注意上图中出现了阅读量过滤的设置,系统只有在检测到您所填网址为头条号、百家号时,才会显示此输入框。

头条号支持文章和微头条分别采集,而百家号不支持区分文章和动态,只能选全部。

以上主要是讲头条号的单次采集,即采集历史文章,但如果您需要跟踪采集目标账号的更新文章,也是可以的。百家号同理。


URL直采设置教程:

当某些时候我们手上已经有很多文章页网址时,可以使用URL直采功能,把文章页网址直接导入系统进行采集。添加一个定向采集的任务,但不要添加任何定向目标,直接保存,完成任务创建。

(其实上述步骤只是为了创建一个定向任务,是否添加定向目标,都不影响URL直采)

在任务列表找到新添加的任务,点击定向设置按钮,再点击URL直采按钮,弹出网址导入页面。

直接把您的网址按照每行一个的格式粘贴到弹出框中即可,同一站点下最多保有5万个直采网址。当存在直采URL时,会优先抓取直采URL,顺序随机,之后如果任务有定向采集目标,会继续执行。系统会自动删除超过90天没有被抓取的URL。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线