自动采集网站内容(本篇文章我教大家如何获取Cookies登录状态是通过Cookies判定的)

优采云 发布时间: 2021-08-29 18:03

  自动采集网站内容(本篇文章我教大家如何获取Cookies登录状态是通过Cookies判定的)

  在这篇文章中文章我教你如何采集需要登录网站并自动下载其资源。

  获取 Cookie

  登录状态由Cookies决定,所以先登录目标网站,按F12打开开发者工具,将Cookies复制到剪贴板如下图。

  

  然后在QQWorld采集器的采集品中新建一个,将复制的Cookies代码粘贴到Cookies输入框中:

  

  设置采集rule 常规设置

  设置采集 列表链接、文章 标题和文章 内容选择器。这些都比较简单,这里不再赘述。不明白的请参考QQWorld采集器旗舰采集教程。

  采集download 资源

  因为填充了cookies,所以在爬取的网页内容中可以看到下载地址的代码,如图:

  

  因为onclick属性中有多余的代码,只用引号括起来的内容就够了,所以要使用正则表达式采集,新建一个自定义列采集,设置方法如图图:

  

  这里设置下载地址保存在win-down自定义列中,由于采集到达的地址是相对地址,需要根据完整地址加前缀。然后检查下载到本地目录。也可以勾选下载到媒体库,但首先要确保Wordpress媒体库允许上传这种格式。

  格式文章content

  大部分用户不会修改模板,所以不知道如何输出这个下载地址。 QQWorld 采集器提供文章content 格式化工具。在采集项的自动采集设置中,如下图设置:

  

  可以使用四个短代码,分别代表文章content、文章title、文章custom 列和超链接。在自定义列简码的key属性中填写win-down输出下载地址。

  结论

  遗憾的是,需要付费的内容不能是采集。没有办法做到这一点。

  教程到此结束。此功能应适用于广泛的应用程序。有很多用户需要登录下载网站,等我们去采集。还没用的朋友还在等什么?立即试用:QQWorld 采集器。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线