自动采集网站内容(本篇文章我教大家如何获取Cookies登录状态是通过Cookies判定的)

优采云发布时间: 2021-08-29 18:03

　　在这篇文章中文章我教你如何采集需要登录网站并自动下载其资源。

　　获取 Cookie

　　登录状态由Cookies决定，所以先登录目标网站，按F12打开开发者工具，将Cookies复制到剪贴板如下图。

　　然后在QQWorld采集器的采集品中新建一个，将复制的Cookies代码粘贴到Cookies输入框中：

　　设置采集rule 常规设置

　　设置采集列表链接、文章标题和文章内容选择器。这些都比较简单，这里不再赘述。不明白的请参考QQWorld采集器旗舰采集教程。

　　采集download 资源

　　因为填充了cookies，所以在爬取的网页内容中可以看到下载地址的代码，如图：

　　因为onclick属性中有多余的代码，只用引号括起来的内容就够了，所以要使用正则表达式采集，新建一个自定义列采集，设置方法如图图：

　　这里设置下载地址保存在win-down自定义列中，由于采集到达的地址是相对地址，需要根据完整地址加前缀。然后检查下载到本地目录。也可以勾选下载到媒体库，但首先要确保Wordpress媒体库允许上传这种格式。

　　格式文章content

　　大部分用户不会修改模板，所以不知道如何输出这个下载地址。 QQWorld 采集器提供文章content 格式化工具。在采集项的自动采集设置中，如下图设置：

　　可以使用四个短代码，分别代表文章content、文章title、文章custom 列和超链接。在自定义列简码的key属性中填写win-down输出下载地址。

　　结论

　　遗憾的是，需要付费的内容不能是采集。没有办法做到这一点。

　　教程到此结束。此功能应适用于广泛的应用程序。有很多用户需要登录下载网站，等我们去采集。还没用的朋友还在等什么？立即试用：QQWorld 采集器。

0

2021-08-29

自动采集网站内容

0 个评论

要回复文章请先登录或注册