干货教程:一键采集全网80%以上的Discuz论坛数据
优采云 发布时间: 2020-11-10 09:02一键点击采集整个网络中超过80%的Discuz论坛数据
本文主要介绍“ General Discuz论坛采集爬网程序”(以下简称“ DZ常规爬网程序”)的教程和注意事项。
作为cms网站的重要成员,Discuz论坛在Internet上扮演着至关重要的角色。许多知名的论坛都可以看到Discuz的影子,但是很多Discuz论坛都要求采集站起来并不容易。如何一口气吃掉这么大的脂肪?
让我向您介绍一个非常有用的通用Discuz采集器~~
首先,进入“常规DZ采集器”概述页面,单击采集器“应用程序设置”以配置采集器。您可以“调整采集器名称和描述”,“选择文件云托管方法”和“设置代理IP类型,将Discuz论坛URL配置为采集,选择要爬网的论坛部分以及需要回复的帖子数采集等待”,请不要忘记单击最后的“保存”。
然后,进入“常规DZ采集器”概述页面,单击“启动采集器”,配置在采集器运行期间使用的节点数,并选择是否设置定时任务,启动采集器,采集器将开始搜寻数据,过一会儿,您可以在“抓取结果”页面上查看抓取的论坛数据。
当采集器搜寻到数据时,您可以选择“将数据发布到数据库/ 网站 /媒体”。此外,您还可以选择“导出”数据。
“ General DZ Crawler”论坛数据导出的示例如下图所示:
当前,支持采集的Discuz论坛并不多,而且只有少数平台(例如优采云大数据平台)支持,您可以根据需要使用不同的平台~~