云优cms采集(一个特好如何一口吃掉这么大一块肥肉呢?(图))

优采云 发布时间: 2022-01-06 11:02

  云优cms采集(一个特好如何一口吃掉这么大一块肥肉呢?(图))

  本文主要介绍“通用Discuz论坛采集爬虫”(以下简称“通用DZ爬虫”)的使用教程和注意事项。

  Discuz论坛作为cms网站的重要成员,在互联网上扮演着举足轻重的角色。很多知名论坛都能看到Discuz的影子,但是Discuz论坛那么多,你肯定采集起来不容易。这么大一块肥肉怎么一口吃掉?

  给大家介绍一个非常好用的通用Discuz爬虫~~

  首先,进入“通用DZ爬虫”概览页面,点击爬虫“应用设置”对爬虫进行配置。您可以“调整爬虫名称和描述”、“选择文件云托管方式”和“设置代理IP类型,将Discuz论坛网址配置为采集,选择要爬取的论坛版块需要采集 回复您帖子的数量等”,最后不要忘记点击“保存”。

  然后,进入“通用DZ爬虫”概览页面,点击“启动爬虫”,配置爬虫运行时使用的节点数,并选择是否设置定时任务,启动爬虫,爬虫会开始爬取数据,经过一会儿,您就可以在“爬取结果”页面上查看爬取的论坛数据。

  爬虫爬取到数据时,可以选择“将数据发布到数据库/网站/media”,另外,还可以选择“导出”数据。

  《通用DZ爬虫》论坛数据导出示例展示,如下图:

  

  目前能支持这么多Discuz论坛的爬虫并不多,只有少数几个平台(比如优采云大数据平台)支持,大家可以根据需要使用不同的平台~~

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线