优采云云采集服务平台微信文章抓取工具详细使用方法
优采云 发布时间: 2021-07-07 22:24优采云云采集服务平台微信文章抓取工具详细使用方法
优采云·云采集服务平台
WeChat文章抓取工具的详细使用
如今,越来越多的优质内容发布在微信公众号上。面对这些内容,有的朋友有采集下来的需求。这里介绍使用优采云Grabber 工具抓取采集微信文章信息。
抓取的内容包括:WeChat文章title、WeChat文章关键词、WeChat文章部分内容展示、微信公众号、WeChat文章发布时间、WeChat文章URL等字段数据.
采集网站:
第一步:创建采集task
1)进入主界面,选择“自定义模式”
优采云·云采集服务平台
2) 将采集的网址复制粘贴到网站输入框中,点击“保存网址”
优采云·云采集服务平台
WeChat文章抓包工具详细使用步骤2
第 2 步:创建翻页循环
1)在页面右上角,打开“流程”,显示“流程设计器”和“自定义当前操作”两个部分。点击页面文章搜索框,在右侧操作提示框中选择“输入文字”
优采云·云采集服务平台
WeChat文章抓取工具的详细使用步骤3
2)输入要搜索的文章信息,这里以搜索“优采云大数据”为例,输入完成后点击“确定”按钮
微信文章抓包工具详细使用步骤4
优采云·云采集服务平台
3)“优采云大数据”会自动填入搜索框,点击“search文章”按钮,在操作提示框中选择“点击此按钮”微信文章抓取工具详细使用步骤5
“优采云大数据”出现在4)页面
文章 搜索结果。将结果页下拉至底部,点击“下一页”按钮,在右侧操作提示框中选择“循环点击下一页”
优采云·云采集服务平台
WeChat文章抓取工具的详细使用步骤6
第 3 步:创建一个列表循环并提取数据
1)移动鼠标选择页面上的第一个文章块。系统将识别此块中的子元素。在操作提示框中选择“选择子元素”
优采云·云采集服务平台
WeChat文章抓取工具的详细使用步骤7
2)继续选择页面第二篇文章文章的区块,系统会自动选择第二篇文章文章的子元素,并识别页面其他10组相似元素, 在操作提示框中,选择“全选”
WeChat文章抓取工具的详细使用步骤8
优采云·云采集服务平台
3) 我们可以看到页面上文章块中的所有元素都被选中并变成了绿色。在右侧的操作提示框中,会出现一个字段预览表。将鼠标移动到表头并单击垃圾桶图标以删除不需要的字段。字段选择完成后,选择“采集关注数据”微信文章爬虫工具详细使用步骤94)由于我们也想要采集每个文章的网址,所以我们还需要提取一个字段先点击
文章文章的链接,然后点击第二篇文章文章的链接,系统会自动在页面上选择一组文章链接。在右侧的操作提示框中选择“采集以下链接地址”
优采云·云采集服务平台
WeChat文章抓包工具的详细使用步骤10
5)字段选择完成后,选择对应的字段,自定义字段的命名。完成后点击左上角的“保存并开始”开始采集task
Wechat文章Grabber 工具详细使用步骤11
6) 选择“启动本地采集”
优采云·云采集服务平台
Wechat文章Grabber 工具详细使用步骤12
第四步:数据采集并导出
1)采集完成后会弹出提示,选择“导出数据”,选择“合适的导出方式”,导出采集好搜狗微信文章的数据
优采云·云采集服务平台
Wechat文章Grabber 工具详细使用步骤13
2)这里我们选择excel作为导出格式,导出数据如下图
WeChat文章抓取工具的详细使用步骤14
注:采集通过这种方式下载的搜狗微信文章URL是时间敏感的,会在短时间内提供
优采云·云采集服务平台
内无效。这是由于搜狗微信自身的局限性所致。
相关采集tutorial:
京东商品信息采集
新浪微博数据采集
58同城信息采集
优采云——70万用户采集器选择的网页数据。
1、操作简单,任何人都可以使用:无需技术背景,在网上就可以采集。过程完全可视化,点击鼠标即可完成操作,2分钟即可快速上手。
2、功能强大,任何网站都能捡到:点击、登录、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据。 采集可以轻松设置。
3、云采集,你也可以关机。 采集任务配置完成后可以关闭采集任务,任务可以在云端执行。庞达云采集集群24*7不间断运行,无需担心IP被封,网络中断。
4、功能免费+增值服务,可根据需要选择。免费版功能齐全,可以满足用户基本的采集需求。同时,还建立了一些增值服务(如私有云),以满足高端付费企业用户的需求。