采集文章系统(优采云大数据采集网站:使用功能点:URL列表信息采集 )
优采云 发布时间: 2021-08-29 22:06采集文章系统(优采云大数据采集网站:使用功能点:URL列表信息采集
)
采集网站:
使用功能点:
网址
分页列表信息采集
搜狗微信搜索:搜狗微信搜索是搜狗于2014年6月9日推出的微信公众平台。“微信搜索”支持搜索微信公众号和微信文章,可以通过关键词搜索相关微信公众号@,或文章微信公众号推送。不仅是PC端,搜狗手机搜索客户端也会推荐相关的微信公众号。
搜狗微信文章采集数据说明:本文在搜狗微信-搜索-优采云大数据的文章信息采集进行。本文仅以“搜狗微信-搜索-优采云大数据的文章信息采集”为例。实际操作中,您可以根据自己的需要,将搜狗微信的搜索词更改为执行数据采集。
搜狗微信文章采集detail采集字段说明:微信文章title、微信文章keywords、微信文章generalization、微信公众号、微信文章发布时间、微信文章地址。
第一步:创建采集task
1)进入主界面,选择“自定义模式”
2)将采集的网址复制粘贴到网站输入框中,点击“保存网址”
第 2 步:创建翻页循环
1)打开右上角的“进程”。点击页面文章搜索框,在右侧操作提示框中选择“输入文字”
2)输入要搜索的文章信息,这里以搜索“优采云大数据”为例,输入完成后点击“确定”按钮
3)“优采云大数据”会自动填写搜索框,点击“search文章”按钮,在操作提示框中选择“点击此按钮”
“优采云大数据”的文章搜索结果出现在4)页面上。将结果页下拉至底部,点击“下一页”按钮,在右侧操作提示框中选择“循环点击下一页”
第 3 步:创建一个列表循环并提取数据
1)移动鼠标选择页面上的第一个文章块。系统将识别此块中的子元素。在操作提示框中选择“选择子元素”
2)继续选择页面第二篇文章中的区块,系统会自动选择第二篇文章中的子元素,并识别页面上其他10组相似元素, 在操作提示框中,选择“全选”
3) 我们可以看到页面上文章块中的所有元素都被选中并变成了绿色。在右侧的操作提示框中,会出现一个字段预览表。将鼠标移动到表头并单击垃圾桶图标以删除不需要的字段。字段选择完成后,选择“采集以下数据”
4) 因为我们还想要采集 每个文章 URL,所以我们需要再提取一个字段。点击第一篇文章文章的链接,再点击第二篇文章文章的链接,系统会自动在页面上选择一组文章链接。在右侧的操作提示框中选择“采集以下链接地址”
关键词0@
关键词1@字段选择完成后,选择对应的字段,自定义字段的命名。完成后点击左上角的“保存并开始”开始采集task
关键词2@
关键词3@ 选择“启动本地采集”
关键词4@
第四步:数据采集并导出
1)采集完成后会弹出提示,选择“导出数据”,选择“合适的导出方式”,导出采集好搜狗微信文章的数据
关键词6@
2)这里我们选择excel作为导出格式,导出数据如下图
关键词8@