采集文章系统(优采云大数据采集网站:使用功能点:URL列表信息采集 )

优采云 发布时间: 2021-08-29 22:06

  采集文章系统(优采云大数据采集网站:使用功能点:URL列表信息采集

)

  采集网站:

  使用功能点:

  网址

  分页列表信息采集

  搜狗微信搜索:搜狗微信搜索是搜狗于2014年6月9日推出的微信公众平台。“微信搜索”支持搜索微信公众号和微信文章,可以通过关键词搜索相关微信公众号@,或文章微信公众号推送。不仅是PC端,搜狗手机搜索客户端也会推荐相关的微信公众号。

  搜狗微信文章采集数据说明:本文在搜狗微信-搜索-优采云大数据的文章信息采集进行。本文仅以“搜狗微信-搜索-优采云大数据的文章信息采集”为例。实际操作中,您可以根据自己的需要,将搜狗微信的搜索词更改为执行数据采集。

  搜狗微信文章采集detail采集字段说明:微信文章title、微信文章keywords、微信文章generalization、微信公众号、微信文章发布时间、微信文章地址。

  第一步:创建采集task

  1)进入主界面,选择“自定义模式”

  

  2)将采集的网址复制粘贴到网站输入框中,点击“保存网址”

  

  第 2 步:创建翻页循环

  1)打开右上角的“进程”。点击页面文章搜索框,在右侧操作提示框中选择“输入文字”

  

  2)输入要搜索的文章信息,这里以搜索“优采云大数据”为例,输入完成后点击“确定”按钮

  

  3)“优采云大数据”会自动填写搜索框,点击“search文章”按钮,在操作提示框中选择“点击此按钮”

  

  “优采云大数据”的文章搜索结果出现在4)页面上。将结果页下拉至底部,点击“下一页”按钮,在右侧操作提示框中选择“循环点击下一页”

  

  第 3 步:创建一个列表循环并提取数据

  1)移动鼠标选择页面上的第一个文章块。系统将识别此块中的子元素。在操作提示框中选择“选择子元素”

  

  2)继续选择页面第二篇文章中的区块,系统会自动选择第二篇文章中的子元素,并识别页面上其他10组相似元素, 在操作提示框中,选择“全选”

  

  3) 我们可以看到页面上文章块中的所有元素都被选中并变成了绿色。在右侧的操作提示框中,会出现一个字段预览表。将鼠标移动到表头并单击垃圾桶图标以删除不需要的字段。字段选择完成后,选择“采集以下数据”

  

  4) 因为我们还想要采集 每个文章 URL,所以我们需要再提取一个字段。点击第一篇文章文章的链接,再点击第二篇文章文章的链接,系统会自动在页面上选择一组文章链接。在右侧的操作提示框中选择“采集以下链接地址”

  关键词0@

  关键词1@字段选择完成后,选择对应的字段,自定义字段的命名。完成后点击左上角的“保存并开始”开始采集task

  关键词2@

  关键词3@ 选择“启动本地采集”

  关键词4@

  第四步:数据采集并导出

  1)采集完成后会弹出提示,选择“导出数据”,选择“合适的导出方式”,导出采集好搜狗微信文章的数据

  关键词6@

  2)这里我们选择excel作为导出格式,导出数据如下图

  关键词8@

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线