内容采集(本文介绍使用优采云采集*敏*感*词*帖子内容的方法 )

优采云 发布时间: 2022-02-02 21:23

  内容采集(本文介绍使用优采云采集*敏*感*词*帖子内容的方法

)

  本文介绍如何使用优采云采集*敏*感*词*发帖内容。

  这只是其中一篇文章的示例:

  旅游某帖贴吧(【集中帖】2018年1、2月,请进来注册

  )

  采集内容包括:贴吧发帖内容,贴吧用户昵称

  使用功能点:

  l创建循环页面

  l修改 Xpath

  第一步:创建*敏*感*词*发布内容采集任务1)进入主界面,选择“自定义采集”

  

  2)将想要的采集的网站URL复制粘贴到输入框中,点击“保存URL”

  

  第 2 步:创建循环页面

  1)网页打开后,将鼠标拉到底部,选择下一页,在提示框中选择“循环点击下一页”

  

  2)鼠标选中帖子的回复,在右侧提示框中选择“全选”

  

  2)如果要采集贴吧的其他信息,也可以选择,这里是贴吧昵称,贴吧昵称。

  

  然后选择“采集Data”删除不需要的字段。

  

  第 3 步:修改 XPATH

  1)保存后采集发现有些帖子内容不正确采集,需要修改XPATH,打开右上角的进程按钮

  

  2)点击循环选项,“循环模式”选择“未固定元素列表”,“未固定元素列表”填写XPATH://div[@class="l_post j_l_post l_post_bright "]。

  

  2)点击“提取数据”修改贴吧发布内容XPATH。选择帖子内容字段,点击“自定义数据字段”->“自定义元素定位”,设置:

  元素匹配 XPATH:

  //div[@class="l_post j_l_post l_post_bright "]//div[@class="d_post_content j_d_post_content clearfix"]

  相对 XPATH:

  //div[@class="d_post_content j_d_post_content clearfix"]

  

  选择帖子内容字段

  

  自定义数据字段位置

  

  发布内容字段数据提取xpath设置

  3)修改贴吧用户昵称XPATH。选择贴吧用户昵称字段,点击“自定义数据字段”->“自定义元素定位”,设置:

  元素匹配 XPATH:

  //div[@class="l_post j_l_post l_post_bright "]//li[@class="d_name"]/a

  相对 XPATH:

  //li[@class="d_name"]/a

  

  选择贴吧用户昵称字段

  第五步:*敏*感*词*发布内容数据采集并导出

  1)打开进程按钮,修改采集字段名,点击“保存并开始采集”

  

  启动本地采集

  

  设置完成后会弹出提示,选择“导出数据”,选择“合适的导出方式”,导出采集好的数据。这里我们选择excel作为导出格式,一个完整的*敏*感*词*帖子内容为采集好了,数据导出如下图

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线