内容采集(本文介绍使用优采云采集*敏*感*词*帖子内容的方法 )
优采云 发布时间: 2022-02-02 21:23内容采集(本文介绍使用优采云采集*敏*感*词*帖子内容的方法
)
本文介绍如何使用优采云采集*敏*感*词*发帖内容。
这只是其中一篇文章的示例:
旅游某帖贴吧(【集中帖】2018年1、2月,请进来注册
)
采集内容包括:贴吧发帖内容,贴吧用户昵称
使用功能点:
l创建循环页面
l修改 Xpath
第一步:创建*敏*感*词*发布内容采集任务1)进入主界面,选择“自定义采集”
2)将想要的采集的网站URL复制粘贴到输入框中,点击“保存URL”
第 2 步:创建循环页面
1)网页打开后,将鼠标拉到底部,选择下一页,在提示框中选择“循环点击下一页”
2)鼠标选中帖子的回复,在右侧提示框中选择“全选”
2)如果要采集贴吧的其他信息,也可以选择,这里是贴吧昵称,贴吧昵称。
然后选择“采集Data”删除不需要的字段。
第 3 步:修改 XPATH
1)保存后采集发现有些帖子内容不正确采集,需要修改XPATH,打开右上角的进程按钮
2)点击循环选项,“循环模式”选择“未固定元素列表”,“未固定元素列表”填写XPATH://div[@class="l_post j_l_post l_post_bright "]。
2)点击“提取数据”修改贴吧发布内容XPATH。选择帖子内容字段,点击“自定义数据字段”->“自定义元素定位”,设置:
元素匹配 XPATH:
//div[@class="l_post j_l_post l_post_bright "]//div[@class="d_post_content j_d_post_content clearfix"]
相对 XPATH:
//div[@class="d_post_content j_d_post_content clearfix"]
选择帖子内容字段
自定义数据字段位置
发布内容字段数据提取xpath设置
3)修改贴吧用户昵称XPATH。选择贴吧用户昵称字段,点击“自定义数据字段”->“自定义元素定位”,设置:
元素匹配 XPATH:
//div[@class="l_post j_l_post l_post_bright "]//li[@class="d_name"]/a
相对 XPATH:
//li[@class="d_name"]/a
选择贴吧用户昵称字段
第五步:*敏*感*词*发布内容数据采集并导出
1)打开进程按钮,修改采集字段名,点击“保存并开始采集”
启动本地采集
设置完成后会弹出提示,选择“导出数据”,选择“合适的导出方式”,导出采集好的数据。这里我们选择excel作为导出格式,一个完整的*敏*感*词*帖子内容为采集好了,数据导出如下图