如何采集优采云7.6.4版本?看完你就知道了
优采云 发布时间: 2021-07-24 01:25如何采集优采云7.6.4版本?看完你就知道了
优采云可以轻松抓取大部分软件用户评论,如去哪儿、携程等。网站用户评论,基于珠海长隆海洋王国的“去哪儿旅行”评论例如使用优采云7.6.4 版本采集:
第一步:进入首页→自定义采集(图片1)→输入网址(图片2)→保存网址)
图一
图二
第2步:优采云进入界面后,点击其中一条评论,一定要点击整个蓝框区域(图3)→再次点击另一条评论→此时整个页面的评论会被绿框覆盖(picture4)
注意:此步骤的目的是点击两条相似信息,以便优采云识别并自动选择所有剩余的相似信息。
图 3
图 4
第三步:点击页面右侧的“采集以下元素文字”(图片5)→拉到页面底部的翻页框(图片6)点击“下一页"
图 5
图 6
第四步:此时出现页面右上角提示框如图7,点击“循环点击下一页”(图7)→点击“开始采集”在左上角(图8)
图 7
图 8
第五步:启动本地采集(图片9)→然后启动采集(图片10)→等待采集去重复成功后,可以选择需要的导出类型(图11、图12)
图 9
图 10
图 11
图 12
微博正文3.采集
目前我只有采集over携程、去哪儿和微博数据,但是采集微博数据真的很抓狂,最后我觉得这个方法不错。首先,在软件版本的选择上,我还是比较喜欢用优采云7.6.4版本。与最新版本相比,这个旧版本更方便。
首先我在采集微博数据处理过程中遇到的问题:
首先,如果你不登录,采集是不允许的
二、无法获取自动下拉的数据
三、无法自动翻页
基于以上两个问题,一个好的解决方案是使用优采云提供的简单的采集模板。使用简单的模板可以很好的解决第一、第二个问题,但是要完全自动翻页是非常困难的,所以最好自己手动输入每个页面的URL。具体方法如下:
第一步:进入首页→simple采集(图13)→微博网页(图14)→微博大师主页(图15)),有两个选项,你有选择“博主首页微博-博文”(图16)→点击“立即使用”(图16)
图 13
图 14
图 15
图 16
第2步:填写采集模板信息(图17)→URL、微博账号密码、翻页次数1和翻页次数2(图18)→点击“保存并开始”)
具体来说,我倾向于单独输入每个页面的URL,这样可以更好的实现翻页功能,不会遗漏数据。微博账号密码填写正确,系统一般会自动填写,以免采集过程中因未登录而导致采集停止。翻页次数1和翻页次数2需要填写相同的数字,因为每个页面的URL都已经输入,所以翻页次数不要填写超过1,否则会有数据重复采集.
图 17
图 18
第三步:启动本地采集(图19)→再启动采集
图 19
第四步:优采云会根据你提供的账号密码自动登录个人微博信息(图20),但是我的账号不能自动填写,需要重新手动输入(这个也可能是个别情况),登录后需要用微博移动端再次扫码(图21)
图 20
图 21
第五步:采集启动,第一个采集启动会比较慢,但是后面速度会加快
第六步:结束采集,去除重复数据,选择需要的数据类型并导出(图22)
图 22
4.微博简单模板扩展使用:某博主身体的具体主题数据采集
这个简单的采集模板其实可以用在很多地方。只要本质是“网址”,就可以实现采集很多数据,除了微博博主采集的所有博文,我们也只能采集一个博主的博文信息关于某个话题。以《广州日报》为例。如果我们只想获取《广州日报》中“新冠疫情”的博文信息,可以先在网页上登录微博账号,进入《广州日报》首页,点击“全部”,然后在搜索栏中输入您要获取的博文信息,然后输入上面的简单模板,逐页输入网址即可获取广州日报“新冠疫情”的所有文字数据。
图 23