解决方案:sublocatorjava插件:文章采集完成后,将excel处理成csv格式

优采云 发布时间: 2022-11-01 01:13

  解决方案:sublocatorjava插件:文章采集完成后,将excel处理成csv格式

  文章采集成后,将excel处理成csv格式。

  一、优采云采集-采集单个城市的csv数据文件

  

  2、优采云采集-采集单个城市的csv数据

  3、优采云采集-采集单个城市的csv数据

  二、爬虫上传数据文件(可以采集中国所有的城市)

  

  4、优采云采集-采集20个城市爬虫

  1.新建用户和密码,并初始化。2.打开excel,选择数据-存储-navicat勾选postrequest以后记得勾选usernamepasswords2016,建议使用更新最快的二代navicat。3.爬虫点击数据源中的csv文件,之后,会进行url的爬取,进行结构性的爬取并存储到数据库,你需要的时候再查询,这点挺好的。

  4.关于数据集的查询及其对应的关系,可以按照爬取数据字段的分组进行分析查询,这点很好用,但是建议用关系型数据库,nosql暂时不用。5.编辑并上传数据,你会得到一个数据文件,之后再去postrequest接受,输入验证码后就可以上传成功,其实爬取post时有很多的错误,有时候也没有提示什么可以改的,是有可能导致爬取失败的,这点很头疼,第一次操作,有点紧张。

  6.爬取完成后,回到excel,选择对应的城市,把结果导出。在query里的内容不一定是你需要的,你需要进行对应的修改,利用excel自带的“切片器”来进行筛选,筛选用的是pivot函数,如果你不会用pivot,可以查看下我专栏的pivot介绍,链接在这:sublocatorjava插件带你get、show、plot、tablecreate、viewviewcenter、excelcolumncreate和onlinedatamapping。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线