厉害了!一键备份/导出大佬的所有微博!
优采云 发布时间: 2022-06-17 21:09厉害了!一键备份/导出大佬的所有微博!
微博,是我们的吃瓜「圣地」,除此之外,很多大佬的微博也是富有深意,值得阅读。
有时,由于这样或那样的原因,大佬们会删掉微博或被删掉。
由此,将一些大佬的微博进行备份,就有了一定的意义。
本文主要介绍几种微博导出的方式,并进行简单的操作演示。
1 采集器
首先想到的就是爬虫,当然不是爬虫代码,而是采集器。
采集器的特点即,所见即所采,也就是你能看到的就能采集,页面上看不到的,基本上无能为力。比如,页面上需要一些额外操作才能采集的,比如一些反爬机制。
市面上采集器有很多,比如:
采集器有一定的使用门槛,但门槛不高,基本上无需代码,简单配置后即可完成简单的采集,适用于普通网站(列表型)数据采集,如果网站防爬机制过多,那么采集器就会有点无能为力。
采集器的采集结果一般是表格,所以适用于采集一些格式化的表格、列表等,采集结果适合做数据分析。
这里我们以优采云采集器为例。
一般采集器都是免费使用,官网均提供安装包。
优采云采集器安装打开后的页面如下:
默认提供了流程图模式和智能模式。
流程图模式,是我们根据提示手动进行采集规则的设置,包括要采集哪些东西、如何分页等;
智能模式,官方说是基于人工智能,自动识别采集内容和分页等;
一般格式化
一般我会选流程图模式,点击流程图模式的开始采集。
在输入框输入要采集的网址,这里我们以硅谷王川的微博为例,地址为:
然后,点击立即创建,此时会自动加载出王川老师的微博页面:
对于一些需要登录才能采集的网址,可以点击右上角的预登录(类似于看微博需要登录),之后采集时就可以在登录状态下进行了。
登录后,点击登录完成即可,当然也可以采用手动输入Cookies的方式(左下角)。
如果是格式化比较好的网站,一般可以自动识别处列表。
然而微博不是,需要我们手动进行列表选择。
手动选择元素后,采集器会识别处是否是列表,同时识别处分页类型,如果分页类型不对,我们可以根据实际情况进行修改。
列表确定后,就会自动识别并预采集结果,如右下角的表格:
此时,最下方,左侧就是采集的流程图,右侧即为采集预览结果。
可以根据需要对所要采集的字段进行调整。
然后点击开始采集,即可开始,采集过程中可以实时预览采集结果:
采集完成后,会有弹窗:
我们发现,数据少了很多,原因很多,大概率是触及了反爬策略,可以参考优采云采集器的官方帮助中心处理下:#/
我们再来看下采集的数据,最终的效果就是一个表格:
从浏览的角度看,采集结果很不友好,如果用来做数据分析,倒还可以。
优采云采集器能做的远不止这些,有兴趣的可以留言区留言,我可以多写一写。
2 Octoman微博备份
Chrome 浏览器扩展:Octoman微博备份,插件地址:#/
安装插件过程不再赘述,安装后,进入某个微博主页后,点击插件图标,可以看到会自动读取到用户列表:
点击保存按钮,即可开始,保存过程中:
操作过程中可能出现下图情况:
点击后:
这种情况下,需要等待一段时间。
数据量大的情况下,整体时间会比较长。
任务完成后,点击图标,可以看到完成
此时会自动下载备份HTML文件
未完成也可以点击立即停止
数据导出效果:
所有数据均导出为一个HTML,阅读起来比较方便友好。
但是全文未自动展开,点击后会跳转到原微博。
图片仍是从原图链接加载,未离线导出,作者删除原微博或在离线环境下,将无法查看图片。
不过,总的查看效果,还是要远优于采集器的。
另外,官方也有一些使用提示:
3 稳部落
稳部落,是一款开源的微博导出工具,官方称其为:专业备份导出微博记录。并且提供了Windows和Mac版本的安装包。
开源项目地址:#/
其大概工作原理是登录 后, 模拟浏览器访问, 获取登录用户发布的所有微博并备份之。
软件安装完成,打开后的页面:
可以看到,需要填写待备份微博的主页地址,比如,我们填入:
点击同步用户信息后,可以得到该用户的微博个数、总页数、预计抓取时长等。
另*敏*感*词*,来变相实现断点续传。
再往下的高级设置,可以选择只导出原创、只导出文章、按时间范围导出等。
这里建议跳过输出PDF,因为输出的PDF全为图片格式,阅读体验并不好,同时还会让整体的备份时间延长很多。
设置完成后,点击开始备份,即可开始。
抓取过程中,还可以查看运行日志:
任务执行完成后,会自动输出文件到安装目录,同时会自动打开电子书目录:
导出效果:
导出目录结构如下,可以看出将原微博的样式、图片等,都进行了导出。
.<br />└── 硅谷王川-微博整理-(2021-12-26~2022-01-21)<br /> ├── css<br /> │ ├── bootstrap.css<br /> │ ├── customer.css<br /> │ ├── markdown.css<br /> │ └── normalize.css<br /> ├── font<br /> │ └── iconfont.ttf<br /> ├── html<br /> │ ├── 2021-12-26.html<br /> │ ├── 2021-12-27.html<br /> │ ├── 2021-12-28.html<br />......(省略部分)<br /> │ ├── 2022-01-20.html<br /> │ ├── 2022-01-21.html<br /> │ └── index.html<br /> ├── html_to_pdf<br /> ├── image<br /> │ ├── 70c0d545d4733c627f86404e292068bc_/large/006KaYbfgy1gxvs2oa31gj30bs0bsmy3.jpg<br /> │ ├── cover.jpg<br /> │ ├── kanshan.png<br /> │ └── sprite.svg<br /> └── pdf<br />
在HTML目录中,有一个index.html索引页,点击查看,是按日期对微博进行的索引展示,点击可以查看对应日期的微博内容。
具体导出效果:
展开内容自动展开:
图片可以离线导出:
P.S. 今天在写文章时,出现图片无法下载的情况,目前不确定什么原因。
在管理数据栏,还可以查看已导出的微博情况:
点击筛选后还可以直接阅览:
4 总结
总的来说,稳部落是目前来看功能最为强大,使用也最为简单。
可以离线备份原图、自动展开全文,最主要是可以控制防封,在被ban掉时,可以继续请求。
当然,缺点也是有:转换成PDF效果较差,是直接用网页转的图片制作的,如果是可编辑格式的PDF,并且按日期排序,并配上日期目录,那就完美了!
其实,最为牛逼的导出方法,就是自己写代码,完全自定义实现。
从上面介绍的工具,也可以看出,自己实现一个微博导出工具,不是说不可能,起码是不太容易,要考虑反爬、样式处理、图片处理、不同类型的消息处理等等。
我相信,这些对于一些程序员是不难的。
但是对于我这种,还是用现成的轮子吧~
文中提到的工具,访问文中的网址可以直接查看使用,嫌麻烦的,可以在本公众号后台回复【微博】获取。
如果有人对采集器感兴趣,请留言,根据留言情况,我再决定是否专门写下采集器。