厉害了！一键备份/导出大佬的所有微博！

优采云发布时间: 2022-06-17 21:09

　　厉害了！一键备份/导出大佬的所有微博！

　　微博，是我们的吃瓜「圣地」，除此之外，很多大佬的微博也是富有深意，值得阅读。

　　有时，由于这样或那样的原因，大佬们会删掉微博或被删掉。

　　由此，将一些大佬的微博进行备份，就有了一定的意义。

　　本文主要介绍几种微博导出的方式，并进行简单的操作演示。

　　1 采集器

　　首先想到的就是爬虫，当然不是爬虫代码，而是采集器。

　　采集器的特点即，所见即所采，也就是你能看到的就能采集，页面上看不到的，基本上无能为力。比如，页面上需要一些额外操作才能采集的，比如一些反爬机制。

　　市面上采集器有很多，比如：

　　采集器有一定的使用门槛，但门槛不高，基本上无需代码，简单配置后即可完成简单的采集，适用于普通网站（列表型）数据采集，如果网站防爬机制过多，那么采集器就会有点无能为力。

　　采集器的采集结果一般是表格，所以适用于采集一些格式化的表格、列表等，采集结果适合做数据分析。

　　这里我们以优采云采集器为例。

　　一般采集器都是免费使用，官网均提供安装包。

　　优采云采集器安装打开后的页面如下：

　　默认提供了流程图模式和智能模式。

　　流程图模式，是我们根据提示手动进行采集规则的设置，包括要采集哪些东西、如何分页等；

　　智能模式，官方说是基于人工智能，自动识别采集内容和分页等；

　　一般格式化

　　一般我会选流程图模式，点击流程图模式的开始采集。

　　在输入框输入要采集的网址，这里我们以硅谷王川的微博为例，地址为：

　　然后，点击立即创建，此时会自动加载出王川老师的微博页面：

　　对于一些需要登录才能采集的网址，可以点击右上角的预登录（类似于看微博需要登录），之后采集时就可以在登录状态下进行了。

　　登录后，点击登录完成即可，当然也可以采用手动输入Cookies的方式（左下角）。

　　如果是格式化比较好的网站，一般可以自动识别处列表。

　　然而微博不是，需要我们手动进行列表选择。

　　手动选择元素后，采集器会识别处是否是列表，同时识别处分页类型，如果分页类型不对，我们可以根据实际情况进行修改。

　　列表确定后，就会自动识别并预采集结果，如右下角的表格：

　　此时，最下方，左侧就是采集的流程图，右侧即为采集预览结果。

　　可以根据需要对所要采集的字段进行调整。

　　然后点击开始采集，即可开始，采集过程中可以实时预览采集结果：

　　采集完成后，会有弹窗：

　　我们发现，数据少了很多，原因很多，大概率是触及了反爬策略，可以参考优采云采集器的官方帮助中心处理下：#/

　　我们再来看下采集的数据，最终的效果就是一个表格：

　　从浏览的角度看，采集结果很不友好，如果用来做数据分析，倒还可以。

　　优采云采集器能做的远不止这些，有兴趣的可以留言区留言，我可以多写一写。

　　2 Octoman微博备份

　　Chrome 浏览器扩展：Octoman微博备份，插件地址：#/

　　安装插件过程不再赘述，安装后，进入某个微博主页后，点击插件图标，可以看到会自动读取到用户列表：

　　点击保存按钮，即可开始，保存过程中：

　　操作过程中可能出现下图情况：

　　点击后：

　　这种情况下，需要等待一段时间。

　　数据量大的情况下，整体时间会比较长。

　　任务完成后，点击图标，可以看到完成

　　此时会自动下载备份HTML文件

　　未完成也可以点击立即停止

　　数据导出效果：

　　所有数据均导出为一个HTML，阅读起来比较方便友好。

　　但是全文未自动展开，点击后会跳转到原微博。

　　图片仍是从原图链接加载，未离线导出，作者删除原微博或在离线环境下，将无法查看图片。

　　不过，总的查看效果，还是要远优于采集器的。

　　另外，官方也有一些使用提示：

　　3 稳部落

　　稳部落，是一款开源的微博导出工具，官方称其为：专业备份导出微博记录。并且提供了Windows和Mac版本的安装包。

　　开源项目地址：#/

　　其大概工作原理是登录后, 模拟浏览器访问, 获取登录用户发布的所有微博并备份之。

　　软件安装完成，打开后的页面：

　　可以看到，需要填写待备份微博的主页地址，比如，我们填入：

　　点击同步用户信息后，可以得到该用户的微博个数、总页数、预计抓取时长等。

　　另*敏*感*词*，来变相实现断点续传。

　　再往下的高级设置，可以选择只导出原创、只导出文章、按时间范围导出等。

　　这里建议跳过输出PDF，因为输出的PDF全为图片格式，阅读体验并不好，同时还会让整体的备份时间延长很多。

　　设置完成后，点击开始备份，即可开始。

　　抓取过程中，还可以查看运行日志：

　　任务执行完成后，会自动输出文件到安装目录，同时会自动打开电子书目录：

　　导出效果：

　　导出目录结构如下，可以看出将原微博的样式、图片等，都进行了导出。

. └── 硅谷王川-微博整理-(2021-12-26~2022-01-21) ├── css │ ├── bootstrap.css │ ├── customer.css │ ├── markdown.css │ └── normalize.css ├── font │ └── iconfont.ttf ├── html │ ├── 2021-12-26.html │ ├── 2021-12-27.html │ ├── 2021-12-28.html ......（省略部分） │ ├── 2022-01-20.html │ ├── 2022-01-21.html │ └── index.html ├── html_to_pdf ├── image │ ├── 70c0d545d4733c627f86404e292068bc_／large／006KaYbfgy1gxvs2oa31gj30bs0bsmy3.jpg │ ├── cover.jpg │ ├── kanshan.png │ └── sprite.svg └── pdf

　　在HTML目录中，有一个index.html索引页，点击查看，是按日期对微博进行的索引展示，点击可以查看对应日期的微博内容。

　　具体导出效果：

　　展开内容自动展开：

　　图片可以离线导出：

　　P.S. 今天在写文章时，出现图片无法下载的情况，目前不确定什么原因。

　　在管理数据栏，还可以查看已导出的微博情况：

　　点击筛选后还可以直接阅览：

　　4 总结

　　总的来说，稳部落是目前来看功能最为强大，使用也最为简单。

　　可以离线备份原图、自动展开全文，最主要是可以控制防封，在被ban掉时，可以继续请求。

　　当然，缺点也是有：转换成PDF效果较差，是直接用网页转的图片制作的，如果是可编辑格式的PDF，并且按日期排序，并配上日期目录，那就完美了！

　　其实，最为牛逼的导出方法，就是自己写代码，完全自定义实现。

　　从上面介绍的工具，也可以看出，自己实现一个微博导出工具，不是说不可能，起码是不太容易，要考虑反爬、样式处理、图片处理、不同类型的消息处理等等。

　　我相信，这些对于一些程序员是不难的。

　　但是对于我这种，还是用现成的轮子吧~

　　文中提到的工具，访问文中的网址可以直接查看使用，嫌麻烦的，可以在本公众号后台回复【微博】获取。

　　如果有人对采集器感兴趣，请留言，根据留言情况，我再决定是否专门写下采集器。

0

2022-06-17

内容采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

厉害了！一键备份/导出大佬的所有微博！

0 个评论

发起人