干货教程:厉害了!一键备份/导出大佬的所有微博!

优采云 发布时间: 2022-10-26 17:23

  干货教程:厉害了!一键备份/导出大佬的所有微博!

  微博是我们吃瓜的“圣地”。此外,很多大佬的微博也很有意义,值得一读。

  有时,出于某种原因,大佬删除微博或被删除。

  因此,备份一些大佬的微博是有意义的。

  本文主要介绍导出微博的几种方式,并进行简单的操作演示。

  1 采集

  首先想到的是爬虫,当然不是爬虫代码,而是采集器

  采集器的特点是所见即所得,即能看到的可以采集,而在页面上看不到的基本无能为力。比如对采集的页面需要一些额外的操作,比如一些反爬虫机制。

  市面上有很多采集器,比如:

  采集器有一定的使用门槛,但门槛不高,基本不需要代码,简单的配置就可以完成一个简单的采集,适合普通的网站(列表类型)数据采集,如果网站反爬机制太多,那么采集器会有点力不从心。

  采集器的采集结果一般是表格,所以适合采集一些格式化的表格、列表等,采集结果适合数据分析。

  这里我们以 优采云采集器 为例。

  一般采集器免费使用,官网提供安装包。

  优采云采集器安装后的页面打开如下:

  默认提供流程图模式和智能模式。

  在流程图模式下,我们根据提示手动设置采集规则,包括采集要做什么,如何分页等;

  智能模式,官方说是基于人工智能,自动识别采集内容和分页等;

  一般格式

  通常我选择流程图模式,点击流程图模式的开始采集。

  在输入框中输入网址为采集,这里我们以汪川在硅谷的微博为例,地址为:

  然后,点击立即创建,就会自动加载王川先生的微博页面:

  对于一些需要登录采集的网址,可以点击右上角的预登录(类似于需要登录查看微博),然后在时的登录状态下即可采集.

  登录后,点击完成登录。当然,您也可以手动输入Cookies(左下角)。

  如果是格式良好的网站,一般可以自动识别列表。

  但是微博不是,我们需要手动选择列表。

  手动选择一个元素后,采集器会识别是否为列表,并识别分页类型。如果分页类型不对,我们可以根据实际情况进行修改。

  列表确定后,会自动识别并预采集结果,如右下角的表格:

  此时,在底部,左侧是采集的流程图,右侧是采集的预览结果。

  可以根据需要调整所需的 采集 字段。

  然后点击开始采集开始,采集可以在采集过程中实时预览结果:

  采集完成后会有弹窗:

  

  我们发现由于许多原因,数据要少得多。大概率是触碰了反爬策略。可以参考优采云采集器官方帮助中心进行处理:#/

  我们看一下采集的数据,最终效果是一个表格:

  从浏览的角度来看,采集的结果是很不友好的,但是如果是用来做数据分析的,还是可以的。

  优采云采集器 可以做的远不止这些。有兴趣的可以在留言区留言,我可以多写。

  2 Octoman微博备份

  Chrome浏览器扩展:Octoman微博备份,插件地址:#/

  安装插件的过程不再赘述。安装完成后,进入微博首页后,点击插件图标,可以看到会自动读取用户列表:

  点击保存按钮开始,保存过程中:

  操作过程中可能会出现以下画面:

  点击后:

  在这种情况下,您需要等待一段时间。

  在数据量很大的情况下,整体时间会更长。

  任务完成后,点击图标查看完成

  备份的 HTML 文件将自动下载

  未完成也可以点击立即停止

  数据导出效果:

  所有数据都导出为HTML,阅读更方便友好。

  但是,全文不会自动展开。点击后会跳转到原微博。

  图像仍然从原创图像链接加载,而不是离线导出。删除原微博后或离线环境下,作者将无法查看图片。

  不过整体的观看效果还是远胜于采集器。

  此外,官方还有一些使用技巧:

  3 稳定部落

  稳定部落是一款开源微博导出工具,官方名称为:专业备份导出微博记录。并提供Windows和Mac版本的安装包。

  开源项目地址:#/

  大致的工作原理是登录后模拟浏览器访问,获取登录用户发布的所有微博并进行备份。

  软件安装完成后,打开后的页面:

  可以看到,需要填写要备份的微博的首页地址。比如我们填写:

  

  点击同步用户信息后,可以获取用户的微博数量、总页数、预计抓取时间。

  此*敏*感*词*,实现变相恢复传输。

  再往下高级设置,可以选择只导出原创、只导出文章、按时间范围导出等。

  这里建议跳过输出PDF,因为输出的PDF都是图片格式,阅读体验不好,整体备份时间会延长很多。

  设置完成后,单击开始备份开始。

  在爬取过程中,还可以查看运行日志:

  任务执行后会自动输出文件到安装目录,并自动打开电子书目录:

  出口效果:

  导出目录结构如下。可以看到原微博的样式、图片等已经导出。

  .<br />└── 硅谷王川-微博整理-(2021-12-26~2022-01-21)<br />    ├── css<br />    │   ├── bootstrap.css<br />    │   ├── customer.css<br />    │   ├── markdown.css<br />    │   └── normalize.css<br />    ├── font<br />    │   └── iconfont.ttf<br />    ├── html<br />    │   ├── 2021-12-26.html<br />    │   ├── 2021-12-27.html<br />    │   ├── 2021-12-28.html<br />......(省略部分)<br />    │   ├── 2022-01-20.html<br />    │   ├── 2022-01-21.html<br />    │   └── index.html<br />    ├── html_to_pdf<br />    ├── image<br />    │   ├── 70c0d545d4733c627f86404e292068bc_/large/006KaYbfgy1gxvs2oa31gj30bs0bsmy3.jpg<br />    │   ├── cover.jpg<br />    │   ├── kanshan.png<br />    │   └── sprite.svg<br />    └── pdf<br />

  在HTML目录下,有一个index.html索引页面,点击查看,是微博按日期的索引展示,点击查看对应日期的微博内容。

  具体导出效果:

  展开内容自动展开:

  图片可以离线导出:

  PS今天在写文章的时候,出现了图片无法下载的情况,不知道是什么原因。

  在管理数据栏,还可以查看导出的微博:

  点击过滤后,也可以直接阅读:

  4 总结

  总的来说,稳定部落是目前最强大,最容易使用的。

  原图可以离线备份,全文可以自动展开,最重要的是控制防遮挡。当它被禁止时,您可以继续请求。

  当然也有缺点:转成PDF的效果差,而且是直接把网页转换成的图片做成的。如果是可编辑的PDF,按日期排序,并附上日期目录,那就完美了!

  其实最强大的导出方式就是自己写代码,完全实现。

  从上面介绍的工具也可以看出,自己实现一个微博导出工具也不是不可能,至少不容易,还需要考虑防爬、风格处理、图片处理,不同类型的消息处理等。

  我相信这些对于一些程序员来说并不难。

  不过对我来说,还是用现成的轮子比较好~

  文章中提到的工具可以通过访问文章中的网址直接查看和使用。如果觉得麻烦,可以在本公众号后台回复【微博】获取。

  如果有人对采集器感兴趣,请留言。根据留言的情况,决定是否写下采集器。

  技巧:SEO外链工具,seo优化中都有哪些链接方式?

  我们知道SEO外链工具,链接是搜索引擎的关键因素,它建立网站之间的关系,通过链接,形成一个巨大的“互联网”,让信息得到有效传播。

  那么,SEO的链接方式有哪些呢?根据链接的功能和定义的不同,通常在SEO中,主要分为以下几种链接方式:

  1.链接方向

  单向链接

  单向链接主要是只链接一方网站,独立指向对方,简单例子:A-&gt;B,而B不链接A,通常我们称A为单向B的路链接。

  双向链接

  双向链接主要就是我们通常所说的友情链接。那么,A-&gt;B,B-&gt;A,简称“好友链接”,当新站点上线时,增加网站的权重,有一定的积极作用。影响。

  2、链接指向

  导入链接

  传入链接主要是指外部链接,脱离主域名,其他域名链接到目标网站,通常强调主要是单向链接。

  传入链接的质量直观地影响 网站 的权重。

  导出链接

  

  导出链接主要是指自己的网站中的任意一个页面,指向另一个,并没有等价的链接指向自己的网站,它的作用主要是提高相关页面的权限。

  原因:搜索引擎通常认为如果一个页面导出链接,通常是一些权威的网站,它有理由认为这个页面是专业的,并且给它更高的评价。

  3.链接类型

  外部链接

  外部链接和导入链接最大的区别在于它通常强调单向,类似于单向链接。在做外链的过程中,我们更加注重外链:

  ① PR值高

  ② 来自知名网站

  ③ 内容页面要高度相关

  内部链接

  内链主要是指网站的内链。基于网站上链接的相互指向,通常理解为网站上的锚文本。主要目的是:

  ① 引导蜘蛛爬行

  ② 为用户推荐更多相关内容,提升用户体验

  ③ 适当增加内页权重

  其中,我们在做SEO外链的时候,也经常会涉及到一个名词“反向链接”,其实就是外链+内链的集合。

  

  总结:对于外链中一些相关术语的解释,以上内容列出了基础SEO工作中经常遇到的名称,供大家参考!

  常用的seo外链工具有哪些

  1. SEO信息查询工具

  SEO信息查询可能是最常用的工具。在信息查询工具中,比较权威的是站长工具和爱站。使用这些工具可以查看网站的 收录、反向链接、关键词 排名等。

  2. 网站诊断工具

  这样的工具很少见,不容易制作,也很难准确。由于搜索引擎排名算法的复杂性和可变性,诊断软件给出的建议仅供参考。

  这类工具主要是总结百度算法中注意的点,使用工具查询的方法检测网站。使用这样的工具进行检测可以发*敏*感*词*华站长工具也有网站诊断工具。

  3.数据统计工具

  数据统计工具主要用于统计网站的访问量,包括IP、PV、访问页面、访问人群等分析。

  除了对访问者的分析,对数据的统计分析还包括对页面的分析。它可以有效地调整网站,最大限度地提高转化率。

  4. 伪原创工具

  给定 关键词,软件会自动生成网页内容。不建议使用此类软件,除了用户体验差外,不仅可能侵犯他人版权,还可能存在复制内容的问题。

  5.批量发布外链工具

  它主要是在留言簿、论坛和博客中大量发布评论。该软件目前在黑帽中很流行,不推荐使用。一些搜索引擎对垃圾邮件的判断已经相当准确,会将此类链接的权重归零,更严重的可能会对网站进行一定程度的惩罚。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线