抓取网页生成电子书(之前备份专家配合Firefox+插件Firebug批量下载博客文章豆约翰博客专家)

优采云 发布时间: 2021-10-05 10:09

  抓取网页生成电子书(之前备份专家配合Firefox+插件Firebug批量下载博客文章豆约翰博客专家)

  博客批量下载制作电子书方法1 前言

  相信很多朋友都知道“左岸阅读”这个博客,作者采集了很多优秀的文章。大概在年初接触到这个网站,非常非常喜欢。文章 非常符合我的口味。因为不喜欢在网络上浏览文章,所以一般做成电子书后在kindle或手机上阅读。这样记笔记非常方便,便于复习和采集。以前用kindle的push和calibre的新闻抓取功能制作电子书非常方便。唯一的缺点就是只能抓取最新发布的文章,之前的老文章无法抓取。. 于是,我充分发挥了爱折腾的本能,经过多日的摸索,总结,并参考了很多以前的经验,我终于成功了。方法比较复杂,折腾起来很累,在这里,分享给有需要的朋友。

  2 需要准备的软件

  1)doujohn博客备份专家V2.6

  2)Firefox+插件Firebug

  3)epubBuilder 绿色版

  需要说明的是,epubBuilder 不是免费软件,但是绿色版可以在网上下载,完全可以使用。

  3 具体步骤3.1 使用豆约翰博客备份专家配合火狐+插件Firebug批量下载博客文章

  Doujohn博客备份专家是一款完全免费、功能强大的博客备份工具、博客电子书(PDF、CHM和TXT)生成工具、博客文章离线浏览工具、漂亮的软件界面、支持多个主流博客网站(Qzone ,百度空间,新浪博客,网易博客,豆瓣日记,天涯博客,19楼,博客园,和讯博客,CSDN博客,搜狐博客,51CTO博客)。

  但最重要的是该软件支持从独立站点爬取博客。《左岸阅读》是一个独立站点,但是配置起来确实有点麻烦。这个配置过程花了我很多时间,我什至想放弃。

  关于独立站点的配置,官网上有详细的介绍,这里不再赘述,直接贴出网址:

  《左岸阅读》文章数量庞大,每月可排序。我以2013年1月的文章下载为例,贴出配置,如图。

  

  配置完成后,点击“开始下载”即可批量下载博客。理论上,根据软件说明,需要评估推广软件下载所有页面(本例中为起始页1到结束页3),但经过笔者的实验发现,即使是评测不能批量下载,第一次只能在一个页面下载所有文章,上图配置下,只能下载第1页文章,不过没关系。反正只有3页,反正一页一页下载就完了可以下载文章的第二页,然后修改为3,

  3.2 将下载的文章制作成chm文件

  Doujohn的博客备份专家可以将下载的文章制作成文件,格式可以是pdf、chm、txt等。作者最初使用的是pdf格式,但发现在转换的过程中会出现换行到电子书。尝试了各种方法后都没有解决,只能以chm格式保存。

  3.3 将保存的chm文件制作成epub电子书

  epubBuilder是口袋书园开发的一款epub电子书制作神器,支持导入Txt、epub、html、chm、snb等源文件。

<p>打开软件,导入上面制作的chm。看完你会发现下面的文章会少了一个标题,没关系,工具选项卡里有个“使用第一行作为目录名”,在左边选择边目录栏批量丢失目录(shift+左键点击),点击“使用第一行作为目录名”,软件会自动将每个文章的第一行作为

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线