抓取网页生成电子书(免费制作个性化电子书的方法,你值得拥有!!)
优采云 发布时间: 2021-09-24 08:14抓取网页生成电子书(免费制作个性化电子书的方法,你值得拥有!!)
编者注(@Minja):在写文章时,经常需要引用和回溯。对各种存档和切割工具的不满,让我萌生了自己制作电子书的念头。恰巧@Spencerwoo在这方面有扎实的折腾能力,于是干掉他,研究了一套简单易行的方法,写成文章与大家分享。
虽然网络世界中有很多有价值的文章,但并不是每一次阅读体验都令人满意。如果你想拥有出色的文章阅读体验,至少我们必须保证我们正在阅读文章:
很多时候,我们依靠浏览器的阅读方式,或者Pocket和RSS客户端来阅读。但是,稍后无法对阅读模式进行排序。大多数阅读服务的全文搜索功能需要付费,网上的文章可能哪天都搜不到。或许,将文章以电子书的形式保存在本地,是一个更方便的回顾选择。
如果我们在网上看到一个网页形式的电子书,想把整个网页直接保存在本地(俗称“剪辑”),那会很麻烦。现有的网络剪辑工具不仅可能夹带无用的、影响体验的广告和其他冗余区域,而且还可能丢失重要和有价值的内容。不仅如此,几乎没有文章这样的工具可以轻松抓取图片并保存到本地。那么,让我向您介绍一套免费制作个性化电子书的方法。
本文主要使用开源工具Pandoc。对于需要MOBI或PDF格式电子书的读者,文章后半部分也有简单的转换方法。
以ePub电子书为突破口
主流的电子书格式有很多,但本文主要推荐ePub,它相对开放通用,可以轻松转换为其他格式。
主流电子书格式
最广为人知的电子书格式可能是纯文本TXT格式,但TXT之所以被称为“纯文本”,是因为它不支持章节、图片、封面和超链接。为了让电子书有格式、有图片、有内容,目前常见的电子书通常有PDF、ePub、MOBI三种格式。在:
我们文章的主要目的是利用接下来要介绍的工具,制作一个清晰美观的电子书,内嵌图片,目录,美观。相对来说ePub更加灵活,目录和自定义布局一应俱全,另外两种格式转换也方便。本文将从它开始。
电子书效果制作