抓取网页生成电子书(主流电子书格式大家最为熟知的电子书熟知格式(图))
优采云 发布时间: 2022-02-05 17:03抓取网页生成电子书(主流电子书格式大家最为熟知的电子书熟知格式(图))
编者注(@Minja):在编写文章时,经常需要引用和回溯。对各种存档和剪辑工具的不满,让我萌生了自己制作电子书的念头。正好@Spencerwoo在这方面有扎实的折腾能力,于是摆脱了他,研究了一套简单易行的方法,写成文章分享给大家。
虽然网络世界有很多有价值的文章,但并不是每一次阅读体验都令人满意。如果你想拥有出色的文章阅读体验,至少要确保我们正在阅读文章:
很多时候,我们依靠浏览器的阅读方式,或者Pocket和RSS客户端来阅读。但是,阅读模式后期无法整理,而且大部分阅读服务的全文搜索功能都需要付费,网上的文章可能一天都找不到。或许,将 文章 保存为本地电子书是一种更方便的回顾选择。
如果我们在网上看到一个网页形式的电子书,想直接把整个网页保存到本地(俗称“剪辑”),那简直是麻烦大了。现有的网页剪辑工具不仅会携带无用的、影响体验的广告和其他冗余区域,还会丢失重要和有价值的内容。不仅如此,几乎没有工具可以轻松抓取图片并自定义保存到本地的文章样式。那么,让我向您介绍一组免费制作个性化电子书的方法。
本文主要使用开源工具 Pandoc。对于需要MOBI或PDF格式电子书的读者,文章后半部分也有简单的转换方法。
ePub 电子书的突破
目前主流的电子书格式有很多,但本文主要推荐ePub,它比较开放统一,可以很方便的转换成其他格式。
主流电子书格式
最广为人知的电子书格式可能是纯文本TXT格式,但TXT之所以被称为“纯文本”,是因为它不支持章节、图片、封面和超链接。为了让电子书有格式、有图片、有内容,目前常见的电子书通常有PDF、ePub、MOBI三种格式。在:
我们文章文章的主要目的是利用接下来要介绍的工具,制作一个内嵌图片、目录、外观清晰美观的电子书。相对而言,ePub 更加灵活,有完整的目录和自定义布局,也很容易转换成其他两种格式。本文从它开始。
制作的电子书效果
[…]