抓取网页生成电子书(如何将网页文章批量抓取、生成电子书、直接推送到Kindle)

优采云 发布时间: 2022-03-14 07:08

  抓取网页生成电子书(如何将网页文章批量抓取、生成电子书、直接推送到Kindle)

  我一直在研究如何将我关心的网页或 文章 放入我的 Kindle 中进行认真阅读,但我已经很长时间没有取得任何真正的进展。手工排版制作电子书的方法虽然简单易行,但对于短小、更新频繁的网页文章来说效率低下。如果有一个工具可以文章批量抓取网页,生成电子书,然后直接推送到Kindle上就好了。Doocer 就是这样一种实用程序。

  Doocer是@lepture开发的在线服务,允许用户在Pocket Read Later账号中提交URL、RSS提要地址和文章,然后逐一或批量制作成ePub和MOBI电子书. 您可以直接在 Doocer 中阅读所有文章,也可以将它们推送到 Kindle、Apple Books 中阅读。

  

  真的很好的阅读体验

  Doocer 生成的电子书在排版方面非常出色。应该有的内容很多,不应该有的内容不多。本书不仅封面图文并茂,还有文章目录、网站出处、文章原作者等信息。Doocer生成的MOBI电子书支持KF8标准,因此支持Kindle原生替换自定义字体。

  由于网站文章通常有标准和通用的排版规范,Doocer生成的电子书文章中的大小标题和列表图例与原网页文章高度一致@>。原文章中的所有超链接也被保留,评论、广告等内容全部丢弃。整本书的阅读体验非常友好。(当然,如果原网页文章的布局没有规则,那么生成的电子书也可能面目全非。)

  

  将网页 文章 制作成电子书

  Doocer完成注册登录后,我们就可以开始将网页文章制作成电子书了。首先,我们点击“NEW BOOK”按钮新建电子书,输入电子书名称。接下来选择右上角的“添加”以添加 文章 URL 或 RSS 提要地址。

  

  以小众网站的文章为例,我们选择“FEED”,在输入框中粘贴RSS地址,然后点击“PARSE”,那么小众最近文章的列表就会出现为我们显示添加到。我们可以根据需要选择,也可以点击“SELECT ALL”全选文章。最后,下拉到页面底部,选择“SAVE”,那么这些文章就会被添加到书里。

  

  其实Doocer网页与RSS工具很相似,实现了从网站批量抓取文章并集中展示的功能。

  

  要将这些 文章 转换为电子书并将它们推送到 Kindle,我们必须做一些简单的事情。

  首先,根据Doocer个人设置页面中的提示,我们打开它,将Doocer电子书的发送地址添加到个人文档接收地址中。完成后,我们在输入框中填写Kindle的个人文档接收地址,点击保存。

  

  最后,我们在 Doocer 中打开《少数派》这本书,在页面上找到“Publish”,选择 Send to Kindle。大约 10 到 30 分钟,Doocer 将完成图书制作并将图书推送到 Kindle。

  

  仍有一些问题需要注意

  Doocer目前处于beta测试阶段,还有一些bug,尤其是中文网站经常出现问题。好在Doocer官网有开发者对话频道,可以直接联系他帮忙解决。

  自动化所有操作的过程是我认为 Doocer 最需要做的事情。Doocer可以像RSS工具一样抓取网页中更新的文章,但是要抓取新的文章并生成电子书并推送,仍然需要手动完成。如果整个过程可以自动化,RSS - MOBI - Kindle 一口气,相信它的用处会更好。

  目前,Doocer 的所有功能都可以免费使用。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线