抓取网页生成电子书(如何将网页文章批量抓取、生成电子书、直接推送到Kindle)

优采云 发布时间: 2021-09-14 08:07

  抓取网页生成电子书(如何将网页文章批量抓取、生成电子书、直接推送到Kindle)

  我一直在研究如何将我关注的网页或文章安装到Kindle中进行认真阅读,但很长时间没有真正的进展。手动格式化书籍制作电子书的方法虽然简单易行,但对于短小且更新频繁的网页文章来说效率低下。如果有工具可以批量抓取网页文章,生成电子书,直接推送到Kindle上就好了。 Doocer 是一个非常有用的工具。

  Doocer 是@lepture 开发的在线服务,它允许用户在 Pocket 的后期阅读账户中提交 URL、RSS 提要地址和文章,然后将它们一一制作成 ePub、MOBI 电子书或在批次。可以直接在 Doocer 中阅读所有文章,也可以推送到 Kindle、Apple Books 阅读。

  

  阅读体验非常好

  Doocer 生成的电子书格式良好,值得称赞。应该有的内容就多,不应该的内容也不多。本书不仅封面有图文,还有文章directory、网站源、文章原作者等信息。 Doocer生成的MOBI电子书支持KF8标准,所以支持 Kindle 原生替换自定义字体。

  由于网站文章通常都有标准和通用的排版规范,所以Doocer生成的电子书文章中的大小、标题和列表图例与原网页文章高度一致@。原文章中的超链接也全部保留,评论信息、广告等内容全部丢弃。全书的阅读体验非常友好。 (当然,如果原网页文章的布局乱了,那么生成的电子书也可能完全不一样。)

  

  将网页文章制作成电子书

  Doocer 完成注册和登录后,我们就可以开始将网页文章 制作成电子书了。首先,我们点击“NEW BOOK”按钮新建电子书,输入电子书书名。然后在右上角选择“添加”添加文章 URL或RSS提要地址。

  

  以小众网页的文章为例,我们选择“FEED”,在输入框中粘贴RSS地址,然后点击“PARSE”,那么小众文章的最近列表就是显示给我们添加。我们可以根据需要选择,也可以点击“全选”来全选文章。最后,下拉到页面底部,选择“保存”,这些文章就会被添加到书中。

  

  实际上,Doocer 网页与 RSS 工具非常相似。实现了从网站批量抓取文章并集中展示的功能。

  

  要将这些文章转换成电子书并推送到Kindle,我们需要进行一些简单的操作。

  首先,根据Doocer个人设置页面的提示,我们打开Doocer电子书的发送地址,添加到个人文档接收地址。完成后,我们再在输入框中填写Kindle的个人文档接收地址,点击保存。

  

  最后,我们在 Doocer 中打开《少数派》这本书,在页面上找到“发布”,然后选择发送到 Kindle。大约 10-30 分钟,Doocer 将完成图书制作并将图书推送到 Kindle。

  

  还有一些问题需要注意

  Doocer目前处于Beta测试阶段,还存在一些bug,尤其是中文网站经常出现问题。好在Doocer官网有开发者对话频道,可以直接联系他帮忙解决。

  实现所有操作的自动化流程是我认为Doocer最需要努力的方向。 Doocer可以像RSS工具一样抓取网页中更新的文章,但仍然需要手动抓取新的文章抓取并生成电子书并推送。如果整个过程可以自动化,RSS-MOBI-Kindle就可以一次搞定,相信实用性会更高。

  目前,Doocer 的所有功能均可免费使用。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线