抓取网页生成电子书(如何将网页文章批量抓取、生成电子书、直接推送到Kindle)

优采云 发布时间: 2021-09-16 16:03

  抓取网页生成电子书(如何将网页文章批量抓取、生成电子书、直接推送到Kindle)

  我一直在研究如何将相关网页或文章放入Kindle进行认真阅读,但很长一段时间以来我没有取得任何实际进展。虽然通过手工排版制作电子书的方法简单易行,但对于简短且频繁更新的网页来说,这种方法效率低下文章. 如果有一个工具可以批量抓取文章的网页,生成电子书并将其直接推送到Kindle上,那就太好了。涂鸦就是这样一个工具

  Doocer是@lepture开发的在线服务。它允许用户提交web地址、RSS提要地址和pocket,以便以后在帐户中阅读文章,然后逐个或批量制作ePub和Mobi电子书。您可以直接在doocer中阅读所有文章,也可以将它们推到kindle或apple books上

  

  阅读体验真的很好

  doocer制作的电子书排版精良,值得称赞。应该有多少内容就有多少内容,不应该有多少内容就有多少内容。这本书的封面不仅有图片和文字,还有文章目录、网站来源、文章原作者等信息。doocer生成的Mobi电子书支持kf8标准,因此支持Kindle原生替换自定义字体功能

  由于网站文章通常有标准和通用的排版规范,doocer生成的电子书文章的大小、标题、列表和图例与原创网页文章. 原创文章中的所有超链接也将被保留,而评论、广告和其他内容将被丢弃。整本书的阅读体验非常友好。(当然,如果原创网页文章的布局混乱,生成的电子书可能无法识别。)

  

  将网页文章制作成电子书

  在doocer完成注册和登录后,我们可以开始将网页文章制作成电子书。首先,单击“新书”按钮创建电子书并输入电子书名称。接下来,选择右上角的“添加”以添加文章web地址或RSS源地址

  

  以少数民族网页的文章为例。我们选择“feed”,在输入框中粘贴RSS地址,然后点击“parse”,就会显示少数民族文章最近的列表供我们添加。我们可以根据需要选择,也可以单击“全选”全选文章. 最后,下拉到页面底部并选择“保存”,然后这些文章将被添加到书中

  

  实际上,doocer网页与RSS工具非常相似。实现了从网站批量抓取文章并集中显示的功能

  

  要将这些文章转换成电子书并将它们推到Kindle上,我们需要做一些简单的操作

  首先,根据doocer个人设置页面中的提示,打开该页面,将doocer电子书的发送地址添加到个人文档的接收地址中。完成后,我们将在输入框中填写Kindle的个人文档接收地址,然后单击保存

  

  最后,我们在doocer中打开“少数派”一书,在页面上找到“发布”,然后选择send to kindle。大约10-30分钟后,doocer将完成书籍制作并将书籍推到Kindle上

  

  还有一些问题需要注意

  Doocer目前正在进行beta测试,仍然存在一些bug,尤其是对于中文网站来说。幸运的是,doocer的官方网站为开发者提供了一个对话渠道。你可以直接联系他来帮助解决这个问题

  实现所有操作的自动化过程是我认为doocer最需要努力的。Doocer可以像RSS工具一样在网页中捕获更新的文章,但它仍然需要手动捕获新的文章,并生成电子书和推送。如果整个过程可以自动化,RSS-Mobi-Kindle可以一次性完成,我相信它的实用性会得到提高

  目前,所有涂鸦器功能都是免费的

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线