抓取网页生成电子书(仅以界面操作方式-RSS功能模块)

优采云 发布时间: 2022-02-01 13:15

  抓取网页生成电子书(仅以界面操作方式-RSS功能模块)

  Kindle Companion之前写过一篇文章文章——在Google Developer Console上使用KindleEar搭建RSS推送服务器。安装成功后,您可以添加自己喜欢的RSS feed,KindleEar会自动抓取最新的文章,并以期刊的形式定期推送到您的Kindle。那么除此之外,还有其他方法可以抓取 RSS 提要吗?当然有!Calibre 本身有一个 RSS 捕获功能模块,KindleEar 就是基于这个模块编写的。Calibre虽然有命令行操作方式,但对普通用户不是很友好,所以本文仅以界面操作方式为例。

  一、准备提要

  RSS订阅地址多种多样,没有一定的规则,获取RSS地址的方法也不同。一般提供RSS订阅的网站都会提供一个RSS图标,点击即可获取该网站的RSS订阅地址。如果页面上没有这个图标,可以查看网页的源码,找到类似“href=""/>这样的一行,就是RSS地址。另外,一些浏览器如火狐、Opera等会自动获取网站 RSS订阅地址,并在地址栏标出RSS小图标,也可以轻松获取本站RSS地址。

  二、添加提要

  准备好 RSS 提要后,您可以在 Calibre 中添加它们。打开Calibre,在Calibre主界面顶部的功能图标中找到“抓取新闻”,点击右侧的向下箭头,在弹出的菜单中点击“添加自定义新闻源”。

  

  在弹出的对话框中,点击【新建配方】按钮,切换到“添加自定义新闻源”对话框。在“订阅列表标题”中输入一个名称,例如“我的订阅”(此名称是一个类别名称,将收录一组 RSS 提要地址)。

  “最老的文章”可以设置抓取文章的及时性。默认情况下,Calibre 只会在过去 7 天内抓取 文章。如果你想抢更多,你可以自定义更改天数。“每个源的最大 文章 秒数”设置要抓取的最大 文章 秒数。不过需要注意的是,这两个设置受限于网站 RSS的输出方式。比如有些网站的RSS只输出有限个最新的文章,所以无论在Calibre中如何设置都受这个限制,可能无法获取到指定的文章 的数量;

  接下来,我们需要在“将新闻添加到订阅”中添加我们想要保留的 RSS 地址。同样在“Source Name”中输入RSS订阅的名称,如“Kindle Companion”;然后在“Source URL”中输入RSS地址,如“”;最后,点击【添加来源】按钮,在“订阅列表中的新闻”中添加一个RSS订阅。在一个订阅列表中可以抓取多个RSS订阅,因此您可以重复输入多个RSS订阅名称和来源网址并添加多次。

  

  添加RSS提要地址后。点击右下角的【保存】按钮保存并返回“添加自定义动态消息”界面。如需修改,可在左侧列表中选择一项,然后点击【编辑此配方】按钮进行修改。如果要修改它,请单击[删除此配方]按钮将其删除。如果没有问题,可以点击【关闭】按钮返回Calibre主界面。

  三、获取和推送

  设置好 Feed 后,您就可以抓取新闻了。同样,在Calibre主界面上方的功能图标中找到“抓取新闻”,点击,弹出“定期新闻下载”对话框。在左侧列表中找到“自定义”类别,点击展开,可以找到刚刚添加的订阅列表。选择好之后,点击界面下方的【立即下载】按钮,Calibre就会开始爬取RSS内容。

  

  抓取成功后,Calibre 会生成一本期刊格式的电子书,并自动存入图书馆。如果您设置了电子邮件推送,Calibre 还会自动将生成的电子书推送到云端,以便自动同步到您的 Kindle。

  

  当然,除了这种手动爬取方式,你还可以通过“定时下载”来定时爬取,比如每周、每月或者每隔指定天数爬取RSS内容,但前提是你要保持电脑开机,让您的计算机保持在线状态。

  另外需要注意的是,网站的一些RSS只输出摘要,所以Calibre只能抓取摘要内容;如果您订阅的 RSS 被屏蔽并且您的网络没有使用代理,则 Failed to crawl 成功。

  Kindle Companion之前写过一篇文章文章——在Google Developer Console上使用KindleEar搭建RSS推送服务器。安装成功后,您可以添加自己喜欢的RSS feed,KindleEar会自动抓取最新的文章,并以期刊的形式定期推送到您的Kindle。那么除此之外,还有其他方法可以抓取 RSS 提要吗?当然有!Calibre 本身有一个 RSS 捕获功能模块,KindleEar 就是基于这个模块编写的。Calibre虽然有命令行操作方式,但对普通用户不是很友好,所以本文仅以界面操作方式为例。

  一、准备提要

  RSS订阅地址多种多样,没有一定的规则,获取RSS地址的方法也不同。一般提供RSS订阅的网站都会提供一个RSS图标,点击即可获取该网站的RSS订阅地址。如果页面上没有这个图标,可以查看网页的源码,找到类似“href=""/>这样的一行,就是RSS地址。另外,一些浏览器如火狐、Opera等会自动获取网站 RSS订阅地址,并在地址栏标出RSS小图标,也可以轻松获取本站RSS地址。

  二、添加提要

  准备好 RSS 提要后,您可以在 Calibre 中添加它们。打开Calibre,在Calibre主界面顶部的功能图标中找到“抓取新闻”,点击右侧的向下箭头,在弹出的菜单中点击“添加自定义新闻源”。

  

  在弹出的对话框中,点击【新建配方】按钮,切换到“添加自定义新闻源”对话框。在“订阅列表标题”中输入一个名称,例如“我的订阅”(此名称是一个类别名称,将收录一组 RSS 提要地址)。

  “最老的文章”可以设置抓取文章的及时性。默认情况下,Calibre 只会在过去 7 天内抓取 文章。如果你想抢更多,你可以自定义更改天数。“每个源的最大 文章 秒数”设置要抓取的最大 文章 秒数。不过需要注意的是,这两个设置受限于网站 RSS的输出方式。比如有些网站的RSS只输出有限个最新的文章,所以无论在Calibre中如何设置都受这个限制,可能无法获取到指定的文章 的数量;

  接下来,我们需要在“将新闻添加到订阅”中添加我们想要保留的 RSS 地址。同样在“Source Name”中输入RSS订阅的名称,如“Kindle Companion”;然后在“Source URL”中输入RSS地址,如“”;最后,点击【添加来源】按钮,在“订阅列表中的新闻”中添加一个RSS订阅。在一个订阅列表中可以抓取多个RSS订阅,因此您可以重复输入多个RSS订阅名称和来源网址并添加多次。

  

  添加RSS提要地址后。点击右下角的【保存】按钮保存并返回“添加自定义动态消息”界面。如需修改,可在左侧列表中选择一项,然后点击【编辑此配方】按钮进行修改。如果要修改它,请单击[删除此配方]按钮将其删除。如果没有问题,可以点击【关闭】按钮返回Calibre主界面。

  三、获取和推送

  设置好 Feed 后,您就可以抓取新闻了。同样,在Calibre主界面上方的功能图标中找到“抓取新闻”,点击,弹出“定期新闻下载”对话框。在左侧列表中找到“自定义”类别,点击展开,可以找到刚刚添加的订阅列表。选择好之后,点击界面下方的【立即下载】按钮,Calibre就会开始爬取RSS内容。

  

  抓取成功后,Calibre 会生成一本期刊格式的电子书,并自动存入图书馆。如果您设置了电子邮件推送,Calibre 还会自动将生成的电子书推送到云端,以便自动同步到您的 Kindle。

  

  当然,除了这种手动爬取方式,你还可以通过“定时下载”来定时爬取,比如每周、每月或者每隔指定天数爬取RSS内容,但前提是你要保持电脑开机,让您的计算机保持在线状态。

  另外需要注意的是,网站的一些RSS只输出摘要,所以Calibre只能抓取摘要内容;如果您订阅的 RSS 被屏蔽并且您的网络没有使用代理,则 Failed to crawl 成功。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线