抓取网页生成电子书(问题的话()设置网站RSS输出方式)
优采云 发布时间: 2022-01-19 13:00抓取网页生成电子书(问题的话()设置网站RSS输出方式)
准备好 RSS 提要后,您可以在 Calibre 中添加它们。打开Calibre,在Calibre主界面顶部的功能图标中找到“抓取新闻”,点击右侧的向下箭头,在弹出的菜单中点击“添加自定义新闻源”。
在弹出的对话框中,点击【新建配方】按钮,切换到“添加自定义新闻源”对话框。在“订阅列表标题”中输入一个名称,例如“我的订阅”(此名称是一个类别名称,将收录一组 RSS 提要地址)。
“最老的文章”可以设置抓取文章的及时性。默认情况下,Calibre 只会在过去 7 天内抓取 文章。如果你想抢更多,你可以自定义更改天数。“每个源的最大 文章 秒数”设置要抓取的最大 文章 秒数。不过需要注意的是,这两个设置受限于网站 RSS的输出方式。比如有些网站的RSS只输出有限个最新的文章,所以无论在Calibre中如何设置都受这个限制,可能无法获取到指定的文章 的数量;
接下来,我们需要在“将新闻添加到订阅”中添加我们想要保留的 RSS 地址。同样在“Source Name”中输入RSS订阅的名称,如“Kindle Companion”;然后在“Source URL”中输入RSS地址,如“”;最后点击【添加来源】按钮,在“订阅列表中的新闻”中添加一个RSS订阅。在一个订阅列表中可以抓取多个RSS订阅,因此可以重复输入多个RSS订阅名称和来源网址并添加多次。
添加RSS提要地址后。点击右下角的【保存】按钮保存并返回“添加自定义动态消息”界面。如需修改,可在左侧列表中选择一项,然后点击【编辑此配方】按钮进行修改。如果要修改它,请单击[删除此配方]按钮将其删除。如果没有问题,可以点击【关闭】按钮返回Calibre主界面。
三、获取和推送
设置好 Feed 后,您就可以抓取新闻了。同样,在Calibre主界面上方的功能图标中找到“抓取新闻”,点击,弹出“定期新闻下载”对话框。在左侧列表中找到“自定义”类别,点击展开,可以找到刚刚添加的订阅列表。选择好之后,点击界面下方的【立即下载】按钮,Calibre就会开始爬取RSS内容。
抓取成功后,Calibre 会生成一本期刊格式的电子书,并自动存入图书馆。如果您设置了电子邮件推送,Calibre 还会自动将生成的电子书推送到云端,以便自动同步到您的 Kindle。
当然,除了这种手动爬取的方式,你还可以通过“定时下载”的方式定期爬取,比如每周、每月或者每隔指定天数爬取RSS内容,但前提是你要保持电脑开机并且让您的计算机保持在线状态。
另外需要注意的是,网站的一些RSS只输出摘要,所以Calibre只能抓取摘要内容;如果您订阅的 RSS 被屏蔽并且您的网络没有使用代理,则 Failed to crawl 成功。
如果你需要抓取的网站没有提供RSS feed,可以参考《Calibre使用教程:抓取网站页面制作电子书》中文章提供的方法编写脚本直接抓取网站的页面内容,制作电子书。