抓取网页生成电子书(问题的话()设置网站RSS输出方式)
优采云 发布时间: 2021-12-23 04:08抓取网页生成电子书(问题的话()设置网站RSS输出方式)
准备好 RSS 提要后,您可以在 Calibre 中添加这些提要。打开Calibre,在Calibre主界面顶部的功能图标中找到“抓取新闻”,点击右侧的向下箭头,在弹出的菜单中点击“添加自定义新闻源”。
在弹出的对话框中,点击【新建菜谱】按钮,切换到“添加自定义新闻源”对话框。在“订阅列表标题”中输入名称,例如“我的订阅”(此名称为类别名称,将收录一组RSS订阅地址)。
“Oldest 文章”可以设置爬取文章的时效。默认情况下,Calibre 只会在过去 7 天内抓取 文章。如果想爬更多,可以自定义更改天数。“每个源文章的最大数量”可以设置文章被爬取的数量上限。不过需要注意的是,这两个设置都受限于网站 RSS 输出方式。比如有些网站 RSS只输出有限数量的最新文章文章,所以无论怎样在Calibre中设置都会受到这个限制,你可能无法得到文章 的指定数量;
接下来,您需要在“添加新闻订阅”中添加我们准保留的RSS地址。在“来源名称”中输入RSS订阅的名称,如“Kindle Companion”;然后在“来源网址”中输入RSS地址,如“”;最后点击【添加源】按钮,在“订阅列表中的新闻”中添加一个RSS订阅。您可以在一个订阅列表中抓取多个RSS提要,这样就可以重复输入多个RSS提要名称和来源URL的操作并多次添加它们。
添加RSS订阅地址后。点击右下角的【保存】按钮保存并返回“添加自定义新闻源”界面。如需修改,可在左侧列表中选择一项,然后点击【编辑此配方】按钮进行修改。如需修改,点击【删除此配方】按钮即可删除。如果没有问题,可以点击【关闭】按钮返回Calibre主界面。
三、 抓取并推送
设置提要后,您可以获取新闻。同样,在Calibre主界面顶部的功能图标中找到“抓取新闻”,点击它,会弹出“常规新闻下载”对话框。在左侧列表中找到“自定义”类别,点击展开,即可找到刚刚添加的订阅列表。选中后,点击界面下方的【立即下载】按钮,Calibre就会开始抓取RSS内容。
抓取成功后,Calibre 会生成一本期刊格式的电子书,并自动存入图书馆。如果您设置了电子邮件推送,Calibre 还会自动将生成的电子书推送到云端,以便它们可以自动同步到您的 Kindle。
当然,除了这种手动爬取的方式,你也可以通过“定时下载”的方式定时爬取,比如每周、每月、或者每隔指定天数爬取RSS内容,但前提是你要保持电脑开机并保持计算机连接到 Internet。
还要注意有些网站 RSS只输出摘要,所以Calibre只能抓取摘要内容;如果您订阅的 RSS 被阻止并且您的网络没有使用代理,它将无法成功获取。
如果你需要爬取的网站没有提供RSS提要,可以参考《使用网站页面制作电子书的Calibre教程》中文章提供的方法编写脚本 直接抓取网站的页面内容,制作成电子书。