抓取网页生成电子书(豆瓣日记:只输出最近几个月的日记摘要(图))
优采云 发布时间: 2022-01-03 09:17抓取网页生成电子书(豆瓣日记:只输出最近几个月的日记摘要(图))
豆瓣日记的提要地址很容易找到。打开博主的豆瓣日记界面,右栏下方是官方提要地址。
或者安装 RSShub Radar 浏览器扩展,在豆瓣日记界面点击扩展图标,会显示提要地址。
使用Calibre进行捕捉文章
启动 Calibre,然后在工具栏上的抓取新闻下拉栏中找到添加自定义新闻源。
在“添加自定义新闻源”窗口中,选择左下角的“新建订阅列表”。
在打开的窗口中,按要求填写以下信息:
填写完毕后,点击添加来源,将其添加到订阅列表中的新闻框。如果要添加其他源地址,可以继续以同样的方式添加源。
点击保存退出添加自定义新闻源窗口,然后点击工具栏中的抓取新闻,会弹出一个常规的新闻下载窗口,在左侧栏的自定义中选择刚刚创建的订阅列表的标题,然后点击右下角的立即下载。
等待Calibre从网上获取文章,提示完成后,库中会出现订阅列表标题的电子书。
查看电子书
电子书封面为简单的自动生成封面,附有文章目录,内容已排版。
因为豆瓣日记的RSS提要有两个缺陷:只输出日记摘要,只输出最近几个月的日记。前者结果8月以来电子书里只有文章,后者得益于Calibre可以自动抓取全文并被攻克。