chrome插件网页抓取(制作自己的学习手册,永久保存互联网信息*早前PriceTag)
优采云 发布时间: 2021-10-26 01:16chrome插件网页抓取(制作自己的学习手册,永久保存互联网信息*早前PriceTag)
制作自己的学习手册,永久保存互联网信息
* 较早提交价签,文字已删除
关于文章和信息整理,一个常见的需求是将某个主题的多个文章,或者某个博客或教程的所有网页,保存到一个类似的电子出版物中。书籍,以便它们可以在手机、平板电脑上阅读或永久存储。实现此要求的一种方法是使用 Chrome 插件将目标网页另存为 ePub 文件。
ePub 插件大约有十种。经过大量测试,我最终选择了dotEPUB、WebToWpub、EpubPress和另存为电子书这四个插件,各有侧重,效果也不错。本文将分析它们的特性并帮助您确定哪一种最能满足您的需求。
四大插件的用途及特点
dotEPUB:将当前窗口的网页保存为ePub
1. 速度:速度更快2. Watermark:开头和结尾的水印3. 图片支持:稍差4. 排版:更好的排版
dotEPUB 是最简单、功能最单一的。只需单击插件栏中的 dotEPUB 图标,即可将当前网页自动下载为 ePub 文件。但由于只保存当前网页,应用范围较窄。
在这里你可以轻松打开一个知乎专栏“我们在谈论英语学习时在谈论什么”,尝试抓取素材,用More Look App打开。读取效果如下图所示。需要注意的是,这个插件会在开头和结尾添加dotEPUB水印:
WebToEpub:抓取当前网页中的所有链接作为章节,生成为ePub
1. 速度:速度更快,有进度条2. 水印:无水印3. 图片支持:有图片4. 排版:排版比较一般
这是我经常使用的插件。它可以抓取当前网页中收录的链接的所有内容。适用于抓取知乎栏目或以列表形式扩展内容的博客。网页中的每个链接都会生成到Epub的特定章节中,章节标题即为网页的标题。
点击插件,确认开始转换,就会进入插件主界面,在主界面WebToEpub允许用户编辑ePub书名、文件名和作者。爬取时可以手动勾选需要的链接,也可以进行多选、反选等,也可以对选中的网页列表进行反排序。此外,您可以通过将图像地址粘贴到 URL 框来为文件添加封面。
需要注意的是,对于一些动态加载的页面,如果要抓取所有文章,需要在使用插件前滚动到页面底部完整加载列表。
EpubPress:抓取所有当前打开的标签作为 ePub
1.速度:平均速度,有进度条2.水印:无水印3.图片支持:图片在某些情况下可能无法捕捉4.排版:更好的排版
这是另一个比较常用的插件,可以保存浏览器当前打开的所有标签页,每个标签页就是一个章节。与WebToEpub相比,EpubPress的设置选项比较简单,可以输入标题和描述,查看想要的网页。
此外,EpubPress 还支持以 mobi 格式保存,并支持将捕获的文件发送到某个电子邮件地址。您可以根据需要在右上角的设置中进行选择。
如果爬取大量标签,等待时间会大大延长。另外需要注意的是,在实际测试中,可能有20多个选项卡无法保存。
另存为电子书:选择打开的网页以另存为 ePub
1. 速度:更快的速度2. 水印:无水印3. 图片支持:有图片4. 排版:更好的排版
另存为电子书和 EpubPress 的功能类似。两者都将打开的标签保存为 ePub 文件的章节。但是,另存为电子书需要在浏览网页时点击需要保存的网页插件栏图标选择“另存为章节”。标记后,单击“编辑章节”将这些网页保存为 ePub 文件。
在主界面中,您可以编辑文件标题和调整章节顺序。
四种使用场景
总结一下这四个插件的适用场景,这里简单总结一下:
总结
将网页保存为 ePub 电子书以供阅读是除了 Evernote 等工具之外的另一种思维方式,稍后阅读。对于严肃或系统的内容,制作ePub电子书一两下阅读主题会更加连贯。这是电子书和印象笔记以及以后阅读的区别。观点。因此,ePub电子书无疑是系统学习的好选择。
回到Chrome插件的话题,目前一键生成ePub文件的插件普遍存在的缺点是插件制作的电子书不是纯图形,还有一些不相关的内容,比如超链接或者评论在网站也有可能被收录导入电子书,导致转换效果不佳。文章 只提到了目前的四个ePub转换插件,每个插件都有自己的不足。
根据个人需要,可以组合两个或多个插件来完成ePub转换工作。