抓取网页生成电子书(网页浏览器的更新分享方法-抓取网页生成电子书)

优采云 发布时间: 2022-01-23 18:04

  抓取网页生成电子书(网页浏览器的更新分享方法-抓取网页生成电子书)

  抓取网页生成电子书我经常会用到analyse,analyse提供了自动扫描的功能,可以全局扫描你的网页,并且生成自动的摘要和epub和pdf。但是这种方法在爬虫较多的网站上效率有限,有时候存在多个网页会生成单页的电子书。如下图所示:,还是需要借助更好的方法,一种能够更高效的将电子书提取出来的方法是用chrome的websocket调用。

  websocket无需额外添加就可以全局进行电子书的自动下载。在这里,我选择的是chrome的插件advancedsocketmanager(csmm)。它采用了asyncio和socket操作的方式,在此不做过多的描述。后续我也会做一个微信公众号叫做聚数,有时候会推送html和js实战。这里注意的是,我用的是的后台推送电子书,前端使用的是gulp+webpack。

  你也可以自己写前端,自己打个接口,只要能满足请求、解析、存储、浏览器渲染等功能,足够满足大部分的需求了。后续我也会尝试做一个微信公众号叫做聚数,希望更多的人关注哦。网页浏览器的更新分享方法如下:首先打开浏览器的network选项卡,找到你需要下载的网页。然后在elements选项卡下选择allcomments,全部保存以下网址,以备后续查找:github地址:scalacompat/featureejs希望能帮到你!。

  我的经验是:通过postcss的websocket插件推送。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线