抓取网页生成电子书(用urllib来爬取网页生成电子书的方法有哪些)

优采云 发布时间: 2022-02-04 07:06

  抓取网页生成电子书(用urllib来爬取网页生成电子书的方法有哪些)

  抓取网页生成电子书,我目前想到的方法有,爬虫爬取图片,然后根据图片文件名转换,将出版社获取并保存数据库。甚至可以爬取网站服务器的页面等等。另外,图片比较多的话,可以使用gimp、photoshop等软件。比如这个。

  建议安装一个可以爬取网页的搜索引擎,比如urllib.request。

  你可以用国外软件bookscombiy[]

  用urllib来爬,chrome有插件taobaoui可以选取网页里每个链接的信息,获取电子书名和作者,

  通过scrapy抓取网页,然后利用javascript,然后利用数据库等,

<p>我的方法:建一个反爬虫系统,找到客户端的地址,发给爬虫。爬虫爬这个页面,发给网站,再发回去。客户端地址就是所爬过页面。具体代码:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线