抓取网页生成电子书(用urllib来爬取网页生成电子书的方法有哪些)

优采云发布时间: 2022-02-04 07:06

　　抓取网页生成电子书，我目前想到的方法有，爬虫爬取图片，然后根据图片文件名转换，将出版社获取并保存数据库。甚至可以爬取网站服务器的页面等等。另外，图片比较多的话，可以使用gimp、photoshop等软件。比如这个。

　　建议安装一个可以爬取网页的搜索引擎，比如urllib.request。

　　你可以用国外软件bookscombiy[]

　　用urllib来爬，chrome有插件taobaoui可以选取网页里每个链接的信息，获取电子书名和作者，

　　通过scrapy抓取网页，然后利用javascript，然后利用数据库等，

<p>我的方法:建一个反爬虫系统，找到客户端的地址，发给爬虫。爬虫爬这个页面，发给网站，再发回去。客户端地址就是所爬过页面。具体代码:

0

2022-02-04

抓取网页生成电子书

0 个评论

要回复文章请先登录或注册