抓取网页生成电子书(用urllib来爬取网页生成电子书的方法有哪些)
优采云 发布时间: 2022-02-04 07:06抓取网页生成电子书(用urllib来爬取网页生成电子书的方法有哪些)
抓取网页生成电子书,我目前想到的方法有,爬虫爬取图片,然后根据图片文件名转换,将出版社获取并保存数据库。甚至可以爬取网站服务器的页面等等。另外,图片比较多的话,可以使用gimp、photoshop等软件。比如这个。
建议安装一个可以爬取网页的搜索引擎,比如urllib.request。
你可以用国外软件bookscombiy[]
用urllib来爬,chrome有插件taobaoui可以选取网页里每个链接的信息,获取电子书名和作者,
通过scrapy抓取网页,然后利用javascript,然后利用数据库等,
<p>我的方法:建一个反爬虫系统,找到客户端的地址,发给爬虫。爬虫爬这个页面,发给网站,再发回去。客户端地址就是所爬过页面。具体代码: