抓取网页生成电子书(几个适合新入门学习Python爬虫的网页,总有一款适合你!)
优采云 发布时间: 2022-02-11 17:29抓取网页生成电子书(几个适合新入门学习Python爬虫的网页,总有一款适合你!)
推荐几个适合初学者学习Python爬虫的网页。总有一款适合你!
废话不多说,直接上干货吧!
打开今日头条首页,搜索*敏*感*词*姐,或者其他你感兴趣的内容,然后点击图库
动态加载的json数据出来,没有反爬。注意,如果不想抓取内容中的图片,只能抓取缩略图,也就是本页显示的图片。它在 json 数据的 image_list 中。注意,将 url 中的列表更改为 origin,这是大局!代码显示如下
图片地址全部出!
全书网:直接源码匹配相关内容
直接搜索全书,打开首页,找到一本小说,比如《盗墓笔记》,点击跳转网页,点击开始阅读,所有章节出现,小说内容,网页内容进入章节后出现代码。如下:
80本电子书:匹配地址直接下载压缩文件
80 与上面的全书网类似,但它本身提供了下载功能,可以直接构造下载文件、页面截图和带有小说ID和名称的代码:
其他类似网站
类似的网站还有:美子图、美拓、笔趣阁、九九等,连百度图片也可以通过抓包获取数据!
以上代码都是手写的,没有排版,有兴趣的可以自己打,或者比如小说网站,可以先抓取大类,然后把小说全部拿进去每一类,最后把所有的小说都抓出来,小说的内容,这就是全站爬虫!!!
如果你还有其他合适的网站,希望你可以在评论区分享!一起交流吧!