c爬虫抓取网页数据(几个适合新入门学习Python爬虫的网页,总有一款适合你!)
优采云 发布时间: 2022-01-22 19:16c爬虫抓取网页数据(几个适合新入门学习Python爬虫的网页,总有一款适合你!)
推荐几个适合初学者学习Python爬虫的网页。总有一款适合你!
废话不多说,直接上干货吧!
今日头条图集:抓包获取json数据
打开今日头条首页,搜索*敏*感*词*姐,或者其他你感兴趣的内容,然后点击图库
动态加载的json数据出来,没有反爬,注意如果不想抓取内容中的图片,只能抓取缩略图,也就是本页显示的图片,在json数据中的image_list,注意,把url中的list改成origin,就是大图了!代码显示如下
Python学习交流群542110741
图片地址全部出!
全书网:直接源码匹配相关内容
直接搜索全书,打开首页,找到一本小说,比如《盗墓笔记》,点击跳转网页,点击开始阅读,所有章节出现,小说内容、网页内容和进入章节后出现代码。如下:
Python学习交流群542110741
80本电子书:匹配地址直接下载压缩文件
80 与上面的全书网类似,但它本身提供了下载功能,可以直接构造下载文件、页面截图和带有小说ID和名称的代码:
Python学习交流群542110741
其他类似网站
类似的网站还有:美子图、美拓、笔趣阁、九九等,连百度图片也可以通过抓包获取数据!
以上代码都是手写的,没有排版。如果你有兴趣,你可以自己打字。或者比如小说网站,你可以先抓取大类,然后获取每个类的所有小说,最后把每个类的所有小说。抓出小说的内容,这就是全站爬虫!!!
如果你还有其他合适的网站,希望你可以在评论区分享!一起交流吧!