js 爬虫抓取网页数据(F12打开网页调试工具:选择“网络”选项卡后,发现有很多响应)
优采云 发布时间: 2021-10-17 19:20js 爬虫抓取网页数据(F12打开网页调试工具:选择“网络”选项卡后,发现有很多响应)
F12打开网页调试工具:
选择“网络”选项卡后,我们发现有很多响应。让我们过滤一下,看看 XHR 响应。(XHR是Ajax中的一个概念,意思是XMLHTTPrequest)然后发现有很多链接缺失,点一个就可以看到:我们选择city,预览里有一堆json数据:
让我们再次点击它:
原来它们都是城市列表,应该用来加载地区新闻。现在你应该明白如何找到JS请求的接口了吧?但是刚才没有找到我们想要的消息,所以再找找:有焦点,我们点击打开:
图片新闻在首页呈现的数据是一样的,所以数据应该是有的。
查看其他链接:
这个应该是热搜关键词
这是照片新闻下的新闻。
我们打开一个接口链接看看:
返回一串乱码,但是从响应中查看的是正常的编码数据:
有了对应的数据接口,我们就可以模仿前面的方法向数据接口请求并得到响应
2、请求解析数据接口数据
先上传完整代码:#coding:utf-8
*敏*感*词*请求
导入json
网址='#39;
wbdata=requests.get(url).text
数据=json.loads(wbdata)
新闻=数据['数据']['pc_feed_focus']
新闻资讯:
标题=n['标题']
img_url=n['image_url']
url=n['media_url']
打印(网址,标题,img_url)
返回结果如下:
像往常一样,稍微解释一下代码:
代码分为四部分,
第一部分:相关库介绍#coding: utf-8
*敏*感*词*请求
导入json
第二部分:向数据接口url='发起http请求
wbdata=requests.get(url).text