抓取网页数据工具(浏览器打开网页的过程(Inspect爬虫)的那些数据集合 )
优采云 发布时间: 2021-09-28 18:09抓取网页数据工具(浏览器打开网页的过程(Inspect爬虫)的那些数据集合
)
浏览器打开网页的过程就是爬虫获取数据的过程,两者是一样的。浏览器渲染出来的网页是一个丰富多彩的数据集合,爬虫获取网页的源代码html。
有时候,我们在网页的html代码中找不到我们想要的数据,但是浏览器打开的网页却有这些数据。这就是浏览器通过ajax技术异步加载(偷偷下载)这些数据。
小猴子不禁要问:那我怎么能看到浏览器偷偷下载的数据呢?
答案是谷歌浏览器的F12快捷键。也可以通过右键菜单“Inspect”打开Chrome自带的开发者工具。开发者工具会出现在浏览器页面的左侧或下方(可调整),如下所示:
让我们简单了解一下它是如何使用的:
谷歌浏览器抓包:1.菜单顶行
暂时把剩下的放在一边。
谷歌浏览器抓包:2.重要区域
图中红框中的两个按钮比较实用,数字2是清除请求记录;数字3是保留记录,在网页有重定向的时候很有用
图中绿色区域是加载一个完整的网页,浏览器的所有请求记录,包括URL、状态、类型等,写爬虫的时候一定要在这里寻找线索提金。
底部编号为 4 的红框表示该网页已加载 181 次。数量如此惊人,让人不禁为浏览器感到惋惜。
点击请求的URL,右侧会出现一个新窗口,显示请求的信念信息:
图中左边的红框是点击的请求URL;绿色框是详细信息窗口。
详情窗口包括 Headers(请求头)、Preview(预览响应)、Response(服务器响应内容)和 Timing(耗时)。
Preview 和 Response 帮助我们检查请求中是否有爬虫想要的数据;
headers帮助我们在爬虫中重构http请求,让爬虫可以得到和浏览器一样的数据。
了解并熟练使用Chrome的开发者工具,小猿们可以流畅的编写自己的爬虫了。
还有上一篇科普文章,我们进入正题,下一篇我们会讲:
为什么 Python 适合编写网络爬虫