抓取网页数据工具(浏览器打开网页的过程(Inspect爬虫)的那些数据集合 )

优采云发布时间: 2021-09-28 18:09

　　抓取网页数据工具(浏览器打开网页的过程(Inspect爬虫)的那些数据集合

)

　　浏览器打开网页的过程就是爬虫获取数据的过程，两者是一样的。浏览器渲染出来的网页是一个丰富多彩的数据集合，爬虫获取网页的源代码html。

　　有时候，我们在网页的html代码中找不到我们想要的数据，但是浏览器打开的网页却有这些数据。这就是浏览器通过ajax技术异步加载（偷偷下载）这些数据。

　　小猴子不禁要问：那我怎么能看到浏览器偷偷下载的数据呢？

　　答案是谷歌浏览器的F12快捷键。也可以通过右键菜单“Inspect”打开Chrome自带的开发者工具。开发者工具会出现在浏览器页面的左侧或下方（可调整），如下所示：

　　让我们简单了解一下它是如何使用的：

　　谷歌浏览器抓包：1.菜单顶行

　　暂时把剩下的放在一边。

　　谷歌浏览器抓包：2.重要区域

　　图中红框中的两个按钮比较实用，数字2是清除请求记录；数字3是保留记录，在网页有重定向的时候很有用

　　图中绿色区域是加载一个完整的网页，浏览器的所有请求记录，包括URL、状态、类型等，写爬虫的时候一定要在这里寻找线索提金。

　　底部编号为 4 的红框表示该网页已加载 181 次。数量如此惊人，让人不禁为浏览器感到惋惜。

　　点击请求的URL，右侧会出现一个新窗口，显示请求的信念信息：

　　图中左边的红框是点击的请求URL；绿色框是详细信息窗口。

　　详情窗口包括 Headers（请求头）、Preview（预览响应）、Response（服务器响应内容）和 Timing（耗时）。

　　Preview 和 Response 帮助我们检查请求中是否有爬虫想要的数据；

　　headers帮助我们在爬虫中重构http请求，让爬虫可以得到和浏览器一样的数据。

　　了解并熟练使用Chrome的开发者工具，小猿们可以流畅的编写自己的爬虫了。

　　还有上一篇科普文章，我们进入正题，下一篇我们会讲：

　　为什么 Python 适合编写网络爬虫

0

2021-09-28

抓取网页数据工具

0 个评论

要回复文章请先登录或注册