谷歌网页视频抓取工具(孔子提倡“学而不思则罔,思而不学则殆”的学习方法)

优采云 发布时间: 2022-01-22 07:22

  谷歌网页视频抓取工具(孔子提倡“学而不思则罔,思而不学则殆”的学习方法)

  第一时间获取Python技术干货!

  标题图片:来自 Instagram 的 thefolkpr0ject

  阅读文本大约需要 4 分钟。

  在《论语》中,孔子提倡“学而不思则无用,思而不学则危”的学习方法。让我们深入挖掘一下,“想”在想什么?个人理解是思考和总结一些常见的东西,也就是“套路”。有套路,我们会更有效率地学习或工作。

  当我们爬取不同的网站时,每个网站页面的实现方式不同,我们需要对每个网站进行分析。有没有一些通用的分析方法?我分享我的爬取和分析“例程”。在某网站上,我最常使用的分析页面和抓取数据的工具是Chrome Developer Tools。

  Chrome 开发者工具是一套内置于 Google Chrome 中的 Web 开发和调试工具,可用于迭代、调试和分析 网站。因为很多国产浏览器内核都是基于Chrome内核的,所以国产浏览器也有这个功能。例如:UC浏览器、浏览器、360浏览器等。

  接下来,我们来看看 Chrome DevTools 的一些很酷的特性。

  01

  元素面板

  通过Element面板,我们可以看到我们要抓取页面渲染内容的标签,使用哪些CSS属性(例如:class="middle")等等。比如我想在我的知乎首页抓取动态标题,在网页所在的地方右击,选择“Inspect”,进入Chrome开发者工具的元素面板。

  通过这种方法,我们可以快速定位到页面上的某个 DOM 节点,然后提取出相关的解析语句。将鼠标移动到节点上,然后鼠标右键选择“复制”,可以快速复制Xpath、CSS选举器等内容解析库的解析语句。

  02

  网络面板

  Network 面板记录页面上每个网络操作的信息,包括详细的耗时数据、HTTP 请求和响应标头、cookie 等。这就是我们通常所说的抓包。

  其中Filters面板,我经常用它来过滤掉一些HTTP请求,比如过滤掉Ajax发起的异步请求、图片、视频等。

  最大的窗格称为请求表,其中列出了检索到的每个 HTTP 请求。默认情况下,表按时间顺序排序,最旧的资源位于顶部。单击资源的名称以显示更多信息。

  标头是显示 HTTP 请求的标头。通过这个,我们可以看到请求的方式,以及携带的请求参数。

  预览是请求结果的预览。一般用于查看请求的图片,抓图功能比较强大网站。

  响应是请求返回的结果。大致内容是整个网站的源码。如果请求是异步请求,返回的结果内容一般为Json文本数据。

  cookies可以看到请求携带的cookies和服务器返回的cookies。有时需要使用响应 Cookie。例如,一个页面必须登录才能看到它。

  另外,到今天为止,还有一个人没有联系我,所以还有一本书,是我从今天的留言中挑选出来的。留言内容需要你说“你希望赤海每天分享什么样的文章”,欢迎大家留言。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线