网页源代码抓取工具(从百度地图抓取某个区域边缘坐标点的爬虫程序用到)

优采云 发布时间: 2022-02-23 06:10

  网页源代码抓取工具(从百度地图抓取某个区域边缘坐标点的爬虫程序用到)

  之前有两篇文章介绍了一个小python爬虫,也给出了源码;

  1. Python | 一个小爬虫(上图)(标题太平淡,这种套路后面也没用,因为太标新立异了)

  相信喜欢做的粉丝已经在自己的电脑上运行过这个程序了。但是对于刚接触python的人来说,启动一个python爬虫确实会让自己一头雾水,但是如果我们一直写那种基于知识的文章,你也会觉得只有知识点是不会上瘾的。综合考虑后,我还是觉得这种case还是不错的,即使需要多写几篇文章把一个case解释清楚。

  没有看过前两篇文章的同学,建议点进去阅读,了解这篇文章的内容。

  前面有点废话,说正经的,这个用来从百度地图抓取某个区域的边缘坐标的爬虫程序用到了哪些知识点和技术?我把它们都列出来:

  1.需要对网页结构有基本的了解和认识。

  我们通常在互联网上浏览网页,信息是在浏览器中显示在页面上的,但是我们使用爬虫抓取的信息是放在网页的源代码中的。(图1是我们看到的页面,图2是页面对应的网页源代码)

  

  图1 人们浏览网页时看到的界面

  

  图2 网页对应的网页源代码

  在浏览器中使用快捷键F12调出界面,该界面称为开发者模式

  2.知道如何在网页的源代码中找到我们需要的信息。

  一般来说,信息可能直接存在于网页的html页面中,但是一些动态加载的信息可能存在于js页面中。有一些网站,它的数据价值比较高,总会有竞争对*敏*感*词*它的数据,所以会有比较强大的反爬措施,一般初学者很难对付这种反- 爬行措施。一般的静态网页需要你熟悉浏览器的开发者模式,并且能够使用这个工具在网页的源代码中定位你需要的信息的位置。网上有相关的教程,搜索一下就可以找到,更复杂的动态网页,需要对动态加载的页面做一点研究。

  3.知道用什么python库来下载、解析、提取和存储网页源代码。

  Python 是一种非常简单的编程语言。一方面是因为它的语法简洁。另一方面,在python社区,很多很多的人为我们贡献了很多很多的开源库。在我们编写程序的时候,直接调用这些库可以省去很多工作。比如我分享的爬虫项目中,我使用了以下库:

  它们的功能描述如下:

  requests :根据url下载网页的源代码

  json :用于将网页中的js内容转换为Python字典类型

  re : 正则表达式库,用于提取网页中满足一定规则的内容(比如本例中的经纬度信息)

  pandas :一个 Python 中操作结构化数据的库,可以实现几乎所有的 Excel 数据操作功能。在此示例中,它用于构造纬度和经度数据。

  4. 最后一点就是能够整合这些知识和技术编写代码,可以实现自己的数据爬取需求

  这就是为什么我现在倾向于和大家分享具体案例,而不是知识点。但是,知识和技能只有被内化和吸收才能成为自己的。我们的最终目标是解决实际问题。因此,在接触到新技术、新知识点之后,我们必须有意识地进行整合。只有这样,才能提高我们解决实际问题的能力。

  最后,如果本文的知识点或想法对你有帮助,请帮我们转发,或者直接点赞,哈哈~如果你觉得编程不合适,也有不需要编程的可视化爬虫工具,点击阅读原文即可理解。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线