js 爬虫抓取网页数据(这是一个利用pycharm简单爬虫分享的工作流程及使用方法)

优采云 发布时间: 2022-04-09 20:36

  js 爬虫抓取网页数据(这是一个利用pycharm简单爬虫分享的工作流程及使用方法)

  概述:

  这是pycharm在phthon环境下做的一个简单的爬虫分享。主要通过爬取豆瓣音乐top250的歌名和作者(专辑)来分析爬虫原理

  什么是爬行动物?

  要想学爬虫,首先要知道什么是爬虫。

  网络爬虫(也称为网络蜘蛛、网络机器人,在 FOAF 社区中,更常被称为网络追逐者)是根据一定规则自动从万维网上爬取信息的程序或脚本。其他不太常用的名称是 ant、autoindex、emulator 或 worm。

  中文名网络爬虫,外文名网络爬虫,网络蜘蛛的别称,目的是根据需要从万维网获取信息

  网络爬虫是一种自动提取网页的程序。它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。传统爬虫从一个或多个初始网页的URL开始,获取初始网页上的URL。在对网页进行爬取的过程中,不断地从当前页面中提取新的 URL 并放入队列中,直到满足系统的某些停止条件。焦点爬虫的工作流程比较复杂。它需要按照一定的网页分析算法过滤掉与主题无关的链接,保留有用的链接,并放入等待抓取的URL队列中。然后,它会根据一定的搜索策略从队列中选择下一个要爬取的网页URL,并重复上述过程,直到系统达到一定条件并停止。此外,爬虫爬取的所有网页都会被系统存储,经过一定的分析、过滤、索引,以供后续查询和检索;对于重点爬虫来说,这个过程中得到的分析结果也可能对后续的爬取过程给出反馈和指导。

  准备好工作了:

  我们使用的是pycharm,可以参考pycharm的安装和使用

  使用工具:requests、lxml、xpath

  关于requests的使用,可以看它的官方文档:

  个人觉得用lxml解析网页是最快的。对于lxml的使用,可以看这个:

  xpath 是一种用于在 xml 文档中查找信息的语言。xpath 可用于遍历 xml 文档中的元素和属性。xpath的使用可以参考他的教程:

  废话不多说,开始我们的爬虫之旅吧

  首先找到我们的目标网址:

  可以看到我们要获取的歌名和作者(专辑)页面有十页,每页有十行

  所以我们可以使用for循环来获取目标:

  然后使用 requests 请求网页:

  1import requests

2

  1headers = {"User_Agent": "Mozilla/5.0(compatible; MSIE 5.5; Windows 10)"}

2

  1data = requests.get(url, headers=headers).text

2

  然后使用lxml解析网页:

  1from lxml import etree

2

  1s = etree.HTML(data)

2

  然后我们就可以提取我们想要的数据了

  最后,将获取的数据保存到我们想要放置的位置。

  至此,我们基本大功告成,完整代码如下:

  然后看看我们爬取的结果

  总结:

  爬虫流程:

  1、提出请求

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线