网页视频抓取软件排行(使用网络爬虫爬取本科招生信息网中(2016年录取分数1))
优采云 发布时间: 2022-02-25 16:01网页视频抓取软件排行(使用网络爬虫爬取本科招生信息网中(2016年录取分数1))
1.什么是网络爬虫?
网络爬虫(也称为网络蜘蛛、网络机器人,在 FOAF 社区中,更常被称为网络追逐者)是根据一定规则自动从万维网上爬取信息的程序或脚本。其他不太常用的名称是 ant、autoindex、emulator 或 worm。
换句话说,如果我们把互联网比作一个大蜘蛛网,数据存储在蜘蛛网的每个节点中,而爬虫是沿着网络抓取自己的猎物(数据)的小蜘蛛。爬虫是指:网站发起请求,获取资源后分析提取有用数据的程序;技术上,它通过程序模拟浏览器请求站点的行为,将HTML代码/JSON数据/二进制数据(图片、视频)转换成本地,然后提取出你需要的数据并存储起来使用。
2.软件环境
Anaconda 导航软件
该软件区分 32 位和 64 位(本机 64 位)
2.如何使用网络爬虫?使用网络爬虫爬取国防大学本科招生信息网2016年录取分数线1)爬取国防科技大学本科招生信息网
将 urllib.request 导入为 req
url = ''webpage = req.urlopen(url)#根据超链接访问链接的网页
data = pages.read()#读取超链接网页数据
data = data.decode('utf-8')# byte类型解码为string
打印(数据)
这段代码爬取了网页上的所有信息
运行结果是:
您可以清楚地看到我们抓取网络的所有信息
2)寻找我们需要的信息关键词
我们只需要2016年的录取分数,所以我们需要量身定制
打开网页按f12键查看网页代码,找到想要的列表的代码行,然后寻找代码的关键词,最后修剪一下
提取信息的正则表达式为:
'(.*?)'
代码是:
表 = re.findall(r'', 数据, re.S)
第一表 = 表 [0]
# 数据清理,删除,\u3000,以及表格中的空格
firsttable = firsttable.replace('', '')
firsttable = firsttable.replace('\u3000', '')
firsttable = firsttable.replace(' ', '')
打印(表[0])
剪裁后,我们可以清楚地看到我们需要的信息
但是信息还是太杂了,所以我们需要把它剪下来,一步一步提取信息
3)再次修剪,直到获得所需的浓缩信息
定义步骤 3():
分数 = []
# 1.根据tr标签对获取表中的所有行,并保存到列表行中:
行 = re.findall(r'', firsttable, re.S)
# 2. 遍历行中的所有元素,获取每一行的td标签中的数据,将数据组成一个项目列表,并将每个项目添加到scorelist列表中:
计分表 = []
对于行中的行:
项目 = []
tds = re.findall(r'
(.*?)
', 行, re.S)
对于 tds 中的 td:
rightindex = td.find('')# return -1 表示未找到
leftindex = td[:rightindex].rfind('>')
items.append(td[leftindex+1:rightindex])
scorelist.append(项目)
# 3. 保存由省份和分数组成的8元列表(如果分数不存在则使用/替换)作为新列表分数中的元素,不要保存冗余信息
记录在 scorelist[3:] 中:
记录.pop()
score.append(记录)
返回分数
打印(步骤 3())
运行的结果是:
这段代码成功地清理了我们的消息并使其尽可能简单
4)爬虫思路:
当我们抓取一条自己的信息时,往往会带上很多无用的信息。这时候就要对我们爬取的信息一步步细化,先截取我们需要的信息所在的类别,然后从这个类别开始减速。获取您需要的信息