网页视频抓取软件排行(使用网络爬虫爬取本科招生信息网中(2016年录取分数1))

优采云发布时间: 2022-02-25 16:01

　　1.什么是网络爬虫？

　　网络爬虫（也称为网络蜘蛛、网络机器人，在 FOAF 社区中，更常被称为网络追逐者）是根据一定规则自动从万维网上爬取信息的程序或脚本。其他不太常用的名称是 ant、autoindex、emulator 或 worm。

　　换句话说，如果我们把互联网比作一个大蜘蛛网，数据存储在蜘蛛网的每个节点中，而爬虫是沿着网络抓取自己的猎物（数据）的小蜘蛛。爬虫是指：网站发起请求，获取资源后分析提取有用数据的程序；技术上，它通过程序模拟浏览器请求站点的行为，将HTML代码/JSON数据/二进制数据（图片、视频）转换成本地，然后提取出你需要的数据并存储起来使用。

　　2.软件环境

　　Anaconda 导航软件

　　该软件区分 32 位和 64 位（本机 64 位）

　　2.如何使用网络爬虫？使用网络爬虫爬取国防大学本科招生信息网2016年录取分数线1）爬取国防科技大学本科招生信息网

　　将 urllib.request 导入为 req

　　url = ''webpage = req.urlopen(url)#根据超链接访问链接的网页

　　data = pages.read()#读取超链接网页数据

　　data = data.decode('utf-8')# byte类型解码为string

　　打印（数据）

　　这段代码爬取了网页上的所有信息

　　运行结果是：

　　您可以清楚地看到我们抓取网络的所有信息

　　2）寻找我们需要的信息关键词

　　我们只需要2016年的录取分数，所以我们需要量身定制

　　打开网页按f12键查看网页代码，找到想要的列表的代码行，然后寻找代码的关键词，最后修剪一下

　　提取信息的正则表达式为：

　　'(.*?)'

　　代码是：

　　表 = re.findall(r'', 数据, re.S)

　　第一表 = 表 [0]

　　# 数据清理，删除，\u3000，以及表格中的空格

　　firsttable = firsttable.replace('', '')

　　firsttable = firsttable.replace('\u3000', '')

　　firsttable = firsttable.replace(' ', '')

　　打印（表[0]）

　　剪裁后，我们可以清楚地看到我们需要的信息

　　但是信息还是太杂了，所以我们需要把它剪下来，一步一步提取信息

　　3）再次修剪，直到获得所需的浓缩信息

　　定义步骤 3（）：

　　分数 = []

　　# 1.根据tr标签对获取表中的所有行，并保存到列表行中：

　　行 = re.findall(r'', firsttable, re.S)

　　# 2. 遍历行中的所有元素，获取每一行的td标签中的数据，将数据组成一个项目列表，并将每个项目添加到scorelist列表中：

　　计分表 = []

　　对于行中的行：

　　项目 = []

　　tds = re.findall(r'

　　(.*?)

　　', 行, re.S)

　　对于 tds 中的 td：

　　rightindex = td.find('')# return -1 表示未找到

　　leftindex = td[:rightindex].rfind('>')

　　items.append(td[leftindex+1:rightindex])

　　scorelist.append（项目）

　　# 3. 保存由省份和分数组成的8元列表（如果分数不存在则使用/替换）作为新列表分数中的元素，不要保存冗余信息

　　记录在 scorelist[3:] 中：

　　记录.pop()

　　score.append（记录）

　　返回分数

　　打印（步骤 3（））

　　运行的结果是：

　　这段代码成功地清理了我们的消息并使其尽可能简单

　　4）爬虫思路：

　　当我们抓取一条自己的信息时，往往会带上很多无用的信息。这时候就要对我们爬取的信息一步步细化，先截取我们需要的信息所在的类别，然后从这个类别开始减速。获取您需要的信息

0

2022-02-25

网页视频抓取软件排行

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页视频抓取软件排行(使用网络爬虫爬取本科招生信息网中(2016年录取分数1))

0 个评论

发起人

AI时代内容工厂

网页视频抓取软件排行(使用网络爬虫爬取本科招生信息网中(2016年录取分数1))

0 个评论

发起人

相关问题