网页视频抓取软件排行(使用网络爬虫爬取本科招生信息网中(2016年录取分数1))

优采云 发布时间: 2022-02-25 16:01

  网页视频抓取软件排行(使用网络爬虫爬取本科招生信息网中(2016年录取分数1))

  1.什么是网络爬虫?

  网络爬虫(也称为网络蜘蛛、网络机器人,在 FOAF 社区中,更常被称为网络追逐者)是根据一定规则自动从万维网上爬取信息的程序或脚本。其他不太常用的名称是 ant、autoindex、emulator 或 worm。

  换句话说,如果我们把互联网比作一个大蜘蛛网,数据存储在蜘蛛网的每个节点中,而爬虫是沿着网络抓取自己的猎物(数据)的小蜘蛛。爬虫是指:网站发起请求,获取资源后分析提取有用数据的程序;技术上,它通过程序模拟浏览器请求站点的行为,将HTML代码/JSON数据/二进制数据(图片、视频)转换成本地,然后提取出你需要的数据并存储起来使用。

  2.软件环境

  Anaconda 导航软件

  该软件区分 32 位和 64 位(本机 64 位)

  2.如何使用网络爬虫?使用网络爬虫爬取国防大学本科招生信息网2016年录取分数线1)爬取国防科技大学本科招生信息网

  将 urllib.request 导入为 req

  url = ''webpage = req.urlopen(url)#根据超链接访问链接的网页

  data = pages.read()#读取超链接网页数据

  data = data.decode('utf-8')# byte类型解码为string

  打印(数据)

  这段代码爬取了网页上的所有信息

  运行结果是:

  

  您可以清楚地看到我们抓取网络的所有信息

  2)寻找我们需要的信息关键词

  我们只需要2016年的录取分数,所以我们需要量身定制

  打开网页按f12键查看网页代码,找到想要的列表的代码行,然后寻找代码的关键词,最后修剪一下

  

  提取信息的正则表达式为:

  '(.*?)'

  代码是:

  表 = re.findall(r'', 数据, re.S)

  第一表 = 表 [0]

  # 数据清理,删除,\u3000,以及表格中的空格

  firsttable = firsttable.replace('', '')

  firsttable = firsttable.replace('\u3000', '')

  firsttable = firsttable.replace(' ', '')

  打印(表[0])

  剪裁后,我们可以清楚地看到我们需要的信息

  但是信息还是太杂了,所以我们需要把它剪下来,一步一步提取信息

  

  3)再次修剪,直到获得所需的浓缩信息

  定义步骤 3():

  分数 = []

  # 1.根据tr标签对获取表中的所有行,并保存到列表行中:

  行 = re.findall(r'', firsttable, re.S)

  # 2. 遍历行中的所有元素,获取每一行的td标签中的数据,将数据组成一个项目列表,并将每个项目添加到scorelist列表中:

  计分表 = []

  对于行中的行:

  项目 = []

  tds = re.findall(r'

  (.*?)

  ', 行, re.S)

  对于 tds 中的 td:

  rightindex = td.find('')# return -1 表示未找到

  leftindex = td[:rightindex].rfind('>')

  items.append(td[leftindex+1:rightindex])

  scorelist.append(项目)

  # 3. 保存由省份和分数组成的8元列表(如果分数不存在则使用/替换)作为新列表分数中的元素,不要保存冗余信息

  记录在 scorelist[3:] 中:

  记录.pop()

  score.append(记录)

  返回分数

  打印(步骤 3())

  运行的结果是:

  

  这段代码成功地清理了我们的消息并使其尽可能简单

  4)爬虫思路:

  当我们抓取一条自己的信息时,往往会带上很多无用的信息。这时候就要对我们爬取的信息一步步细化,先截取我们需要的信息所在的类别,然后从这个类别开始减速。获取您需要的信息

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线