python网页数据抓取(网络爬虫（又被称为网页蜘蛛，网络机器人）可以做什么)

优采云发布时间: 2021-09-28 16:57

　　网络爬虫介绍（也称为网络蜘蛛、网络机器人，在FOAF社区，更多的时候是网络追逐者）：

　　它是按照一定的规则自动抓取万维网信息的程序或脚本。其他不太常用的名称是蚂蚁、自动索引、模拟器或蠕虫。其实通俗点说就是通过程序获取网页上你想要的数据，也就是自动抓取数据。爬虫可以做什么？

　　可以使用爬虫来爬取图片、爬取视频等，想要爬取的数据，只要能通过浏览器访问数据，就可以通过爬虫获取。当你在浏览器中输入地址时，通过DNS服务器找到服务器主机，并向服务器发送请求。服务端解析后，将结果发送到用户浏览器，包括html、js、css等文件内容，浏览器解析出来，最后呈现给用户在浏览器上看到的结果

　　因此，用户看到的浏览器的结果是由 HTML 代码组成的。我们的爬虫就是为了获取这些内容。通过分析和过滤html代码，我们可以从中获取我们想要的资源。页面获取

　　1）根据 URL 获取网页

　　import urllib.request as req

# 根据URL获取网页：

# http://www.hnpolice.com/

url = 'http://www.hnpolice.com/'

webpage = req.urlopen(url) # 按照类文件的方式打开网页

# 读取网页的所有数据,并转换为uft-8编码

data = webpage.read().decode('utf-8')

print(data)

　　2）将网页数据保存到文件

　　# 将读取的网页数据写入文件：

outfile = open("enrollnudt.txt", 'w') # 打开文件

outfile.write(data) # 将网页数据写入文件

outfile.close()

　　这时候我们从网页中获取的数据已经保存在我们指定的文件中了，如下图

　　网页访问

　　从图中可以看出，网页的所有数据都存储在本地，但是我们需要的大部分数据是文本或数字信息，代码对我们没有用处。那么接下来我们要做的就是清除无用的数据。（这里我会得到派出所新闻的内容）

　　3）提取内容

　　分析网页，找到你需要的内容《警察学院新闻》

　　内容范围

　　如何提取表格中的所有内容？

　　如果模式收录组，则将返回匹配的组

　　组列表

　　正则表达式

　　使用正则表达式匹配

　　'(.*?)

0

2021-09-28

python网页数据抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python网页数据抓取(网络爬虫（又被称为网页蜘蛛，网络机器人）可以做什么)

0 个评论

发起人