python网页数据抓取(网络爬虫(又被称为网页蜘蛛,网络机器人)可以做什么)

优采云 发布时间: 2022-02-01 20:14

  python网页数据抓取(网络爬虫(又被称为网页蜘蛛,网络机器人)可以做什么)

  网络爬虫简介(也称为网络蜘蛛、网络机器人,在 FOAF 社区中,更常见的是网络追逐者):

  它是根据一定的规则自动从万维网上抓取信息的程序或脚本。其他不太常用的名称是 ant、autoindex、emulator 或 worm。其实通俗的说,就是通过程序在网页上获取你想要的数据,也就是自动抓取数据。爬虫能做什么?

  你可以使用爬虫爬取图片、爬取视频等你想爬取的数据,只要你可以通过浏览器访问的数据都可以通过爬虫获取。当你在浏览器中输入地址,通过DNS服务器找到服务器主机,向服务器发送请求,服务器解析并将结果发送给用户的浏览器,包括html、js、css等文件内容,浏览器解析它并最终呈现它给用户在浏览器上看到的结果

  因此,用户在浏览器中看到的结果是由 HTML 代码组成的。我们的爬虫就是获取这些内容,通过对HTML代码的分析和过滤,我们可以从中获取我们想要的资源。页面获取

  1) 根据 URL 获取网页

  import urllib.request as req

# 根据URL获取网页:

# http://www.hnpolice.com/

url = 'http://www.hnpolice.com/'

webpage = req.urlopen(url) # 按照类文件的方式打开网页

# 读取网页的所有数据,并转换为uft-8编码

data = webpage.read().decode('utf-8')

print(data)

  2)网页数据存储在一个文件中

  # 将读取的网页数据写入文件:

outfile = open("enrollnudt.txt", 'w') # 打开文件

outfile.write(data) # 将网页数据写入文件

outfile.close()

  至此,我们从网页中获取的数据已经保存在我们指定的文件中,如下图

  

  网络访问

  从图中可以看出,网页的所有数据都存储在本地,但是我们需要的数据大部分是文本或者数字信息,代码对我们没有用处。所以我们接下来要做的就是清除无用的数据。(这里我会从*敏*感*词*新闻中获取内容)

  3)提取内容

  分析网页以找到您需要的“警察新闻”

  内容范围

  如何提取表格的内容?

  如果模式收录一个组,它将返回匹配的

  组列表

  

  常用表达

  使用正则表达式匹配

  '(.*?)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线