c爬虫抓取网页数据(网络爬虫网页蜘蛛怎么用获取数据的方法?)
优采云 发布时间: 2021-09-10 05:05c爬虫抓取网页数据(网络爬虫网页蜘蛛怎么用获取数据的方法?)
介绍网络爬虫(也称为网络蜘蛛、网络机器人,在 FOAF 社区中,更多时候称为网络追逐者):
是根据一定的规则自动抓取万维网上信息的程序或脚本。其他不太常用的名称是蚂蚁、自动索引、模拟器或蠕虫。其实现在流行的是通过程序在网页上获取你想要的数据,即自动抓取数据。爬虫能做什么?可以使用爬虫来爬取图片、爬取视频等,你要爬取的数据,只要能通过浏览器访问数据,就可以通过爬虫获取。当你在浏览器中输入地址时,通过DNS服务器找到服务器主机,并向服务器发送请求。服务端解析后,将结果发送到用户浏览器,包括html、js、css等文件内容,浏览器解析出来,最后呈现给用户在浏览器上看到的结果。所以用户看到的浏览器的结果是由HTML代码组成的。我们的爬虫就是获取这些内容,通过对html代码进行分析过滤,从中获取我们想要的资源。页面访问
1) 根据 URL 获取网页
URL 处理模块(库) import urllib.request as req 创建一个类似文件的对象,表示远程 url req.urlopen('') 像本地文件一样读取内容 import urllib.request as req # 获取网络页面根据url: # url ='' pages = req.urlopen(url) #以class文件的方式打开网页#读取网页的所有数据并转换为uft-8编码 data = pages.read ().decode('utf-8') 打印(数据)
2)保存网页数据到文件
#将读取的网页数据写入文件: outfile = open("enrollnudt.txt",'w') # 打开文件 outfile.write(data) # 将网页数据写入文件 outfile.close()
此时我们从网页中获取的数据已经保存在我们指定的文件中了,如下图
网页访问
从图中可以看出,网页的所有数据都存储在本地,但我们需要的大部分数据是文本或数字信息,代码对我们没有用处。那么接下来我们要做的就是清除无用的数据。 (这里我会得到派出所新闻的内容)
3)提取内容
分析网页,找到需要的内容《警校新闻》
内容范围
...
如何提取表格中的所有内容?
导入re包(正则表达式包) import re re.findall(pattern, string [, flags] )以列表的形式返回字符串中匹配模式的非重叠子串。字符串将从左到右扫描。 , 返回的列表也是从左到右匹配一次
如果模式中有组,则返回匹配的组
组列表的正则表达式
使用正则表达式进行匹配
'(.*?)'
数据清洗
清洗前后的数据 x.strip() 数据内部清洗 x.replace('','')
到此,本地已经获取到需要的内容,爬虫基本完成。