爬虫和用户的一些信息爬虫爬虫的工作原理
优采云 发布时间: 2021-08-17 18:25爬虫和用户的一些信息爬虫爬虫的工作原理
get:①更方便,不足:不安全,明文,参数长度有限
post: ①比较安全 ②对数据整体没有限制 ③可以上传文件
放入(不完整)
delete(删除一些信息)
head(请求头)
②Crawler:使用代码模拟用户批量发送网络请求,批量获取数据
向服务器发送网络请求一般需要将某些数据带到服务器上。也可以没有数据(即没有参数)。如果有参数,作为爬虫不容易被发现。
在请求头(requestheader)中
返回数据响应:响应
按要求退回
#接受文本格式
#Accept-Encoding 编码格式
#connection:长链接短链接
#Cookie:缓存
#Host:域名
# Referer:logo是从那个页面文章转过来的
# User-Agent: "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0": Browse关于设备和用户的一些信息
③爬虫的工作原理
一:判断你抓取的是哪个url
二:使用python代码发送请求获取数据(可以使用java Go)
三:分析获取的数据(精准数据)
①找到新数据(url)并返回第一步
四:数据持久化(保存)
爬虫爬取步骤
导入urllib.request//引导包
定义 load_data():
url = ""//工作原理第一点
# response:Http响应对象(响应体)
response = urllib.request.urlopen(url)//请求 工作原理里面的第二点
print(response)
# 读取内容 byte(二进制类型)
data = response.read()//读取内容 工作原理里面的第三点
print(data)
# 将文件获取的内容转化为字符串
str_data = data.decode("utf-8")//转化为了解析 少了解析这一步,一般使用Xpath等解析数据
print(str_data)
#将数据写入文件
with open("baidu.html","w",encoding="utf-8") as f://第四步 保存了
f.write(str_data)
注意事件:一般我们在使用爬虫爬取数据的时候,发送请求的时候一定要伪装;