爬虫和用户的一些信息爬虫爬虫的工作原理

优采云发布时间: 2021-08-17 18:25

　　爬虫和用户的一些信息爬虫爬虫的工作原理

　　get:①更方便，不足：不安全，明文，参数长度有限

　　post: ①比较安全 ②对数据整体没有限制 ③可以上传文件

　　放入（不完整）

　　delete（删除一些信息）

　　head（请求头）

　　②Crawler：使用代码模拟用户批量发送网络请求，批量获取数据

　　向服务器发送网络请求一般需要将某些数据带到服务器上。也可以没有数据（即没有参数）。如果有参数，作为爬虫不容易被发现。

　　在请求头（requestheader）中

　　返回数据响应：响应

　　按要求退回

　　#接受文本格式

　　#Accept-Encoding 编码格式

　　#connection:长链接短链接

　　#Cookie：缓存

　　#Host：域名

　　# Referer：logo是从那个页面文章转过来的

　　# User-Agent: "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0": Browse关于设备和用户的一些信息

　　③爬虫的工作原理

　　一：判断你抓取的是哪个url

　　二：使用python代码发送请求获取数据（可以使用java Go）

　　三：分析获取的数据（精准数据）

　　①找到新数据（url）并返回第一步

　　四：数据持久化（保存）

　　爬虫爬取步骤

　　导入urllib.request//引导包

　　定义 load_data():

　　url = ""//工作原理第一点

　　# response:Http响应对象(响应体)

response = urllib.request.urlopen(url)//请求工作原理里面的第二点

print(response)

# 读取内容 byte(二进制类型)

data = response.read()//读取内容工作原理里面的第三点

print(data)

# 将文件获取的内容转化为字符串

str_data = data.decode("utf-8")//转化为了解析少了解析这一步，一般使用Xpath等解析数据

print(str_data)

#将数据写入文件

with open("baidu.html","w",encoding="utf-8") as f://第四步保存了

f.write(str_data)

　　注意事件：一般我们在使用爬虫爬取数据的时候，发送请求的时候一定要伪装；

0

2021-08-17

云端采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

爬虫和用户的一些信息爬虫爬虫的工作原理

0 个评论

发起人