爬虫和用户的一些信息爬虫爬虫的工作原理

优采云 发布时间: 2021-08-17 18:25

  爬虫和用户的一些信息爬虫爬虫的工作原理

  get:①更方便,不足:不安全,明文,参数长度有限

  post: ①比较安全 ②对数据整体没有限制 ③可以上传文件

  放入(不完整)

  delete(删除一些信息)

  head(请求头)

  ②Crawler:使用代码模拟用户批量发送网络请求,批量获取数据

  向服务器发送网络请求一般需要将某些数据带到服务器上。也可以没有数据(即没有参数)。如果有参数,作为爬虫不容易被发现。

  在请求头(requestheader)中

  返回数据响应:响应

  按要求退回

  #接受文本格式

  #Accept-Encoding 编码格式

  #connection:长链接短链接

  #Cookie:缓存

  #Host:域名

  # Referer:logo是从那个页面文章转过来的

  # User-Agent: "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0": Browse关于设备和用户的一些信息

  ③爬虫的工作原理

  一:判断你抓取的是哪个url

  二:使用python代码发送请求获取数据(可以使用java Go)

  三:分析获取的数据(精准数据)

  ①找到新数据(url)并返回第一步

  四:数据持久化(保存)

  爬虫爬取步骤

  导入urllib.request//引导包

  定义 load_data():

  url = ""//工作原理第一点

  # response:Http响应对象(响应体)

response = urllib.request.urlopen(url)//请求 工作原理里面的第二点

print(response)

# 读取内容 byte(二进制类型)

data = response.read()//读取内容 工作原理里面的第三点

print(data)

# 将文件获取的内容转化为字符串

str_data = data.decode("utf-8")//转化为了解析 少了解析这一步,一般使用Xpath等解析数据

print(str_data)

#将数据写入文件

with open("baidu.html","w",encoding="utf-8") as f://第四步 保存了

f.write(str_data)

  注意事件:一般我们在使用爬虫爬取数据的时候,发送请求的时候一定要伪装;

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线