php 爬虫抓取网页数据( 请求头需要注意的参数：请求3、ps：浏览器接收请求)

优采云发布时间: 2021-12-31 16:31

　　php 爬虫抓取网页数据(

请求头需要注意的参数：请求3、*ps：*浏览器接收请求)

　　**Request：**用户通过浏览器（socket client）向服务器（socket server）发送信息

　　**Response: **服务器收到请求，分析用户发送的请求信息，然后返回数据（返回的数据可能收录其他链接，如图片、js、css等）

　　**ps:** 浏览器收到Response后，解析其内容展示给用户，爬虫程序模拟浏览器发送请求后提取有用数据，然后接收响应.

　　四、请求

　　1、请求方式：

　　常见的请求方式：GET / POST

　　2、请求的网址

　　URL 全局统一资源定位器，用于定义互联网上唯一的资源。例如：一张图片，一个文件，一个视频可以通过url唯一确定

　　网址编码

　　图片

　　图片将被编码（见示例代码）

　　网页的加载过程为：

　　加载网页，一般是先加载文档文档，

　　解析文档时，如果遇到链接，则针对超链接发起下载图片的请求

　　3、请求头

　　User-agent：如果请求头中没有user-agent客户端配置，服务器可能会把你当成非法用户主机；

　　Cookies：cookies用于保存登录信息

　　注意：一般爬虫会添加请求头

　　请求头中需要注意的参数：

　　（1）Referrer：访问源从何而来？（一些大型网站会使用Referrer作为反盗链策略；所有爬虫也要注意模拟）

　　(2）User-Agent：访问过的浏览器（需添加，否则将被视为爬虫）

　　(3）cookie：注意携带请求头

　　4、请求正文

　　请求体如果是get方式，请求体没有内容（get请求的请求体放在 url后面参数中，直接能看到）如果是post方式，请求体是format dataps：1、登录窗口，文件上传等，信息都会被附加到请求体内2、登录，输入错误的用户名密码，然后提交，就可以看到post，正确登录后页面通常会跳转，无法捕捉到post。最后，如果你的时间不是很紧张，并且又想快速的python提高，最重要的是不怕吃苦，建议你可以架尉♥信（同音）：276 3177 065 ，那个真的很不错，很多人进步都很快，需要你不怕吃苦哦！大家可以去添加上看一下~

　　五、响应响应

　　1、响应状态码

　　200：代表成功

　　301：代表跳转

　　404：文件不存在

　　403：未经授权的访问

　　502：服务器错误

　　2、响应头

　　响应头中需要注意的参数：

　　(1）Set-Cookie:BDSVRTM=0; path=/: 可能不止一个，但是要告诉浏览器保存cookie

　　(2）Content-Location：服务器响应头收录Location返回浏览器后，浏览器会重新访问另一个页面

　　3、预览是网页的源代码

　　JSO 数据

　　如网页html、图片

　　二进制数据等

　　六、总结

　　1、爬取过程总结：

　　爬行—>分析—>存储

　　2、爬虫所需的工具：

　　**请求库：**requests、selenium（可以驱动浏览器解析渲染CSS和JS，但是有性能劣势（有用和没用的网页都会加载）；）**分析库：**常规、beautifulsoup、pyquery **Repository: **File、MySQL、Mongodb、Redis

　　如何领取python福利教程：

　　1、赞+评论（勾选“同步转发”）

　　2、关注小编。并私信回复关键词[19]

　　（必须有私信~点我头像看私信按钮）

0

2021-12-31

php 爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php 爬虫抓取网页数据( 请求头需要注意的参数：请求3、ps：浏览器接收请求)

0 个评论

发起人