php 爬虫抓取网页数据( 请求头需要注意的参数:请求3、*ps:*浏览器接收请求)

优采云 发布时间: 2021-12-31 16:31

  php 爬虫抓取网页数据(

请求头需要注意的参数:请求3、*ps:*浏览器接收请求)

  

  **Request:**用户通过浏览器(socket client)向服务器(socket server)发送信息

  **Response: **服务器收到请求,分析用户发送的请求信息,然后返回数据(返回的数据可能收录其他链接,如图片、js、css等)

  **ps:** 浏览器收到Response后,解析其内容展示给用户,爬虫程序模拟浏览器发送请求后提取有用数据,然后接收响应.

  四、 请求

  1、请求方式:

  常见的请求方式:GET / POST

  2、请求的网址

  URL 全局统一资源定位器,用于定义互联网上唯一的资源。例如:一张图片,一个文件,一个视频可以通过url唯一确定

  网址编码

  图片

  图片将被编码(见示例代码)

  网页的加载过程为:

  加载网页,一般是先加载文档文档,

  解析文档时,如果遇到链接,则针对超链接发起下载图片的请求

  3、请求头

  User-agent:如果请求头中没有user-agent客户端配置,服务器可能会把你当成非法用户主机;

  Cookies:cookies用于保存登录信息

  注意:一般爬虫会添加请求头

  

  

  

  请求头中需要注意的参数:

  (1)Referrer:访问源从何而来?(一些大型网站会使用Referrer作为反盗链策略;所有爬虫也要注意模拟)

  (2)User-Agent:访问过的浏览器(需添加,否则将被视为爬虫)

  (3)cookie:注意携带请求头

  4、请求正文

  请求体如果是get方式,请求体没有内容 (get请求的请求体放在 url后面参数中,直接能看到)如果是post方式,请求体是format dataps:1、登录窗口,文件上传等,信息都会被附加到请求体内2、登录,输入错误的用户名密码,然后提交,就可以看到post,正确登录后页面通常会跳转,无法捕捉到post。最后,如果你的时间不是很紧张,并且又想快速的python提高,最重要的是不怕吃苦,建议你可以架尉♥信(同音):276 3177 065 ,那个真的很不错,很多人进步都很快,需要你不怕吃苦哦!大家可以去添加上看一下~

  五、 响应 响应

  1、响应状态码

  200:代表成功

  301:代表跳转

  404:文件不存在

  403:未经授权的访问

  502:服务器错误

  2、响应头

  响应头中需要注意的参数:

  (1)Set-Cookie:BDSVRTM=0; path=/: 可能不止一个,但是要告诉浏览器保存cookie

  (2)Content-Location:服务器响应头收录Location返回浏览器后,浏览器会重新访问另一个页面

  3、预览是网页的源代码

  JSO 数据

  如网页html、图片

  二进制数据等

  六、总结

  1、爬取过程总结:

  爬行—>分析—>存储

  2、爬虫所需的工具:

  **请求库:**requests、selenium(可以驱动浏览器解析渲染CSS和JS,但是有性能劣势(有用和没用的网页都会加载);)**分析库:**常规、beautifulsoup、pyquery **Repository: **File、MySQL、Mongodb、Redis

  如何领取python福利教程:

  1、赞+评论(勾选“同步转发”)

  2、关注小编。并私信回复关键词[19]

  (必须有私信~点我头像看私信按钮)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线