java爬虫抓取网页数据(常见的请求Method:在Http协议中定义了八种请求)
优采云 发布时间: 2022-03-28 06:14java爬虫抓取网页数据(常见的请求Method:在Http协议中定义了八种请求)
Http协议:全称HyperText Transfer Protocol,中文是超文本传输协议的意思。它是一种发布和接收 HTML(超文本标记语言)页面的方法。服务器端口号为80端口。 2. HTTPS协议:是HTTP协议的加密版本,在HTTP下增加了SSL层。服务器端口号为 443 端口。
网址详情:
URL是Uniform Resource Locator,统一资源定位器的缩写。一个 URL 由以下部分组成:
host:主机名、域名,如port:端口号。当您访问 网站 时,浏览器默认使用端口 80 路径:查找路径。例如:下面的trending/now是pathquery-string:查询字符串,如:下面的wd=python就是查询字符串。Anchor:Anchor,前端用于页面定位。现在有些前后端项目是分开的,锚点也是用来导航的。
在浏览器中请求一个url,浏览器会对url进行编码。除英文字母、数字和部分符号外,其余均采用百分号+十六进制码值编码。
常见的请求方式:
在 Http 协议中,定义了八种请求方法。这里介绍两种常见的请求方式,即get request和post request。
获取请求:一般情况下,只从服务器获取数据时使用获取请求,不会对服务器资源产生任何影响。Post 请求:向服务器发送数据(登录)、上传文件等,在影响服务器资源时会使用 post 请求。以上是网站开发中常用的两种方法。并且一般遵循使用原则。但是,一些网站和服务器为了实现反爬机制,经常会做出不合常理的卡片。应该使用 get 方法的请求有可能必须更改为 post 请求,这取决于具体情况。常见的请求头参数:
在http协议中,向服务器发送一个请求,数据分为三部分。第一种是将数据放在url中,第二种是将数据放在body中(在post请求中),第三种是将数据放在url中。数据放在头部。以下是网络爬虫中经常使用的一些请求头参数:
User-Agent:浏览器名称。这通常用于网络爬虫。当请求一个网页时,服务器可以通过这个参数知道是哪个浏览器发送了请求。如果我们通过爬虫发送请求,那么我们的 User-Agent 就是 Python。对于那些有反爬虫机制的网站,很容易判断你的请求是爬虫。因此,我们经常将这个值设置为某些浏览器的值来伪装我们的爬虫。
Referer:表示当前请求来自哪个url。这也可以用于一般的反爬虫技术。如果不是来自指定页面,则不会做出相关响应。
Cookies:http 协议是无状态的。即同一个人发送了两个请求,服务器没有能力知道这两个请求是否来自同一个人。因此,此时cookie用于识别。一般如果要登录访问网站,则需要发送cookie信息。
常见响应状态码: