java爬虫抓取网页数据(常见的请求Method：在Http协议中定义了八种请求)

优采云发布时间: 2022-03-28 06:14

　　Http协议：全称HyperText Transfer Protocol，中文是超文本传输协议的意思。它是一种发布和接收 HTML（超文本标记语言）页面的方法。服务器端口号为80端口。 2. HTTPS协议：是HTTP协议的加密版本，在HTTP下增加了SSL层。服务器端口号为 443 端口。

　　网址详情：

　　URL是Uniform Resource Locator，统一资源定位器的缩写。一个 URL 由以下部分组成：

　　host：主机名、域名，如port：端口号。当您访问网站时，浏览器默认使用端口 80 路径：查找路径。例如：下面的trending/now是pathquery-string：查询字符串，如：下面的wd=python就是查询字符串。Anchor：Anchor，前端用于页面定位。现在有些前后端项目是分开的，锚点也是用来导航的。

　　在浏览器中请求一个url，浏览器会对url进行编码。除英文字母、数字和部分符号外，其余均采用百分号+十六进制码值编码。

　　常见的请求方式：

　　在 Http 协议中，定义了八种请求方法。这里介绍两种常见的请求方式，即get request和post request。

　　获取请求：一般情况下，只从服务器获取数据时使用获取请求，不会对服务器资源产生任何影响。Post 请求：向服务器发送数据（登录）、上传文件等，在影响服务器资源时会使用 post 请求。以上是网站开发中常用的两种方法。并且一般遵循使用原则。但是，一些网站和服务器为了实现反爬机制，经常会做出不合常理的卡片。应该使用 get 方法的请求有可能必须更改为 post 请求，这取决于具体情况。常见的请求头参数：

　　在http协议中，向服务器发送一个请求，数据分为三部分。第一种是将数据放在url中，第二种是将数据放在body中（在post请求中），第三种是将数据放在url中。数据放在头部。以下是网络爬虫中经常使用的一些请求头参数：

　　User-Agent：浏览器名称。这通常用于网络爬虫。当请求一个网页时，服务器可以通过这个参数知道是哪个浏览器发送了请求。如果我们通过爬虫发送请求，那么我们的 User-Agent 就是 Python。对于那些有反爬虫机制的网站，很容易判断你的请求是爬虫。因此，我们经常将这个值设置为某些浏览器的值来伪装我们的爬虫。

　　Referer：表示当前请求来自哪个url。这也可以用于一般的反爬虫技术。如果不是来自指定页面，则不会做出相关响应。

　　Cookies：http 协议是无状态的。即同一个人发送了两个请求，服务器没有能力知道这两个请求是否来自同一个人。因此，此时cookie用于识别。一般如果要登录访问网站，则需要发送cookie信息。

　　常见响应状态码：

0

2022-03-28

java爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫抓取网页数据(常见的请求Method：在Http协议中定义了八种请求)

0 个评论

发起人

AI时代内容工厂

java爬虫抓取网页数据(常见的请求Method：在Http协议中定义了八种请求)

0 个评论

发起人

相关问题