HTTP是一种无状态协议,服务器没有没有办法

优采云发布时间: 2021-08-05 18:46

　　HTTP 是一种无状态协议。服务器无法通过网络连接知道访问者的身份。为了解决这个问题，Cookie应运而生。 cookie 实际上是一小段文本信息。客户端向服务器请求，如果服务器需要记录用户的状态，则使用响应向客户端浏览器发出一个Cookie。客户端浏览器将保存 cookie。当浏览器再次请求网站时，浏览器将请求的URL和cookie一起提交给服务器。服务器检查 cookie 以识别用户的状态。服务器也可以根据需要修改cookie的内容。事实上，一张通行证，每个人一张，任何来访的人都必须带上自己的通行证。这样，服务器就可以从通行证中确认客户端的身份。这就是cookies的工作原理。 Cookies 允许服务器程序跟踪每个客户端的访问，但这些 cookie 必须在每次客户端访问时发送回来。如果有很多 cookie，这无形中增加了客户端和服务器之间的数据传输量。 Session的出现就是为了解决这个问题。同一个客户端每次与服务器交互，不需要返回所有的cookie值，只返回一个ID。这个ID是客户端第一次访问服务器时生成的，每个客户端都是唯一的。

　　这样每个客户端都有一个唯一的ID，客户端只需要返回这个ID即可。这个 ID 通常是一个 NANE 作为 JSESIONID 的 Cookie。 cookie 和 session 的区别：具体来说，cookie 机制采用了在客户端保持状态的方案，而会话机制采用了在服务器端保持状态的方案。同时我们也看到，由于服务端状态保持方案还需要在客户端保存一个身份，会话机制可能需要使用cookie机制来达到保存身份的目的。 cookie不是很安全，其他人可以分析本地存储的。饼干和饼干欺骗。考虑到安全性，应该使用 session。会话将在服务器上存储一段时间。当访问次数增加时，会占用您服务器的性能。考虑到服务器性能的降低，应该使用cookie来保存不能超过4k的数据。许多浏览器限制一个站点最多保存 20 个 cookie。登录信息等重要信息可以存储为会话。实现Session机制：抓取页面时，如果涉及到动态页面，可能需要考虑在爬虫中实现Session机制。 cookie处理：最终的URL命令结果通过HTTP协议数据包发送，cookie信息可以携带在头信息中。

　　6、Cookie 和 Session（书中给出的答案）

　　Cookie 是一种由服务器生成并保存在客户端读取的信息。 Cookies 通常作为文件存储在用户身上。查看 cookie 的方法因浏览器而异。会话是另一种在客户端和服务器之间维护状态的常用机制。在一定程度上解决或缓解了上述问题。准确理解其技术原理，有利于设计更好的动态爬虫。 Session可以看成是Web服务器上的一个内存块，原本保存在Cookie中的用户信息可以保存在这个内存块中。客户端和服务端依赖一个全局唯一标识Session_id来访问Session中的用户数据，这样在Cookie中只需要保存Session_id就可以实现不同页面之间的数据共享。可以看出，在Session机制下，除了Session_id之外，其他用户信息都没有保存在Cookie文件中，从而解决了以上两个问题。

　　7、四种典型应用架构

　　客户端/服务器：客户端可以是各种浏览器或爬虫。 Client/Server/Database：在网络爬虫技术中，该架构支持动态网页的实现。可用性和负载平衡设计。虚拟主机架构：虚拟主机是另一种常见的 Web 应用架构。是指在一个服务器中配置多个网站，让每个网站看起来都拥有一台独立的物理计算机。虚拟主机的实现方式有三种：（1）基于IP地址的方法、基于端口的方法、基于主机名的方法。

　　8、常见爬虫爬取流程

　　特定爬虫进程：（1）Web server connector向指定的Web server发起连接请求，然后在爬虫和Web server之间建立网络连接。这个连接作为后续的发送URL和接收服务器返回信息路径，直到爬虫或服务器断开连接。在连接过程中，为了减少将域名映射到IP地址的时间消耗，爬虫需要使用DNS缓存。（2）发送一个URL页面到连接上的Web服务器请求命令，等待Web服务器的响应，对于新的网站，在发送URL请求之前，应该检查根目录下是否有Robots.txt文件，如果有，应该解析文件，建立服务器访问要求和URL权限列表，同时要处理各种可能的网络异常和各种可能的Web服务器异常，比如HTTP 404 错误。当web服务器反馈页面内容时，可以保存页面信息，并将HTML编码的文本信息发送到下一个处理步骤。（3）对获取到的HTML文件的URL进行提取过滤，页面解析器分析HTML文本提取其中收录的URL。进一步根据Robots.txt的访问权限列表，基本规则如是否已爬取过滤提取的URL，排除一些不需要检索的页面。（4）按照一定的爬取策略，将每个URL放到URL任务中合适的位置。依次。顺序很重要。需要考虑web服务器对访问频率和时间的要求，以及建立连接的时间消耗。 URL爬取任务对于新的URL，不断重复上述过程，直到爬取任务为空或用户中断。

　　9、动态页面内容生成方法

　　区分动态页面和静态页面的主要特征是页面内容的生成方式。动态页面内容生成方法可以分为两大类，即服务器端生成和客户端生成。服务器生成：在这种内容生成方式中，页面主要内容的结构和呈现一般是分开的。页面的主要内容可以存储在各种数据库系统中，决定结构和表现形式的HTML标签和句子存储在Web服务器上，因此应用架构采用客户端/服务器/数据库模型。客户端生成：按照这种内容生成方式，内容是在客户端生成的，客户端主要是浏览器。受浏览器能力的限制，客户端生成的内容一般都是轻量级的、局部的，比如提示用户警告信息、显示定时等。在这种生成方法中，需要在网页中嵌入某个脚本或插件。通过在浏览器中执行这些脚本或插件功能，可以生成网页内容并动态更新。

　　10、动态网页采集技术类型

　　动态网页的主要采集技术可以归纳为以下四种。（1）带参数构造URL，使用参数传递动态请求；（2）构造Cookie携带参数，使用HTTP头传递动态请求参数；（3）Ajax动态请求离线分析，使用静态页面采集技术，或者通过Cookie、Post等方式发送请求参数；（使用最广泛）（4）模拟浏览器技术。

　　11、Web服务器连接器模块主要功能的实现可以通过以下流程来描述。

　　输入：URL格式为：http(https)://域名部分:端口号/目录/文件名.文件后缀，或者http(https)://域名部分:端口号/目录/ , directory 可以收录多个子目录。处理过程：（1）从URL中提取域名和端口号，如果端口号为空，则设置为默认端口号，即80；（2）以域名和端口号为参数创建Socket连接；（3）连接建立后，检查服务器根目录下是否存在robots.txt文件；（4）如果存在则解析robots.txt文件，并生成权限列表和服务器访问需要的参数；（5）根据权限列表和访问时限，如果允许，向服务器发送一个URL请求；（6）等待服务器响应；（7）进行异常处理，并对各种已知的HTTP标准错误代码进行规划；（8）接收服务器返回的数据并将数据保存到文件中；（9）断开网络连接。输出：HTML文件页面

　　12、可以将我的爬虫的User-agent设置为知名爬虫吗？

　　从代码的角度来看，没有人会限制你使用哪种 User-agent，就像上面的例子一样。其实，不断地改变User-agent的值也是很多不友好的爬虫为了躲避服务器检测而采用的惯用做法。然而，这种方法是非常不可取的。扰乱Web服务器的正常判断，可能导致某知名爬虫被检测到不符合Robots协议而引起争议。

　　13、基于统计的Web内容提取方法基本步骤如下：

　　构建HTML文档对应的DOM树；基于DOM树基于一定的特征构建信息抽取规则；根据规则从 HTML 中提取信息。

　　14、基于结构的方法的基本思想描述如下：

　　（1）通过HTML解析器将Web文档解析成DOM树；（2）确定要提取的文本在DOM树中的哪个节点下，节点名和属性是唯一的；（3）使用各种方法定位节点并提取节点中收录的内容。

　　15、PR 算法收敛性的证明基于马尔可夫链，其状态转移矩阵A需要满足三个条件：（1）A为随机矩阵：A的所有元素矩阵大于等于0，且每列元素之和为1，满足概率的定义。（2）A不可约：A不可约当且仅当A对应的有向图强连接。对于每对节点u，v，都有一条从u到v的路径。（3）A是非周期性的。非周期性意味着马尔可夫链的状态转换不会陷入循环，随机过程不是一个简单的循环。

　　16、正则表达式示例

　　'.'通配符：代表任何字符，除了\n，一个点和一个字符 ret = re.findall('m...e', "cat and mouse")#['mouse']

　　'*' 重复匹配允许 * 前的一个字符重复多次 ret = re.findall('ca*t', "caaaaat and mouse") # ['caaaaat']

　　'?'也是重复匹配，但是前面的字符呢？只能重复 0 或 1 次 ret = re.findall('ca?t', "cat and mouse")# ['cat'] ret = re .findall('ca?t', "caaaaat and mouse") # [], 不匹配 ret = re.findall('ca?t', "ct and mouse")#['ct']

　　‘+’也是重复匹配，但至少一次，不是0次 ret = re.findall('ca+t', "caaaaat and mouse") #['caaaaat']

　　'{}'也是重复匹配，但是匹配的次数可以自己设置，可以是数字，也可以是范围 ret = re.findall('ca{5}t', "caaaaat and mouse")#5 次，['caaaaat'] ret = re.findall('ca{1,5}t', "caaaat catd mouse") #1 到 5 次，['caaaat','cat']

　　‘[]’ 定义了要匹配的字符范围。例如，[a-zA-Z0-9]表示对应位置的字符必须匹配英文字符和数字，“-”表示范围。 ret = re.findall('[0-9]{1,5}', "12 只猫和 6 只老鼠")#['12', '6']

　　'\'转义字符，如果字符串中有特殊字符需要匹配，则需要进行转义。这些特殊字符包括。 *? + $ ^ [] {} | \ -。 ret = re.findall('\^c.t', "^cat mouse")#['^cat'] ret = re.findall('\[...\]', "cat [and] mouse" )#['[和]']

　　提取超链接：re.findall("http://[a-zA-Z0-9/\.\-]*", s)

　　ret = re.findall('ca+t', "caaaaat and mouse")#['caaaaat'] ret = re.findall('ca+t', "cat and mouse")#['cat' ] ret = re.findall('ca?t', "ct and mouse")#['ct'] ret = re.findall('[0-9]{1,5}', "12 只猫和 6 只老鼠")#['12', '6'] ret = re.findall('[0-9]', "12 只猫和 6 只老鼠")#['1','2', '6'] ret = re.findall('[0-9]{1,5}', "1234567 只猫和 6 只老鼠")#['12345','67', '6'] ret = re.findall('[0-9a -zA-Z]{1,5}', "1234567 只猫和 6 只老鼠")#['12345', '67','cats','and', '6','mice']

　　17、攀虫大数据采集的技术体系

　　网络连接层：由TCP Socket连接建立、数据传输和连接管理组成。页面采集层：URL处理；搜索策略； Session机制的实现：在抓取页面时，如果涉及到动态页面，可能需要考虑在爬虫中实现session机制； Cookie 处理：最终的 URL 命令结果是通过 HTTP 协议数据包发送时，可以在头信息中携带 cookie 信息。

0

2021-08-05

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

HTTP是一种无状态协议,服务器没有没有办法

0 个评论

发起人

AI时代内容工厂

HTTP是一种无状态协议,服务器没有没有办法

0 个评论

发起人

相关问题