网页抓取 innertext 试题(什么是HTML的格式文字，和EXCEL等OFFICE程序不同)

优采云发布时间: 2022-02-05 08:16

　　难得来这里讲一下浏览器对象的问题。

　　与EXCEL等OFFICE程序不同的是，浏览器的目的是获取信息，其操作分为“两段”，一段在“我们自己”（客户端），一段在服务器。

　　在运行时，“我们这边”的浏览器（客户端）向服务器发送请求，服务器回复，然后它返回（认为正确，这是要检查的，有协议，如果有答案正确与否，比如我们常见的404回答，还有强盗跳出中间、电信、中间商等都是卡住的广告）

　　“我们这边”的客户端获取完整的信息，这是一大段 HTML 文本。一般来说，IE浏览器或任何其他XX浏览器都会解析HTML格式的文本，即HTML网页。

　　这样的一段甚至是HTML格式的，所谓的“网页源代码”

　　你好

　　成功请求后，它已经是客户端的结果 - “我们这边”。大家要研究的是如何分析这个“HTML风格的代码”，比如HELLO，如何用代码去捕捉它，那也是数据吧？

　　在W3C()的规定中，这种东西被规定为对象模型，就是从文档开始的集合（微软自己也在上面加了一个APPLICATION）

　　不过在这之前怎么请求也是个问题，所以客户端和服务端之间也有一个流程，就是一个HTTP协议，POST和GET的详细流程。如果我们不想详细了解，我们可以直接请一个对象来帮助我们。，解析后可以获取文档下面的对象，也可以自己手动请求服务器。这是 IE APPLICATION 和 XMLHTTP 对象之间的区别。

　　XMLHTTP对象不负责解析document等网页对象，而是负责向服务器发送请求，取回请求，取回一串字符流（所以不太严格，也有二进制的）

　　IE APPLICATION 或 WEB CONTROL 控件接管发送和检索请求的工作，并将这些内容处理和重建为“网页对象”。

　　他们有自己的优点和缺点。一般来说，初学者最好使用 web 对象，因为它们跳过了内部细节；但是，Web 对象有时构建起来非常复杂。比如解析成广告，解析成GIF，解析成乱七八糟的网页代码（可能是死循环，恶意代码），你就在那里等——相当于DOEVENTS，等花。而要直接抓取数据，还得有耐心和技术，慢慢分析一串字符才能找到数据（有时候很尴尬，不如标准的W3C对象，与其说是用代码，不如说是是手动计算）

　　但是，直接 POST 和 GET 对于在网页上提交数据非常有用。它最初是基于 HTTP 协议的。在网页的对象中，如果要通过FORM提交数据，也是POST。

0

2022-02-05

网页抓取 innertext 试题

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取 innertext 试题(什么是HTML的格式文字，和EXCEL等OFFICE程序不同)

0 个评论

发起人

AI时代内容工厂

网页 抓取 innertext 试题(什么是HTML的格式文字，和EXCEL等OFFICE程序不同)

0 个评论

发起人

网页抓取 innertext 试题(什么是HTML的格式文字，和EXCEL等OFFICE程序不同)