网页 抓取 innertext 试题(什么是HTML的格式文字,和EXCEL等OFFICE程序不同)

优采云 发布时间: 2022-02-05 08:16

  网页 抓取 innertext 试题(什么是HTML的格式文字,和EXCEL等OFFICE程序不同)

  难得来这里讲一下浏览器对象的问题。

  与EXCEL等OFFICE程序不同的是,浏览器的目的是获取信息,其操作分为“两段”,一段在“我们自己”(客户端),一段在服务器。

  在运行时,“我们这边”的浏览器(客户端)向服务器发送请求,服务器回复,然后它返回(认为正确,这是要检查的,有协议,如果有答案正确与否,比如我们常见的404回答,还有强盗跳出中间、电信、中间商等都是卡住的广告)

  “我们这边”的客户端获取完整的信息,这是一大段 HTML 文本。一般来说,IE浏览器或任何其他XX浏览器都会解析HTML格式的文本,即HTML网页。

  这样的一段甚至是HTML格式的,所谓的“网页源代码”

  你好

  成功请求后,它已经是客户端的结果 - “我们这边”。大家要研究的是如何分析这个“HTML风格的代码”,比如HELLO,如何用代码去捕捉它,那也是数据吧?

  在W3C()的规定中,这种东西被规定为对象模型,就是从文档开始的集合(微软自己也在上面加了一个APPLICATION)

  不过在这之前怎么请求也是个问题,所以客户端和服务端之间也有一个流程,就是一个HTTP协议,POST和GET的详细流程。如果我们不想详细了解,我们可以直接请一个对象来帮助我们。,解析后可以获取文档下面的对象,也可以自己手动请求服务器。这是 IE APPLICATION 和 XMLHTTP 对象之间的区别。

  XMLHTTP对象不负责解析document等网页对象,而是负责向服务器发送请求,取回请求,取回一串字符流(所以不太严格,也有二进制的)

  IE APPLICATION 或 WEB CONTROL 控件接管发送和检索请求的工作,并将这些内容处理和重建为“网页对象”。

  他们有自己的优点和缺点。一般来说,初学者最好使用 web 对象,因为它们跳过了内部细节;但是,Web 对象有时构建起来非常复杂。比如解析成广告,解析成GIF,解析成乱七八糟的网页代码(可能是死循环,恶意代码),你就在那里等——相当于DOEVENTS,等花。而要直接抓取数据,还得有耐心和技术,慢慢分析一串字符才能找到数据(有时候很尴尬,不如标准的W3C对象,与其说是用代码,不如说是是手动计算)

  但是,直接 POST 和 GET 对于在网页上提交数据非常有用。它最初是基于 HTTP 协议的。在网页的对象中,如果要通过FORM提交数据,也是POST。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线