c httpclient抓取网页(某一的事情交给httpclient替你完成(图)HTTP)

优采云 发布时间: 2021-12-15 00:06

  c httpclient抓取网页(某一的事情交给httpclient替你完成(图)HTTP)

  一般情况下,我们使用IE或谷歌浏览器访问WEB服务器来浏览页面查看信息或提交一些数据等。但是,在某些情况下,可能需要通过程序访问这些页面来“窃取”一些来自其他人网页的数据。比如我们想获取某个微信公众号的信息,但是我们自己没有这样的数据,所以只能通过搜狗搜索引擎来完成。我们需要将公众号关键字提交到网页中,并从返回的页面中解析出我们想要的数据。.

  JDK包中已经提供了访问HTTP协议的基本功能。如果要访问的对象只是一个简单的页面,JDK提供的HttpURLConnection就可以处理。

  但是,考虑到一些服务授权问题,很多公司提供的页面往往无法通过简单的URL访问。有的需要用户登录后才能使用,有的需要认证,有的通过加密方式传输,比如HTTPS。.

  这时候就涉及到COOKIE问题的处理了。我们知道,目前流行的 ASP、JSP 等动态 Web 技术都使用 cookie 来处理会话信息。为了让我们的程序使用他人提供的服务页面,需要程序登录后访问服务页面。这个过程需要自己处理cookies。使用 .HttpURLConnection 来完成这些功能是多么可怕的事情!

  HttpClient 是 Apache Jakarta Common 下的一个子项目,专门用于简化 HTTP 客户端和服务器之间的各种通信编程。通过它,你可以轻松解决原本头疼的问题。例如,您不再关心 HTTP 或 HTTPS 通信方式,告诉它​​您要使用 HTTPS,然后让 httpclient 为您完成剩下的工作。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线