htmlunit 抓取网页(HtmlUnit可以直接访问接口吗？的扩展之一是什么？)

优采云发布时间: 2022-04-19 01:28

　　HttpClient 是一个用于捕获 html 页面的简单工具包。它不再维护，已被 Apache 的 HttpComponents 取代。缺陷是无法获取js获取的动态数据，导致爬取数据丢失。

org.apache.httpcomponents

httpclient

4.5.8

　　import java.io.IOException;

import org.apache.http.HttpEntity;

import org.apache.http.HttpStatus;

import org.apache.http.client.ClientProtocolException;

import org.apache.http.client.methods.CloseableHttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.client.utils.HttpClientUtils;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

import org.apache.http.util.EntityUtils;

public class HttpClientTest {

/**

* 获取html页面内容

* @param url 链接地址

* @return

*/

public static String getHtmlByHttpClient(String url) {

//1.生成httpclient，相当于该打开一个浏览器

CloseableHttpClient httpClient = HttpClients.createDefault();

CloseableHttpResponse response = null;

//2.创建get请求，相当于在浏览器地址栏输入网址

HttpGet request = new HttpGet(url);

try {

//3.执行get请求，相当于在输入地址栏后敲回车键

response = httpClient.execute(request);

//4.判断响应状态为200，进行处理

if(response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {

//5.获取响应内容

HttpEntity httpEntity = response.getEntity();

String html = EntityUtils.toString(httpEntity, "utf-8");

return html;

} else {

//如果返回状态不是200，比如404（页面不存在）等，根据情况做处理，这里略

System.out.println("返回状态不是200");

System.out.println(EntityUtils.toString(response.getEntity(), "utf-8"));

}

} catch (ClientProtocolException e) {

e.printStackTrace();

} catch (IOException e) {

e.printStackTrace();

} finally {

//6.关闭

HttpClientUtils.closeQuietly(response);

HttpClientUtils.closeQuietly(httpClient);

}

　　二、使用 HtmlUnit

　　HtmlUnit可以用来模拟浏览器的操作，可以认为是没有界面的浏览器，即用代码模拟鼠标等操作来操作网页，运行速度快。

　　HtmlUnit 是一个开源的java页面分析工具。作为junit的扩展之一，可以模拟js运行

　　-> 使用htmlUnit抓取百度搜索页面

　　通过htmlUnit操作百度高级搜索界面，最终抓取到搜索结果的html页面内容

net.sourceforge.htmlunit

htmlunit

2.23

　　public static String Baidu(String keyword)throws Exception{

WebClient webclient = new WebClient()；

//ssl认证

//webclient.getOptions().setUseInsecureSSL(true);

//由于有的网页js书写不规范htmlunit会报错，所以去除这种错误让程序执行完全（不影响结果）

webclient.getOptions().setThrowExceptionOnScriptError(false);

webclient.getOptions().setThrowExceptionOnFailingStatusCode(false);

//不加载css

webclient.getOptions().setCssEnabled(false);

//由于是动态网页所以一定要加载js及执行

webclient.getOptions().setJavaScriptEnabled(true);

//打开百度高级搜索的网址

HtmlPage htmlpage = webclient.getPage("http://www.baidu.com/gaoji/advanced.html");

//获取网页from控件（f1为控件name）

HtmlForm form = htmlpage.getFormByName("f1");

HtmlSubmitInput button = form.getInputByValue("百度一下");

HtmlTextInput textField = form.getInputByName("q1");

textField.setValueAttribute(keyword);

final HtmlSelect htmlSelet=form.getSelectByName("rn");

htmlSelet.setDefaultValue("10");

//隐藏值

final HtmlHiddenInput hiddenInputtn = form.getInputByName("tn");

hiddenInputtn.setDefaultValue("baiduadv");

//发送请求（相当于点击百度一下按钮）获取返回后的网页

final HtmlPage page = button.click();

//获取网页的文本信息

String result = page.asText();

//获取网页源码

//String result = page.asXml();

//System.out.println(result);

webclient.close();

return result;

}

　　三、捕获接口获取数据

　　通过前两种方式，有时可能无法得到我们想要的结果，抓取到的html页面代码可能有缺失数据，同时可能被网站*敏*感*词*，ip地址会被封禁，让我们无法继续获取页面数据

　　让我们想想数据来自哪里。一般是通过接口获取的吧？如果我们可以直接访问接口呢？这是我的想法：

　　虽然这种方法可以稳定的获取数据，但实际上在很多网站中我们看不到XHR请求中的接口，这是因为考虑到跨域使用jsonp，这些都可以在js中找到，如果你有兴趣，你可以了解一下

0

2022-04-19

htmlunit 抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

htmlunit 抓取网页(HtmlUnit可以直接访问接口吗？的扩展之一是什么？)

0 个评论

发起人

AI时代内容工厂

htmlunit 抓取网页(HtmlUnit可以直接访问接口吗？的扩展之一是什么？)

0 个评论

发起人

相关问题