htmlunit 抓取网页(,一个)

优采云发布时间: 2021-09-24 17:04

　　htmlunit 抓取网页(,一个)

　　标签：styleblogclasscodejaext

　　最近，在编写爬虫程序时，使用httpclient捕获某些网页时出现了一些问题，即捕获的内容收录大量加密文本（通过JavaScript脚本），而无法获取真实内容（即通过浏览器打开网页呈现的内容）。因此，您通常需要与JS引擎合作来解决这个问题。搜索后，您可以找到帮助的工具htmlunit。在理解和使用的过程中，我发现这是一个非常强大的开源工具。尽管它不如httpclient出名，但其实力不应低估

　　不要说闲话。目前，htmlunit的最新版本为2.14，可在此处下载：

　　只需下载htmlunit-2.14 bin.zip，解压并将所有jar包导入到项目中

　　以下是一个相对完整的代码：

　　String url="http://news.cnblogs.com/";//想采集的网址

String refer="http://www.cnblogs.com/";

URL link=new URL(url);

WebClient wc=new WebClient();

WebRequest request=new WebRequest(link);

request.setCharset("UTF-8");

request.setProxyHost("120.120.120.x");

request.setProxyPort(8080);

request.setAdditionalHeader("Referer", refer);//设置请求报文头里的refer字段

////设置请求报文头里的User-Agent字段

request.setAdditionalHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");

//wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");

//wc.addRequestHeader和request.setAdditionalHeader功能应该是一样的。选择一个即可。

//其他报文头字段可以根据需要添加

wc.getCookieManager().setCookiesEnabled(true);//开启cookie管理

wc.getOptions().setJavaScriptEnabled(true);//开启js解析。对于变态网页，这个是必须的

wc.getOptions().setCssEnabled(true);//开启css解析。对于变态网页，这个是必须的。

wc.getOptions().setThrowExceptionOnFailingStatusCode(false);

wc.getOptions().setThrowExceptionOnScriptError(false);

wc.getOptions().setTimeout(10000);

//设置cookie。如果你有cookie，可以在这里设置

Set cookies=null;

Iterator i = cookies.iterator();

while (i.hasNext())

{

wc.getCookieManager().addCookie(i.next());

}

//准备工作已经做好了

HtmlPage page=null;

page = wc.getPage(request);

if(page==null)

{

System.out.println("采集 "+url+" 失败!!!");

return ;

}

String content=page.asText();//网页内容保存在content里

if(content==null)

{

System.out.println("采集 "+url+" 失败!!!");

return ;

}

//搞定了

CookieManager CM = wc.getCookieManager(); //WC = Your WebClient‘s name

Set cookies_ret = CM.getCookies();//返回的Cookie在这里，下次请求的时候可能可以用上啦。

　　说明：

　　一,。在htmlunit的操作过程中会引发许多异常。你必须做好准备。哈哈

　　二,。对于异常的网页，有时候你不能用htmlunit获得完整和正确的内容，但是没有压力获得大致正确的内容。下面是如何用jsup之类的东西提取它

　　三,。Htmlunit功能非常强大，有很大的研究空间

　　Htmlunit教程，布扣

　　Htmlunit教程

　　标签：styleblogclasscodejaext

0

2021-09-24

htmlunit 抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

htmlunit 抓取网页(,一个)

0 个评论

发起人

AI时代内容工厂

htmlunit 抓取网页(,一个)

0 个评论

发起人

相关问题