htmlunit 抓取网页(编程之家为你收集整理的全部内容全部内容代码片段-编程之家小)
优采云 发布时间: 2021-11-15 16:07htmlunit 抓取网页(编程之家为你收集整理的全部内容全部内容代码片段-编程之家小)
以下是编程之家通过互联网采集整理的一段代码片段。
编程之家的编辑现在与您分享,也可以作为您的参考。
最近在写爬虫的时候,在使用httpclient抓取一些网页的时候出现了一些问题,就是检索到的内容收录大量的密文(通过javascript脚本),无法获取到真实的内容(即呈现的内容)通过使用浏览器打开网页))。所以一般需要配合js引擎来解决这个问题。经过搜索,我发现htmlunit工具可以提供帮助。在了解和使用的过程中,我发现这是一个非常强大的开源工具。虽然名气不如httpclient,但实力不容小觑。少说八卦。可以从这里下载:/htmlunit/files/htmlunit/2.15/
String url="http://outofmemory.cn/";//想采集的网址
String refer="http://open-open.com/";
URL link=new URL(url);
WebClient wc=new WebClient();
WebRequest request=new WebRequest(link);
request.setCharset("UTF-8");
request.setProxyHost("120.120.120.x");
request.setProxyPort(8080);
request.setAdditionalHeader("Referer",refer);//设置请求报文头里的refer字段
////设置请求报文头里的User-Agent字段
request.setAdditionalHeader("User-Agent","Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
//wc.addRequestHeader("User-Agent","Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
//wc.addRequestHeader和request.setAdditionalHeader功能应该是一样的。选择一个即可。
//其他报文头字段可以根据需要添加
wc.getCookieManager().setCookiesEnabled(true);//开启cookie管理
wc.getOptions().setJavaScriptEnabled(true);//开启js解析。对于变态网页,这个是必须的
wc.getOptions().setCssEnabled(true);//开启css解析。对于变态网页,这个是必须的。
wc.getOptions().setThrowExceptionOnFailingStatusCode(false);
wc.getOptions().setThrowExceptionOnScriptError(false);
wc.getOptions().setTimeout(10000);
//设置cookie。如果你有cookie,可以在这里设置
Set cookies=null;
Iterator i = cookies.iterator();
while (i.hasNext())
{
wc.getCookieManager().addCookie(i.next());
}
//准备工作已经做好了
HtmlPage page=null;
page = wc.getPage(request);
if(page==null)
{
System.out.println("采集 "+url+" 失败!!!");
return ;
}
String content=page.asText();//网页内容保存在content里
if(content==null)
{
System.out.println("采集 "+url+" 失败!!!");
return ;
}
//搞定了
CookieManager CM = wc.getCookieManager(); //WC = Your WebClient's name
Set cookies_ret = CM.getCookies();//返回的Cookie在这里,下次请求的时候可能可以用上啦。
以上是编程之家()为大家采集整理的所有代码内容,希望文章可以帮助大家解决遇到的程序开发问题。
如果你觉得编程之家网站的内容还不错,欢迎向程序员朋友推荐编程之家网站。
总结
以上就是使用HtmlUnit模拟浏览器抓取编程之家为您采集的网页数据的全部内容。希望文章可以帮助大家解决使用HtmlUnit模拟浏览器抓取网页数据时遇到的程序开发问题。
如果你觉得编程之家网站的内容还不错,欢迎向程序员朋友推荐编程之家网站。