htmlunit 抓取网页(抓一个今日头条的首页内容解决方案-苏州安嘉)

优采云 发布时间: 2022-03-17 09:04

  htmlunit 抓取网页(抓一个今日头条的首页内容解决方案-苏州安嘉)

  不知道大家有没有在使用jsoup的过程中遇到爬取内容,发现部分网页中的内容是通过javascript异步加载的,导致我们的爬虫空手返回(只抓到一个网页)框架)。

  当我第一次遇到这个问题时,我想到了两个解决方案:

  在等待网页异步加载后,使用类似于Python中延迟加载的方法对异步加载的网页进行爬取。使用特殊的方法,让爬取的网页的框架模拟里面的JavaScript代码的执行,最终得到完整的页面

  在搜索引擎的帮助下,我决定使用方案二来解决这个问题。解决方案1中没有搜索到更好的第三方库。在java中使用解决方案1解决这个问题的朋友希望可以与以下交流,不胜感激讨论。

  案例很简单,抓取一条今日头条的首页内容。你可以看一下今日头条的首页,里面的内容是异步加载的。

  添加jsoup和htmlunit依赖

  

org.jsoup

jsoup

1.10.2

net.sourceforge.htmlunit

htmlunit

2.25

  首先我们单独使用jsoup来解析今日头条的首页

  String url = "https://www.toutiao.com/";

Connection connect = Jsoup.connect(url);

Document document = connect.get();

System.out.println(document);

  ↑这里只能获取网页的frame内容,不能获取首页的新闻内容

  让我们用 htmlunit 试试吧

  //构造一个webClient 模拟Chrome 浏览器

WebClient webClient = new WebClient(BrowserVersion.CHROME);

//屏蔽日志信息

LogFactory.getFactory().setAttribute("org.apache.commons.logging.Log",

"org.apache.commons.logging.impl.NoOpLog");

java.util.logging.Logger.getLogger("com.gargoylesoftware").setLevel(Level.OFF);

//支持JavaScript

webClient.getOptions().setJavaScriptEnabled(true);

webClient.getOptions().setCssEnabled(false);

webClient.getOptions().setActiveXNative(false);

webClient.getOptions().setCssEnabled(false);

webClient.getOptions().setThrowExceptionOnScriptError(false);

webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);

webClient.getOptions().setTimeout(5000);

HtmlPage rootPage = webClient.getPage(url);

//设置一个运行JavaScript的时间

webClient.waitForBackgroundJavaScript(5000);

String html = rootPage.asXml();

Document document = Jsoup.parse(html);

  这为我们提供了一个运行 JavaScript 的完整源页面

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线