java爬虫抓取动态网页(开源java页面分析工具启动htmlunit之后会启动一个无界面浏览器)

优采云 发布时间: 2021-09-26 01:22

  java爬虫抓取动态网页(开源java页面分析工具启动htmlunit之后会启动一个无界面浏览器)

  Htmlunit是一个开源Java页面分析工具。启动htmlunit后,底层将启动一个没有界面的浏览器。用户可以指定浏览器类型:Firefox、ie等。如果未指定,默认为Internet\uExplorer\u7:

  WebClient WebClient=新的WebClient(BrowserVersion.FIREFOX\u36)

  通过一个简单的电话:

  HtmlPage=webClient.getPage(url)

  可通过以下方式获取页面的HTML页面表示:

  InputStream is=targetPage.getWebResponse().getContentAsStream()

  您可以获取页面的输入流,从而获取页面的源代码,这对于web爬虫项目非常有用

  当然,您也可以从页面中获取更多页面元素

  htmlunit为执行javascript提供支持非常重要:

  page.executeJavaScript(javascript)

  执行JS后,返回一个scriptresult对象,通过该对象可以得到执行JS后的页面等信息,默认情况下,内部浏览器会跳转到执行JS后生成的新页面,如果执行JS失败,则不会执行页面跳转

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线