网页信息抓取软件(一下Java语言环境中能够用于网页下载或信息提取的工具)

优采云 发布时间: 2021-10-18 16:14

  网页信息抓取软件(一下Java语言环境中能够用于网页下载或信息提取的工具)

  如果您需要从互联网上下载特定网页,或解析网页中的特定信息,那么这个文章 会帮助您。下面我列出了Java语言环境下可以用于网页下载或信息提取的工具。以下工具各有特点。

  Web-harvest 是一个开源的 Java 网页信息提取工具。它主要使用XQuery、XPath、正则表达式、javaScript等脚本语言从网页中提取字段信息。提取信息的灵活性和准确性主要来自于 For XPath 和 XQuery。Web-harvest 提供了一个可以在 JRE 环境中执行的 jar 文件。运行这个文件可以执行一个简单的 XML 类型的配置文件。配置文件就是你定义的网页访问和解析规则。在执行程序中可以简单的使用xml配置文件,也可以通过javaapi进行更复杂的开发。它支持使用代理服务器。性能较差,更适合小而简单的程序。

  HttpClient 是 Apache 的一个子项目,支持所有的 http 协议,可以管理 cookie 信息。它的优势在于访问网页,但不具备分析网页的能力。两个比较实用的功能是指定代理服务器。如果您有多个网卡和多个网络,您还可以指定网络插座。

  Jsoup 是一个非常方便的网页访问和分析工具。它可以使用非常简单的代码来访问网页,并通过一种名为 css 的格式提取网页信息。非常简单易学,处理效率也高。此外,它只能用于解析传入的html字符串,因此很容易结合其他工具开发程序。

  SWT下的WebBrowser,首先,SWT是Eclipse下的图形化开发包。WebBrowser 允许您调用系统中的浏览器,例如 IE 或 Firefox,相当于将浏览器嵌入到您的 java 程序中。它最大的优点是可以完全模拟浏览器,所以可以执行上述工具无法执行的javascript和css,交给系统的浏览器来管理你的cookies。当然,WebBrowser 是异步的。需要*敏*感*词* complete 事件来判断网页是否已经加载完成。并在比赛中进行后续处理。他有一个很亮的特性,可以让你执行你传入的Javascipt。

  以上是过去工作中实际使用的工具。您可以选择各自的优点并将它们结合使用。我希望它会对你有所帮助。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线