修改历史:本工具与2012-09-17发现一个bug且已修正

优采云 发布时间: 2021-02-10 09:03

  修改历史:本工具与2012-09-17发现一个bug且已修正

  从2008年采集开始处理网页数据,开始使用其他人编写的API,例如HTML Parser,NekoHTML,Jericho HTML Parser(用于解析html网页),HtmlUtil(浏览器的纯Java版本,与Http协议和Html解析功能,JS执行功能等配合使用,与HttpClient协作(提供了一个支持HTTP协议的高效,最新且功能丰富的客户端编程工具包。这是与HTTP协议相关的软件包,类似引入了我介绍的API中的HtmlPage类。)。因为当大量的多种格式的网页数据(例如DOM解析,Xpath等)导致复杂的配置时,这些API 采集的配置非常不灵活,所以我开始编写自己的API来获取和分析网页于2009年3月:网页。服务在公司的项目中。通过预配置,在采集测试和更正了10,000多个数据源和多种网页数据表示格式之后,于2010年9月形成了一个相对稳定的版本。

  修改历史记录:

  在此工具和2012-09-17中发现一个错误,并已得到纠正。立即提交新包中的版本,先前的源代码和jar包版本将被删除。

  1、源码包结构描述:基于com.hlxp.webpage包的开始描述:

  ([1)com.hlxp.webpage.app与采集应用程序相关,可以独立运行,主要是与采集结合使用。

  (2)com.hlxp.webpage.bean 采集中使用的一些无状态VO(值对象)

  ([3)com.hlxp.webpage.log软件包中收录日志类,主要包装jdk随附的日志对象;以及log4j的日志类。

  ([4)com.hlxp.webpage.util程序包收录一些特定的采集工具,它们使用HtmlPage和HtmlUtil类来完成特定的采集,例如仅采集链接或仅采集 img链接。

  ([5)HtmlPage类是基本类,主要通过get和post方法获取网页,并且还支持提交参数。

  (6)HtmlUtil类是一个基本类,主要用于分析通过HtmlPage获得的网页,支持正则表达式分析,字符切割和HTML标签分析。

  注意:

  源代码中没有示例程序,该示例位于每个分析类的主要功能中。将来,我将编写API帮助文档和示例程序,这些文档和示例程序将在此博客的附件中发布。

  有疑问的朋友可以在此博客上留言,我将与您讨论。

  2.API函数介绍

  (1)能够正常访问的网页和没有验证码的登录网页(需要登录的网页,您必须手动登录,然后将cookie复制到程序中才能获得它)

  ([2)可以解析HTML,XML,DTD和其他静态文本显示数据的网页。

  (3)可以通过设置页面链接格式来自动生成采集页面链接及其网页。[p>

  ([4)HtmlPage.java用于获取网页,HtmlUtil.java用于解析网页的基本类。这两个类的主要方法中都有示例。

  3

  喜欢

  1

  不喜欢

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线