文章采集api(修改历史:本工具与2012-09-17发现一个bug且已修正)
优采云 发布时间: 2021-11-16 05:16文章采集api(修改历史:本工具与2012-09-17发现一个bug且已修正)
[大小=中等]
从2008年开始做网页数据采集,开始使用HTML Parser、NekoHTML、Jericho HTML Parser(用于解析html网页)、HtmlUtil(纯java版本的浏览器,带Http协议和Html解析功能,JS执行功能)等,带HttpClient(提供高效、最新、功能丰富的支持HTTP协议的客户端编程工具包,是一个HTTP协议相关的包,类似于我介绍的 API 中的 HtmlPage 类)。因为那些API采集[color=red]大量的多种格式的网页数据[/color]在配置上非常不灵活,比如DOM解析、Xpath等,导致配置复杂,所以从2009 3 我开始编写自己的 API 来获取和分析网页:网页。服务在公司' s 项目。通过预配置,经过采集10000多个数据源和多种网页数据呈现格式的测试和修正,于2010年9月形成了一个相对稳定的版本。
修改历史:
此工具在 2012-09-17 发现了一个错误,并已更正。今天从新包提交一个版本,之前的源码和jar包版本都会被删除。
1、源码包结构说明:基于com.hlxp.webpage包的启动说明:
(1)com.hlxp.webpage.app与采集的应用相关,可以独立运行,主要是与采集配合使用。
(2)com.hlxp.webpage.bean 采集中使用的一些无状态VO(值对象)
(3)com.hlxp.webpage.log包中收录日志类,主要打包jdk自带的日志对象;以及log4j的日志类。
(4)com.hlxp.webpage.util 包中收录一些特定的 采集 工具,它们使用 HtmlPage 和 HtmlUtil 类来完成特定的 采集,例如只有 采集 链接,或者只是采集img的链接。
(5)HtmlPage类是一个基础类,主要用于通过get和post获取网页,也支持参数的提交。
(6)HtmlUtil类是一个基础类,主要用于解析通过HtmlPage获取的网页,支持正则表达式分析、字符切割、HTML标记分析。
[颜色=红色]注意:[/color]
源码中没有示例程序,示例在每个解析类的main函数中。以后有时间我会写API帮助文档和示例程序。这些将发布在本博客的附件中。
有问题的朋友可以在本博客留言,我会和大家一起讨论。
2.API函数介绍
(1)可以或者普通网页和没有验证码的登录网页(需要登录的网页,需要手动登录,然后将cookie复制到程序中获取)
(2)可以解析HTML、XML、DTD等静态文本显示数据的网页。
(3)可以方便采集翻页,通过设置页面链接格式,自动生成或采集页面链接及其网页。
(4)HtmlPage.java 用于获取网页,HtmlUtil.java 用于解析网页的基本类。两个类的主要方法中有示例。
[/尺寸]