文章采集api(修改历史：本工具与2012-09-17发现一个bug且已修正)

优采云发布时间: 2021-11-16 05:16

　　[大小=中等]

　　从2008年开始做网页数据采集，开始使用HTML Parser、NekoHTML、Jericho HTML Parser（用于解析html网页）、HtmlUtil（纯java版本的浏览器，带Http协议和Html解析功能，JS执行功能）等，带HttpClient（提供高效、最新、功能丰富的支持HTTP协议的客户端编程工具包，是一个HTTP协议相关的包，类似于我介绍的 API 中的 HtmlPage 类）。因为那些API采集[color=red]大量的多种格式的网页数据[/color]在配置上非常不灵活，比如DOM解析、Xpath等，导致配置复杂，所以从2009 3 我开始编写自己的 API 来获取和分析网页：网页。服务在公司' s 项目。通过预配置，经过采集10000多个数据源和多种网页数据呈现格式的测试和修正，于2010年9月形成了一个相对稳定的版本。

　　修改历史：

　　此工具在 2012-09-17 发现了一个错误，并已更正。今天从新包提交一个版本，之前的源码和jar包版本都会被删除。

　　1、源码包结构说明：基于com.hlxp.webpage包的启动说明：

　　（1）com.hlxp.webpage.app与采集的应用相关，可以独立运行，主要是与采集配合使用。

　　（2）com.hlxp.webpage.bean 采集中使用的一些无状态VO（值对象）

　　（3）com.hlxp.webpage.log包中收录日志类，主要打包jdk自带的日志对象；以及log4j的日志类。

　　（4）com.hlxp.webpage.util 包中收录一些特定的采集工具，它们使用 HtmlPage 和 HtmlUtil 类来完成特定的采集，例如只有采集链接，或者只是采集img的链接。

　　（5）HtmlPage类是一个基础类，主要用于通过get和post获取网页，也支持参数的提交。

　　（6）HtmlUtil类是一个基础类，主要用于解析通过HtmlPage获取的网页，支持正则表达式分析、字符切割、HTML标记分析。

　　[颜色=红色]注意：[/color]

　　源码中没有示例程序，示例在每个解析类的main函数中。以后有时间我会写API帮助文档和示例程序。这些将发布在本博客的附件中。

　　有问题的朋友可以在本博客留言，我会和大家一起讨论。

　　2.API函数介绍

　　（1）可以或者普通网页和没有验证码的登录网页（需要登录的网页，需要手动登录，然后将cookie复制到程序中获取）

　　（2）可以解析HTML、XML、DTD等静态文本显示数据的网页。

　　（3）可以方便采集翻页，通过设置页面链接格式，自动生成或采集页面链接及其网页。

　　（4）HtmlPage.java 用于获取网页，HtmlUtil.java 用于解析网页的基本类。两个类的主要方法中有示例。

　　[/尺寸]

0

2021-11-16

文章采集api

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集api(修改历史：本工具与2012-09-17发现一个bug且已修正)

0 个评论

发起人

AI时代内容工厂

文章采集api(修改历史：本工具与2012-09-17发现一个bug且已修正)

0 个评论

发起人

相关问题