修改历史：本工具与2012-09-17发现一个bug且已修正

优采云发布时间: 2021-02-10 09:03

　　从2008年采集开始处理网页数据，开始使用其他人编写的API，例如HTML Parser，NekoHTML，Jericho HTML Parser（用于解析html网页），HtmlUtil（浏览器的纯Java版本，与Http协议和Html解析功能，JS执行功能等配合使用，与HttpClient协作（提供了一个支持HTTP协议的高效，最新且功能丰富的客户端编程工具包。这是与HTTP协议相关的软件包，类似引入了我介绍的API中的HtmlPage类。）。因为当大量的多种格式的网页数据（例如DOM解析，Xpath等）导致复杂的配置时，这些API 采集的配置非常不灵活，所以我开始编写自己的API来获取和分析网页于2009年3月：网页。服务在公司的项目中。通过预配置，在采集测试和更正了10,000多个数据源和多种网页数据表示格式之后，于2010年9月形成了一个相对稳定的版本。

　　修改历史记录：

　　在此工具和2012-09-17中发现一个错误，并已得到纠正。立即提交新包中的版本，先前的源代码和jar包版本将被删除。

　　1、源码包结构描述：基于com.hlxp.webpage包的开始描述：

　　（[1）com.hlxp.webpage.app与采集应用程序相关，可以独立运行，主要是与采集结合使用。

　　（2）com.hlxp.webpage.bean 采集中使用的一些无状态VO（值对象）

　　（[3）com.hlxp.webpage.log软件包中收录日志类，主要包装jdk随附的日志对象；以及log4j的日志类。

　　（[4）com.hlxp.webpage.util程序包收录一些特定的采集工具，它们使用HtmlPage和HtmlUtil类来完成特定的采集，例如仅采集链接或仅采集 img链接。

　　（[5）HtmlPage类是基本类，主要通过get和post方法获取网页，并且还支持提交参数。

　　（6）HtmlUtil类是一个基本类，主要用于分析通过HtmlPage获得的网页，支持正则表达式分析，字符切割和HTML标签分析。

　　注意：

　　源代码中没有示例程序，该示例位于每个分析类的主要功能中。将来，我将编写API帮助文档和示例程序，这些文档和示例程序将在此博客的附件中发布。

　　有疑问的朋友可以在此博客上留言，我将与您讨论。

　　2.API函数介绍

　　（1）能够正常访问的网页和没有验证码的登录网页（需要登录的网页，您必须手动登录，然后将cookie复制到程序中才能获得它）

　　（[2）可以解析HTML，XML，DTD和其他静态文本显示数据的网页。

　　（3）可以通过设置页面链接格式来自动生成采集页面链接及其网页。[p>

　　（[4）HtmlPage.java用于获取网页，HtmlUtil.java用于解析网页的基本类。这两个类的主要方法中都有示例。

　　3

　　喜欢

　　1

　　不喜欢

0

2021-02-10

优采云文章采集api

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

修改历史：本工具与2012-09-17发现一个bug且已修正

0 个评论

发起人

AI时代内容工厂

修改历史：本工具与2012-09-17发现一个bug且已修正

0 个评论

发起人

相关问题