网站内容采集系统(发明内容本发明所要解决的技术问题(一)_软件)
优采云 发布时间: 2021-12-22 04:25网站内容采集系统(发明内容本发明所要解决的技术问题(一)_软件)
专利名称:一种非结构化网页信息的自动采集方法
技术领域:
本发明涉及计算机网络技术领域,尤其涉及一种非结构化网页信息的自动采集方法。
背景技术:
在当前生活中,采集系统广泛应用于行业门户网站、竞争情报系统、知识管理系统、网站内容系统、科研等领域。所谓采集系统,就是从各种网站源页面中提取非结构化信息并保存在结构化数据库中的系统。
发明内容
本发明要解决的技术问题是为了克服现有技术中的上述缺陷,提供一种非结构化网页信息的自动采集方法。
本发明的目的可以通过以下技术方案实现一种自动采集非结构化网页信息的方法,其特征在于包括以下步骤
1) Spider采集 计算机系统从数据存储设备中读取URL链接表;
2) 检查URL链接表中是否有采集的URL,如果没有,则采集结束;
3) 如果步骤2)的检测结果为yes,则选择URL对应的分解规则为采集;
4) 创建至少一个线程,至少一个线程按照选择的分解规则对当前URL的页面进行分解;
5) 分解完成后,将要保存的网页信息和采集状态信息保存到数据存储设备中,返回步骤2)。
非结构化网页信息包括名称、描述和图片。分解规则采用正则表达式。
蜘蛛采集计算机系统和网站系统成为采集通过基于Http协议的全局资源定位器(Url)方法相互通信。通过本发明的方法,存储在结构化数据库中的系统在信息采集和整合方面可以节省大量的人力和资金。
图1是本发明的流程图;图2是本发明的*敏*感*词*。
具体实施方式
下面结合附图对本实用新型作进一步说明。
如图1、2所示,一种非结构化网页信息的自动采集方法包括以下步骤
1) Spider采集 计算机系统从数据存储设备中读取URL链接表;
2) 检查URL链接表中是否有采集的URL,如果没有,则采集结束;
3) 如果步骤2)的检测结果为yes,则选择URL对应的分解规则为采集;
4) 创建至少一个线程,至少一个线程按照选择的分解规则对当前URL的页面进行分解;
5) 分解完成后,将要保存的网页信息和采集状态信息保存到数据存储设备中,返回步骤2)。
非结构化网页信息包括名称、描述和图片;分解规则采用正则表达式;蜘蛛采集计算机系统和等待采集的网站系统它们通过基于Http协议的全局资源定位器(Url)方法相互通信。
在web服务器上建立一套蜘蛛采集计算机系统,建立一套数据存储设备保存采集;通过网络将每个网站采集数据定位,spider采集计算机系统和网站系统通过一个全局资源定位器(URL ) 基于超文本传输协议 (HTTP)。
在
数据存储设备用于存储数据。蜘蛛前台采集程序从这里获取即将发布的采集的链接列表,相应的采集状态也会在这里更新。
蜘蛛采集计算机系统用于处理每个链接,下载并连接特定页面,确定使用哪一套分解规则,并进行实际分解。在本实施例中,蜘蛛采集系统会首先读取存储系统中预先存储的采集链接列表(源列表),列表中的信息为具体需要采集的链接@> 和当前状态下,采集 启动后,会根据设置的线程数和设置的最大保存图片数启动线程,然后由具体线程决定应用哪个基于采集组分解规则的当前链接地址。接下来,蜘蛛采集 系统会根据使用的分解规则下载并分解对应的页面源代码。本实施例使用正则表达式对需要保存的各种属性进行分解,如名称、描述、图片列表等。等等。重复这种方式,直到最后所有链接都被破坏。在上面的分解过程中,如果有map,则将这些map保存到对应的目录下(在spider采集系统所在的目录下),采集中的数据会保存到storage系统。
在上面的方法中,使用了多线程执行。这是因为考虑到采集中的数据量,需要很长时间。每个线程通过委托发出各种信号来表达更新,然后主界面根据参数更新界面中各个元素的值和统计信息。当一个线程分解一个链接时,它会调用主程序中的一个函数来获取下一个链接地址,如果分解了,如果没有分解,则当前线程将停止。按照这个进行到底。
上述方法中,使用正则表达式来分解属性。这是因为使用正则表达式可以简化很多字符串问题。
需要存储在存储设备中的采集的URL链接可以通过其他输入程序进行,也可以通过其他输入程序导入。
在本实施例中,可以同时启动相应的线程来处理这些链接,每个线程将根据其分解的完成情况继续处理后续的链接,直到没有后续的链接为止。
权限请求
1. 一种自动采集非结构化网页信息的方法,其特点包括以下步骤: 1) spider采集 计算机系统从数据存储中读取URL链接设备表;2) 检查URL链接表中是否有采集的URL,如果没有,则采集结束;3) 如果步骤2)的检测结果为是,则选择URL对应的分解规则为采集;4) 创建至少一个线程,至少一个线程会通过选择的分解规则对当前URL的页面进行分解;5)分解完成后,将要保存的网页信息和采集状态信息保存到数据存储设备中,返回步骤2)
2. 一种自动采集非结构化网页信息的方法,其特征在于,所述非结构化网页信息包括名称、描述和图片。
3. 一种如权利要求1所述的非结构化网页信息的自动采集方法,其特征在于,所述分解规则采用正则表达式。
4.根据权利要求1所述的一种自动采集非结构化网页信息的方法,其中蜘蛛采集计算机系统和等待采集网站系统相互通信其他通过基于Http协议的全局资源定位器(Url)方法。
全文摘要
本发明涉及一种自动采集非结构化网页信息的方法,包括以下步骤:1)蜘蛛采集计算机系统从数据存储设备中读取URL链接表;2)检查URL链接表中是否有采集的URL,如果没有,则采集结束;3) 如果第2步的检测结果为yes,则选择对应采集的URL分解规则;4) 创建至少一个线程,至少一个线程会通过选择的分解规则对当前URL的页面进行分解;5)分解完成后,将要保存的页面信息和采集状态信息保存到数据存储设备中,返回步骤2。与*敏*感*词*。
文件编号 H04L29/06GK101441629SQ20071017060
公布日期 2009 年 5 月 27 日 申请日期 2007 年 11 月 19 日 优先权日期 2007 年 11 月 19 日
发明人戴斌华、君锦申请人: