基于Web的智能信息采集及处理系统的URL组成

优采云 发布时间: 2021-08-26 03:16

  基于Web的智能信息采集及处理系统的URL组成

  基于Web的智能信息采集及处理系统研究[信息技术]郑立群约3120 摘要:本文研究的基于Web的智能信息采集及处理系统采用了基于URL的高效模板一方面是下载机制,大大提高了采集Web资源的性能;另一方面,应用成熟先进的自然语言处理技术,对采集信息进行智能分类汇总。 关键词:网络采集; URL去重;智能信息处理;个性化发布 引言 WWW诞生以来,网络信息搜索正从“平面”走向“垂直”,从“通用”走向“个性化”和智能化。市场目前存在“相关采集忽略信息处理与服务”,即缺乏对采集信息的深度加工与处理,并提供主动的信息发布服务机制。经过十多年的市场培育,Web用户最需要的是提供信息采集,加工发布的面向某一领域、智能化程度较好的产品。本文将搭建并实现这样一个系统。 系统架构 该系统由三部分组成子系统,即Web信息采集子系统、信息智能处理子系统和信息发布子系统,这三个子系统可以单独部署和运行,o r 整个过程可以自动化采集,通过接口文件智能处理和主动发布。整体架构如图1所示。 2.1 整体系统架构 该系统架构不仅适合大用户分布式部署采集和处理的需求,也适合单用户集中部署的需求。

  当用户只需要某个子系统时,只需对接口文件稍作配置即可满足不同用户的需求。 2.2 Web信息采集子系统Web 采集器一般是从一个叫做seed的URL开始,通过协议扩展到Web上其他需要的页面。研究表明,Web 上 30% 的页面是重复的。面对特定主题时,80% 以上的 URL 链接不是我们关心的。因此,在采集中,如何进行URL去重,分析适合主题特征的URL,是提高采集子系统效率的重要因素。同时,如何获取有效的网页信息,过滤掉广告、导航栏等噪音,将直接影响后续智能处理的性能。该子系统的流程如图2所示。不同于一般的Web信息采集器,该子系统最大的特点是任何用户的主题采集都是在相应模板的支持下完成的。所谓模板就是对需要采集的Web对象特征的描述。为了提高下载的有效性和效率,特定网站的所有网页都分为Hub页面和Topic页面,用三元组表示。其中,M表征网页的共同特征,如:网站名、网站URL地址、语言类型等; hf表征web资源中的Hub页面特征,即下载时需要解析该类web中哪些URL地址特征;而tf则是描述某类特定的Topic页面特征,主要描述用户最感兴趣的内容的访问路径,如:正文标题、作者、出处等。

  为了监控下载的Web资源,及时向用户推送最新信息,触发器可以指定适合用户需求的采集策略,并通过设置一定的时间间隔来激活下载机器人。检查是否存在最新信息。 2.3 信息智能处理子系统 该系统利用机器学习预先建立用户感兴趣的内容分类器。当用户完成某个下载任务时,它会发送消息激活处理子系统,系统会自动处理下载的内容。主要包括自动分类、自动摘要和元数据分析,如创建正文标题、关键字和分析作者。系统流程如图3所示。传统的Web信息采集不具备对下载信息进行深度处理的能力,但该系统不仅实现了机器的自动分类、抽象和元数据分析,还提供了一种机制用于人机交互,方便地预览处理结果 用户确认后可以进行修改、删除、存储等操作,确保发布信息的正确性和有效性。 2.4 信息发布子系统近年来以信息发布的形式受到越来越多的关注。作为对外信息服务的平台,该子系统的主要特点是:多视图、多层次发布采集信息,即从源头、原栏目和分类系统跨多视角展示,可灵活进行信息采集的交叉并行操作;个性化信息发布,用户登录后,用户使用个性化信息定制界面,选择自己感兴趣的信息视角,再次登录,推送给用户的是完全个性化的信息内容;强大的信息检索能力,不仅提供独立领域的检索,还提供快速检索、高级表达式检索和全文检索。

  几个关键技术3.1 URL 传统的URL去重有两种解决方案。一种是将所有的URL地址存储在数据库中,索引后使用数据库搜索判断该URL是否被重复下载过;二是利用文件存储,通过一定的转换对URL进行转换,同时也建立了基于文件的搜索索引。这两种方法的缺点是显而易见的。例如,大约有 4 亿个中文网页。假设每个 URL 的平均长度为 25 个字符,则存储这些网页的 URL 地址所需的空间为 8G。显然面对如此庞大的这种机制,无法快速搜索到网址,因此无法保证快速下载。本系统采用文件目录寻址机制,实现快速的URL去重。基本思路是先将URL地址转换成CRC32,生成唯一的4字节32位编码,如:E8CA0B3F,将4个字节组成一个二级目录和一个一级文件,即第一个字节的第一个字符作为一级目录名,使用二、的三字符组合作为二级目录名,三、的四字符组合存放在二级- level 目录作为文件名。每个文件的大小固定为 4K。其余三个字符一共12位,一共4096个二进制数,正好对应4K文件大小。该机制可以容纳的页面总数为232个,约43亿个,可以收录互联网上几乎所有的URL链接。

  3.2 HTML解析为了提高下载页面的有效性,需要过滤掉一些无用的噪音信息。传统上,有两种解决方案。一种是通过页面学习提取熵值最大的页面段[1];另一种是通过定义访问路径提取需要访问的感兴趣的内容。无论是哪种方案,都必须具备解析页面HTML的能力,即构造合适的数据结构来解析HTML标签。解析的难点在于当前网页的HTML非常不规则,不严谨。即使标签之间存在错误或不严格匹配,IE 也可以完美呈现它们。但是,为了准确提取信息,必须构建严格的访问结构。 3.3 自动摘要和元数据分析摘要是指通过对文档内容进行处理,提取出满足用户需求的重要信息,再经过重组和修改,生成比原文更精炼的摘要的过程。目前,自动抽象技术主要有三种类型:基于浅层分析的方法、基于实体分析的方法和基于语篇结构的方法。本系统采用新的自动摘要系统,利用自然语言处理(NLP)技术,通过融合基于内容的方法[Based Topic]将主题和内容结合起来,生成连贯性和流畅性好的摘要。基本思想是首先分析主题词,动态处理具有抽象和特定标题的文档;然后使用词汇、语法、语义分析等自然语言处理技术,对文章的文本内容进行深入分析;对两次分析的结果进行加权合并,生成汇总;最后,使用回指解析技术(Anaphora Resolution Technology)进行平滑处理,使生成的摘要更加连贯流畅。

  在上述摘要生成算法中,一些元数据,如题名分析、作者提取、主题词等,也会作为中间结果输出保存,形成完整的元数据系统符合基本文件规范。结论 基于Web的信息采集和处理技术将在互联网快速发展的时代发挥越来越重要的作用。本文设计和实现的系统继承和发展了现有的扁平化信息采集策略,以“信息采集、组织处理和发布”的理念为三项并重的理念,使Web-面向信息采集系统向垂直化、智能化方向的推进,也预示着该系统具有广阔的市场和应用前景。参考 .Internet 以上过程.Vol.32.No.3.Feb..2006.88-90.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线