网站内容采集系统(基于合作式的网站资源采集系统的框架设计以及采集策略描述)
优采云 发布时间: 2021-12-06 02:17网站内容采集系统(基于合作式的网站资源采集系统的框架设计以及采集策略描述)
收稿日期:2011-01-18 修订日期:2011-03-10 作者简介:硕士,研究方向:计算机信息处理与检索;硕士,高级工程师,研究方向:信息技术。基于合作的网站资源采集体系建设11 中国科学院国家科学图书馆成都分馆成都610041;21 中国科学院*敏*感*词*院北京100049) 如今,*敏*感*词*支持网站资源开展了持续、*敏*感*词*的采集活动。这些项目都是按照一定的采集频率来完成或选择整个互联网资源采集。但是由于网络资源的性质,这种方法遇到了很多困难:例如,容易出错,重复收购,收购不完整。鉴于此,本文提出了一种基于合作的网站资源采集系统模型,阐述了合作采集的概念以及系统构建的背景意义。最后,提出了基于协同采集系统的框架设计和采集的策略描述,以期对组织网站资源的长期保存有新的启示。关键词网络资源保存资源采集合作方式采集系统建设中文图书馆分类号TP399文献识别码文章No. 1002- 1965( 2011) 06- 0178- 04 基于合作的网络采集系统建设罗健江恩博科学,成都610041;raduateUniversity hineseAcademy eijing100049)
最近,我们的文化、科学和信息遗产越来越多地以数字形式出现,而且越来越多地仅以数字形式出现 0)。各互联网公司的调查结果表明:作为全球最大的资源库,互联网最突出的特点是资源的快速无序增长;网页更新频繁,寿命比印刷品短。因此,这些资源的长期保存显得尤为重要。同时,由于网络信息的性质,采集的工作难度也很大。目前已经在网站资源上开展了许多连续的、*敏*感*词*的采集活动,如IA和澳大利亚国家图书馆开展的PANDORA项目,以及瑞典的 Kulturarw eb 信息资源 采集 试点项目。等待。这些项目都是按照一定的采集频率来完成或选择整个互联网资源采集。但是由于网络资源的性质,这种方式遇到了很多困难: 很难采集获取所有更新版本的资源。造成这些困难的原因在于,常规的资源采集模型缺乏一方与资源方的资源采集合作。但是这种合作在整个互联网上很难实现,所以基于合作的采集模型适用于组织或机构的网络环境。基于合作采集的概念 所谓合作采集 意味着资源的生产者和资源的采集可以通过管理和技术手段的协调配合达到一定的范围。资源由 INTELLIGENCEVo.l 30 June2011 采集和保存。
合作采集的突出特点是能够实时了解网站资源的变化,并根据变化的特点采取相应的措施。这样可以保证采集资源的相对完整和保存。以前的非合作 采集 项目和典型的 采集 策略。目前,网站资源有两种主要类型的连续和*敏*感*词*的采集活动。一是始于1990年代中期并持续至今的各种网络资源的长期保存工程。如IA、PANDORA、K ulturarw eb信息资源采集实验项目。其目标是防止越来越多地以数字形式出现的科学和文化信息的消失。这种采集活动及其采集模型是一个资源采集并保存;二是各种商业搜索引擎,定期、*敏*感*词*地对采集互联网资源进行索引,提供给终端用户访问。无论是网络信息的长期保存,还是商业搜索引擎的*敏*感*词*采集,他们的目标都是提供尽可能多的网络资源。他们使用的方法是基于一定的频率选择策略,定期重新访问网页。常用的集中选频策略包Round-robin)、基于网页变化历史的策略、基于样本的策略Sampling-based)Round-robin) 这种策略使用相同的频率重新访问URL列表中的所有链接。
原理是给检测频率赋值,爬虫每次需要检测网页变化时,都会重新抓取所有网页,下载并保存变化的网页。这种策略简单易行,但完全忽略了网页本身更新的个性化特征。基于hange-frequency-based)。基于网页变更历史的策略,需要采集网页变更的历史轨迹。简单的方法是更改总数/时间间隔T。开始时为每个网页设置一个生命周期,在生命周期结束时进行重访监控。当对某个网页的变化频率有一定的统计估计时,根据估计的网页变化频率调整该网页的生命周期。另外,网页变化的频率往往是不规则的,通常很难分析出准确的网页变化频率。大多数网页都是以网站或其他组的形式聚集的。不同网络组之间的平均变化频率非常不同。页面的变化频率决定了群组的变化频率。可见,由于网络资源个体差异较大,这些采集频次选择策略存在一定缺陷,不能完全采集网络资源。非合作采集模型遇到的问题是无论是PANDORA这样的国家级网络信息保存项目,还是IIPC这样的组织联盟形式,还是网络信息保存项目风险的项目形式,
现有的资源采集方法是在互联网上定期采集资源。如果一个网页的内容以一个采集的周期更新,部分网页版本的采集大部分都会被遗漏。如果在一个采集周期内网页内容没有变化,相同的内容会被更新采集两次或更多次(如图1)资源采集周期间隔图URL 它可能会改变。如图2所示,资源可能会改变到一个新的地址;或者一个网页拆分成两个网页,产生一个新的地址;或者某个地址在一段时间内停止使用,然后有不同的内容。资源重用。虽然现有的归档系统应该能够跟踪资源地址的变化,但一般来说,如果没有资源提供者的通知或其他智能工具的跟踪,就不容易知道发生了什么变化。资源URL变化*敏*感*词*。由于可访问性等因素的限制,一些有价值的资源无法被网络机器人访问,构建基于合作的网站资源采集系统采集模型可以解决这些问题问题很好。合作采集模式的应用范围和意义 虽然采集和网络资源的归档活动已经开展了很长时间,但参与者大多是顶级文化机构或大型——在全国范围内进行规模交换,他们采集和存档的对象是基于整个国家的'
随着网站成为越来越重要的信息发布方式,政府、大学、研究机构等各类机构都需要对自身及其附属机构的Web内容进行归档。它们和前两者的一个重要区别是整体资源采集不是很大,但是资源采集的完整性比较高。当前主动的、非合作的资源采集方式不太适合它,而合作采集模式因其工作原理特别适合这类机构网络环境,比如研究所中国科学院院士。、CALIS大学集团和德国马克斯普朗克研究实验室集团等。这些团体和机构之间的关系比彼此更密切或更可信。如果其他机构信任这种合作模式,只要有节约自身资源的意向,可以自行组织采集或者第三方机构可以为采集保存提供技术支持。因此,对于上述采集丢失或重复获取等问题,基于协作资源采集模式,由于对位于网站服务器上的插件进行额*敏*感*词*。耗费大量人力,但同时可以解决知识产权问题,这也是现在资源归档服务面临的普遍问题。
基于协作的采集系统框架设计。基于协作的资源采集系统拓扑为星型结构,如图3所示。采集服务器位于星型结构的中间,周围散布着各种Web资源服务器。图形采集系统存在最简单的形式,即只有一个网站资源服务器有获取。每个网站资源服务器上都部署了一个资源管理插件。其主要功能是资源控制、资源更新行为监控(ResourceUpdate Behav ior istening)和消息传输本质Transfer)。每当插件*敏*感*词*网站同意的采集范围内的资源更新事件(添加、修改、删除页面等)管理员和资源采集,事件消息将发送到采集服务器。采集服务器由消息触发,根据消息的性质和预先约定的采集策略采取相应的措施。资源采集回来后,生成数据 根据既定的元数据管理策略和资源保存策略,设备和资源管理组件完成元数据的修改和新资源的添加。系统拓扑图由此可见,基于资源管理行为的监控,基于消息触发采集的被动即时和资源管理解决方案是协同采集系统的三个主要组成部分.
活动的采集 网页由很多对象组成,例如HTML 文本、XML 文本、图像、程序、*敏*感*词*等,每个对象由一个URI 标识,URL 通常用于指向一个地址。有两种类型的网页:动态网页和静态网页。静态网页是不运行在服务器端,直接传递给用户端展示的网页,而动态网页是基于数据库技术,运行后返回给用户的网页。在服务器端。采集动态网页有两种方式:一种是采集的源对象和程序代码;另一种是采集最终交付给用户展示的网页形式。前者称为内形,后者称为*敏*感*词*内资源的更新行为,如新增网页、网页内容变化、网页地址变化、网页删除等;30 批量更新消息发布模块:网站资源更新后,生成插件更新消息并发送给资源采集模块;消息触发的被动实时采集模块:目前,互联网采集 工具对资源 采集 使用 URL *敏*感*词*驱动的方法。机器人收到初始的采集*敏*感*词*后,根据预先定义的策略对采集进行资源分配,然后从采集返回的页面中解析出URL*敏*感*词*,导入到爬取中排队,并一遍又一遍地重复。
在协作资源采集系统中,采集工具接收到的不是简单的URL,而是一个消息序列。消息包括源地址、资源更新属性、资源文件名等。采集工具根据消息序列中收录的内容采取相应的动作。另外,对于那些会定期更新的资源,遵循传统的采集策略,具有一定的采集频率采集。系统的策略描述采集采集 策略由资源采集和资源方协商并存储在web服务器中。采集策略描述由模式和操作组成(见表1)。模式是一个正则表达式,用于指定策略描述要应用的资源的地址或地址域。当网页更新时,如果添加、更改或删除,URL 将匹配模式中的资源域,从而对更新的网页进行相应的操作。归档标签:GET是对资源执行采集,_GET不是采集。形式:EXTERNAL 表示资源以外部形式采集 INTERNAL 表示内部形式进行采集。采集方法:采集方法描述了触发采集的方法,CRAWLER的意思是按照指定的时间间隔周期性的执行采集。EVENT _DR IVEN 表示更新事件触发 采集 行为生成。策略类型和命令策略类型模式动作存档标记 URL GET / NO_GET 形式 URL EXTERNAL INTERNAL采集 方法 URL CRAWLER(time) /EVENT_DRIVEN 结论 合作采集系统解决了非合作采集 方法。根据采集
目前的网络归档项目无法解决这些问题的主要原因是资源方与资源方采集方缺乏合作。而这种合作采集的方式,解决了一些机构愿意节省自己的网站资源,但由于技术或经济限制而无法实施征收的问题。这种合作方式的缺点是只适用于机构的网络环境,不适用于全球或全国的互联网。如何让多个机构合作进行网络归档,弥补基于整个国家或整个互联网的网络归档类型之间的差距,将是未来要做的工作。JunghooCho,toulas。28- 31 asukeHiirag,i Tetsuo Sakaguch.i 段# 统一可能 J ib,2008 254-272 EB/OL] 2010-09-11] http: /www.ar -chive. org EB/OL 2010-09-11] pan-dora。纳拉。政府 au index.htm.l PANDORA Ingeborg 数字保护:当前实践机构,2006,28- 31 asukeHiirag,i Tetsuo Sakaguch.i 段# 统一可能 J ib,2008 254-272 EB/OL] 2010-09-11] http: /www.ar -chive. org EB/OL 2010-09-11] pan-dora。纳拉。政府 au index.htm.l PANDORA Ingeborg 数字保护:当前实践机构,2006,
修改其下的structrua.l,重新排列组合生成的DRI文档的内容;也可以根据需要添加新的css样式表,然后找到sitem ap。xm ap, 主题文件下对应主题的css样式表挂在sty上 leshee.t 屏幕属性 地图的css样式: 站内地图文件浏览器选择器中的transform元素。另外,根据实践经验,开源软件Firebug Firefox浏览器中安装的firebug程序有利于随时调试和生成各种样式(如图5所示)。独创的军政工作数字资源开放平台基于开放获取的理念。基于优秀的DSpace机构知识库平台,利用军政产业网络将军校、科研院所和基层力量互联起来,实现军政工作数字化原创资源的交流共享平台,最大限度地发挥政治的作用。军队单位为工作网络信息资源提供支持,开展政治工作研究,共享政治工作信息资源建设成果(如图6所示)。在项目实践中,基于ocoon和Manakin提供的架构,根据实际需要完成了部分接口和功能的替换。军政工作原生数字资源开放平台已经证明,该架构系统具有以下优势: 通过主题中sl和css的应用,支持便捷的Web界面的个性化支持。系统开发、添加或修改规范对系统中已有的其他规范没有影响,这不仅有利于系统未来升级到repositorySof tware-- orldwide 2011-01-28] / onechar。 tphp空间新一代web界面分析研究与实现[图书馆与信息工作,2010(113-116 EB/OL 2011-01-29].ht tp:svn.di /svn/xm lui trunk/ docs/M anakinD eve-l 操作指南。支持便捷的Web界面的个性化支持。系统开发、添加或修改规范对系统中已有的其他规范没有影响,这不仅有利于系统未来升级到repositorySof tware-- orldwide 2011-01-28] / onechar。 tphp空间新一代web界面分析研究与实现[图书馆与信息工作,2010(113-116 EB/OL 2011-01-29].ht tp:svn.di /svn/xm lui trunk/ docs/M anakinD eve-l 操作指南。支持便捷的Web界面的个性化支持。系统开发、添加或修改规范对系统中已有的其他规范没有影响,这不仅有利于系统未来升级到repositorySof tware-- orldwide 2011-01-28] / onechar。 tphp空间新一代web界面分析研究与实现[图书馆与信息工作,2010(113-116 EB/OL 2011-01-29].ht tp:svn.di /svn/xm lui trunk/ docs/M anakinD eve-l 操作指南。