网站内容采集系统(基于合作式的网站资源采集系统的框架设计以及采集策略描述)

优采云 发布时间: 2022-03-09 14:05

  网站内容采集系统(基于合作式的网站资源采集系统的框架设计以及采集策略描述)

  修订日期:2011-03-10 作者简介:罗倩(1987-),女,硕士,研究方向:计算机信息处理与检索;姜恩波(1972-),男,硕士,高级工程师,研究方向:信息技术。合作网站资源采集系统的建设@>资源进行持续的、*敏*感*词*的采集活动,这些项目基于一定的采集频率完整性或选择性< @采集 的整个 Internet 资源。但是,由于网络资源的性质,这种方法会遇到很多困难:例如容易误采集、重复挖掘、挖掘不完整等。有鉴于此,论文提出了一种合作的网站资源采集系统模型,并阐述了合作采集的概念。以及制度建设的背景意义。最后提出了合作采集系统的框架设计和采集的策略描述,以期为组织网站资源的长期保存提供新的启示。 . 关键词网络资源保存资源采集合作采集系统建设进行中基于Web馆藏系统的合作罗千江恩波成都中国科学院图书馆成都610041; 中国科学院*敏*感*词*院,北京 100049) 为组织资源的长期保存提供新的启示网站。关键词网络资源保存资源采集合作采集系统建设进行中基于Web馆藏系统的合作罗千江恩波成都中国科学院图书馆成都610041; 中国科学院*敏*感*词*院,北京 100049) 为组织资源的长期保存提供新的启示网站。关键词网络资源保存资源采集合作采集系统建设进行中基于Web馆藏系统的合作罗千江恩波成都中国科学院图书馆成都610041; 中国科学院*敏*感*词*院,北京 100049)

  更重要的是,我们的文化、科学和信息遗产越来越数字化,而且越来越数字化(“天生数字化”)。多家互联网公司的调查结果表明:作为全球最大的资源库,互联网最突出的特点就是资源的快速无序增长;湾。网页信息更新频繁,寿命比印刷品短。因此,这些资源的长期保存就显得尤为重要,同时由于网络信息的性质,采集的工作难度也很大。目前,在网站资源上已经开展了很多连续的、*敏*感*词*的采集活动,比如IA和澳大利亚国家图书馆开展的PANDORA项目,瑞典 Kulturarw3 Web 信息资源采集试点项目等。这些项目要么是完整的,要么是按照一定的采集频率对整个 Internet 资源进行选择性的采集。但是,由于网络资源的性质,这种方法遇到了很多困难:例如,很难采集到资源的所有更新版本。造成这些困难的原因是常规的资源采集模型缺乏资源采集方和资源方之间的合作。但这种合作在整个互联网上很难实现,所以合作采集模式适用于组织或机构的网络环境。基于合作采集的概念所谓合作采集 指资源生产者和资源采集生产者在管理和技术手段上相互配合、配合,完成一定范围的工作。资源挖掘第 30 卷 2011 年 6 月 30 日采集和保存。

  协同采集的突出特点是可以第一时间知道网站资源的变化,并根据变化的特点采取相应的措施。这确保了相对完整的 采集 和 网站 资源的保存。以前的非合作采集项目和典型采集策略目前,有两种主要类型的正在进行的、针对网站资源的*敏*感*词*采集活动。一是各种网络资源的长期保存项目,始于1990年代中期,一直延续至今。IA, PANDORA, Kulturarw3Web 信息资源采集实验项目。它的目标是防止越来越多地以数字形式呈现的科学和文化信息的消失。采集 此类采集活动的模式是资源采集用户利用采集工具定期采集或资源提供者提交采集并保存;二是各种商业搜索引擎,它们定期广泛地构建采集互联网资源,为最终用户提供访问。无论是网络信息的长期保存项目,还是大型的采集商业搜索引擎,他们的目标都是尽可能多、完整地获取一个采集网络资源。他们使用的方法是根据一定的频率选择策略,并定期重新访问网页。常用的集中式频率选择策略包括:统一策略(Round-robin)、基于网页更改历史的策略(Change-frequency-based)、

  统一策略(循环)。此策略使用相同的频率重新访问 URL 列表中的所有链接,而不管它们各自的更新频率如何。原理是给检测频率一个值。爬虫每次需要检测到网页的变化时,都会重新爬取所有的网页,并下载变化的网页。这种策略简单易行,但完全被忽略了。网页本身的个性化功能更新。基于网页更改历史的基于更改频率的策略。基于网页变更历史的策略需要采集网页变更的历史轨迹。简单的方法是在开始的时候为每个网页设置一个生命周期的总变化次数,当到达生命周期的末尾时重新进行监控。当对某个网页的变化频率有一定的统计估计时,根据估计的网页变化频率调整网页的生命周期。此外,网页的变化频率往往是不规则的,通常很难准确分析网页的变化频率。基于样本的策略(Sampling-based)。该策略的基本出发点是:绝大多数网页以网站或其他组的形式聚合,不同网页组之间的平均变化频率差异很大,但变化频率在同组是近的,所以通过采集对于一定数量的样本页面,通过样本页面的变化频率来确定它们所属的组的变化频率。可见,由于网页资源个体差异较大,这些采集频次选择策略都存在一定的缺陷。无法完整地 采集 网络资源。

  非合作采集模式遇到的问题是,无论是PANDORA这样的国家级网络信息保存项目,还是IIPC等组织联盟或网络信息组织形式的网络信息保存项目保存项目的形式如Web 项目的风险,是否是使用完整性。采集 策略,或者选择性采集 策略,它们的采集 模型是资源采集 方单方面针对选定的网站 或者整个Internet 网络爬行,这个不合作基于采集 的模型导致他们在采集 过程中遇到了一些困难。现有的resource采集方法是定期采集互联网上的资源。如果网页的内容在一个采集 周期内多次更新,则会丢失某些网页版本的采集@。>。如果网页的内容在一个采集周期内没有发生变化,那么相同的内容将被采集两次或更多次(如图1所示)。Resource 采集 周期区间图 URL可能会发生变化,如图2所示,资源可能会更改为新地址;或者一个网页被拆分成两个网页,产生一个新的地址;或者某个地址被停止一段时间后,被不同内容的资源重用。尽管现有的归档系统应该能够跟踪资源地址的更改,但通常无需资源提供者的通知或其他智能工具的跟踪,要知道发生了哪些变化并不容易。资源 URL 转换*敏*感*词* 由于可访问性等因素的限制,一些具有保值价值的资源无法被网络机器人访问,而基于协作的钱等:基于协作的 网站resources采集@ >系统采集模型的构建可以很好的解决这些问题。

  合作采集模式的范围和意义 虽然采集和网络资源的归档活动已经开展了很长时间,但其参与者大多是国内顶级文化机构或大型互助机构。国家。采集 和归档对象是基于整个国家的域名,甚至是整个互联网。随着网站成为越来越重要的信息发布方式,政府、大学、研究机构等各类机构都需要对自身及其下属机构的Web内容进行归档。它们与前两者的一个重要区别是整体资源采集不是很大,但要求资源采集的完整性更高。目前的主动,非合作资源采集方式不太适合他们,合作采集模式由于其工作原理特别适合这种机构网络环境,如中科院所科学集团、CALIS大学集团和德国马克斯普朗克研究实验室集团等。这些集团和机构之间的关系比彼此更“密切”或更可信。如果其他机构信任这种合作模式,只要有节约自己资源的意向,都可以自己组织采集或者提供第三方机构的技术支持来采集节约。因此,对于上述采集过程中的漏挖或重复挖矿等问题,协作资源采集 模式对位于网站 服务器上的插件有更多的监控。发送相应的消息,以便解决这些问题。

  虽然这种模式增加了资源提供者和资源采集提供者之间的沟通与合作,但需要协商制定技术采集策略和限制范围采集,以便它需要大量人力,但同时可以解决知识产权问题,这也是资源归档服务面临的普遍问题。协同采集系统架构设计协同资源采集系统在拓扑上是星型结构,如图3。采集服务器位于星型结构的中间,各种Web 资源服务器分散在它周围。它是采集系统的最简单形式,即采集只有一个网站资源服务器。每个 网站 资源服务器上都部署了一个资源管理插件。其主要功能有资源采集控制(Access Control)、资源更新行为*敏*感*词*(Resource Update Behavior Listening)、消息传递(Messages Transfer)功能。每当插件*敏*感*词*到网站管理员和资源采集方同意的采集范围内的资源更新事件(添加、修改、删除页面等)都会发送采集 服务器的事件消息。采集 服务器由消息触发,根据消息的性质和预先约定的采集策略采取相应的措施。资源采集 回来后,

  可见,基于资源管理行为的拦截、基于消息触发的被动即时采集和资源(元数据)管理方案是协同采集系统的三个主要组成部分。合作资源采集系统*敏*感*词* 系统的功能模块主要如下。活动采集模块:网页由许多对象组成,如HTML文本、XML文本、图像、程序、*敏*感*词*等。每个对象由一个URI标识,通常使用指向一个地址的URL。有两种类型的网页:动态网页和静态网页。静态网页是不在服务器端运行,直接传输到客户端显示的网页,而动态网页则是基于数据库技术,在服务器端运行后返回给用户。采集动态网页有两种方式:一种是采集源对象和程序代码;另一个是 采集 最终传递给用户显示的网页形状。前者称为内形,后者称为*敏*感*词*内资源的更新行为,如添加新网页、更改网页内容、更改网页地址、删除网页等;更新消息发布模块:网站资源更新后,插件生成更新消息并发送给资源采集模块;基于消息触发的被动即时采集模块: 目前互联网采集工具对资源采集采用URL*敏*感*词*驱动方式。

  机器人收到初始的采集*敏*感*词*后,会按照预先制定的策略资源采集,然后从采集返回的页面中解析出URL*敏*感*词*,导入到爬取队列,并重复循环。在协作资源采集 系统中,采集 工具接收的不是简单的 URL 子,而是一系列消息。消息包括消息源地址、资源更新属性、资源文件名等。采集工具根据消息序列收录的内容采取行动。另外,对于那些会定期更新的资源,按照传统的采集策略,采集会以一定的频率采集执行。系统采集采集policy的策略描述由资源采集协商 方和资源方并存储在 Web 服务器中。采集策略描述由模式和动作组成(见表1)。模式是一个正则表达式,用于明确指定策略描述所针对的资源的地址或地址域应用。当一个网页更新时,如果增加、更改或删除,它的 URL 将与模式中的资源域匹配,以便在更新的网页上执行相应的操作。存档标记:GET 是对资源执行采集,NO_GET 不是采集。Form:EXTERNAL 表示以外部形式采集资源,INTERNAL 表示以内部形式执行采集。采集 Mode:采集Mode描述了触发采集行为发生的方法,

  EVENT_DRIVEN 表示更新事件触发 采集 动作。策略类型和指令 Policy Type Mode Action Archive Tag URL GET/ NO_GET Form URL EXTERNAL/ INTERNAL 采集 Mode URL CRAWLER(time) 结论 合作 采集系统解决非合作 采集 问题方法的特点:可以根据采集策略获取所有版本的网络资源更新,不漏挖,挖好,不重复挖。目前的网络归档项目无法解决这些问题的主要原因是资源方和资源采集方之间缺乏合作。而这种合作的 采集 方法解决了愿意保存其 网站 资源的机构的问题,但由于技术或经济限制,无法实施这种合作方式。缺点是只适用于机构网络环境,不适用于全球或国家互联网。因此,如何使多个机构合作开展网络归档,弥合基于全国或整个互联网的网络归档类型之间的差距,将是未来需要做的工作。JunghooCho,亚历山德罗斯·恩图拉斯。使用抽样进行有效的变化检测[第 28 届国际会议超大型数据库,中国香港:Morgan Kaufmann,2002 年 8 月 WasukeHiiragi,Tetsuo Sakaguchi。基于策略的系统机构网络归档[J].Journal SinderDirect, 2005, 3 (12) WasukeHiiragi, Tetsuo Sakaguchi. 缺点是只适用于机构网络环境,不适用于全球或国家互联网。因此,如何使多个机构合作开展网络归档,弥合基于全国或整个互联网的网络归档类型之间的差距,将是未来需要做的工作。JunghooCho,亚历山德罗斯·恩图拉斯。使用抽样进行有效的变化检测[第 28 届国际会议超大型数据库,中国香港:Morgan Kaufmann,2002 年 8 月 WasukeHiiragi,Tetsuo Sakaguchi。基于策略的系统机构网络归档[J].Journal SinderDirect, 2005, 3 (12) WasukeHiiragi, Tetsuo Sakaguchi. 缺点是只适用于机构网络环境,不适用于全球或国家互联网。因此,如何使多个机构合作开展网络归档,弥合基于全国或整个互联网的网络归档类型之间的差距,将是未来需要做的工作。JunghooCho,亚历山德罗斯·恩图拉斯。使用抽样进行有效的变化检测[第 28 届国际会议超大型数据库,中国香港:Morgan Kaufmann,2002 年 8 月 WasukeHiiragi,Tetsuo Sakaguchi。基于策略的系统机构网络归档[J].Journal SinderDirect, 2005, 3 (12) WasukeHiiragi, Tetsuo Sakaguchi. 如何让多个机构合作开展网络归档,弥合基于全国或全互联网的网络归档类型之间的差距,将是未来需要做的工作。JunghooCho,亚历山德罗斯·恩图拉斯。使用抽样进行有效的变化检测[第 28 届国际会议超大型数据库,中国香港:Morgan Kaufmann,2002 年 8 月 WasukeHiiragi,Tetsuo Sakaguchi。基于策略的系统机构网络归档[J].Journal SinderDirect, 2005, 3 (12) WasukeHiiragi, Tetsuo Sakaguchi. 如何让多个机构合作开展网络归档,弥合基于全国或全互联网的网络归档类型之间的差距,将是未来需要做的工作。JunghooCho,亚历山德罗斯·恩图拉斯。使用抽样进行有效的变化检测[第 28 届国际会议超大型数据库,中国香港:Morgan Kaufmann,2002 年 8 月 WasukeHiiragi,Tetsuo Sakaguchi。基于策略的系统机构网络归档[J].Journal SinderDirect, 2005, 3 (12) WasukeHiiragi, Tetsuo Sakaguchi. 使用抽样进行有效的变化检测[第 28 届国际会议超大型数据库,中国香港:Morgan Kaufmann,2002 年 8 月 WasukeHiiragi,Tetsuo Sakaguchi。基于策略的系统机构网络归档[J].Journal SinderDirect, 2005, 3 (12) WasukeHiiragi, Tetsuo Sakaguchi. 使用抽样进行有效的变化检测[第 28 届国际会议超大型数据库,中国香港:Morgan Kaufmann,2002 年 8 月 WasukeHiiragi,Tetsuo Sakaguchi。基于策略的系统机构网络归档[J].Journal SinderDirect, 2005, 3 (12) WasukeHiiragi, Tetsuo Sakaguchi.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线