本网站内容收集互联网网站在美国(国外的研究与实践值得国内借鉴，值得借鉴！！)

优采云发布时间: 2022-01-03 07:15

　　摘要：WebArchive采集并保存 Web 内容以满足当前和未来的访问和使用。其重要性已得到图书馆、档案馆、政府、企业等机构的广泛认可。本文在文献和网络资源研究的基础上，构建了基于Web采集和WebArchive的保存、访问和使用的系统研究框架，并梳理了该框架下国外相关研究和实践进展。国外的研究和实践值得国内借鉴，如多学科参与、广泛交流合作、重视标准规范的建设、各类WebArchives的建设、访问和使用的优化等。仍然面临着道德规范、新Web应用内容归档、归档内容长期保存、归档内容多元化应用等问题和挑战。

　　关键词：WebArchive；网址采集;网络归档；数字存储；网络档案

　　1、简介

　　随着网络技术应用的深入，互联网已经成为最重要的信息聚集和发散地。同时，网络信息也成为记录人类社会历史文化风貌的重要形式和宝贵的社会历史文化遗产。但是，网络信息具有海量、异构、分布式管理、易消失等特点。一旦消失，将难以恢复，将对组织或社会信息资源的长期保存和历史传承造成不可逆转的损失。因此，探索网络信息资源的归档和保存策略，以满足当代和未来人们获取和使用的需要，成为信息资源管理研究的紧迫任务。目前，世界上许多国家的政府、档案馆和图书馆都在积极开展网络信息资源归档保存的理论研究和实践探索。 WebArchive 是主要的研究领域之一。

　　WebArchive（WA）在国内有多种翻译方式，如网络信息资源保存、网页信息存档、网页存档、网络信息存档等，这些翻译基本上可以分为两类：一类一类侧重于归档保存的活动或行为，另一类侧重于归档保存形成的虚拟实体。相应地，对WA的理解也可以分为两类。一类认为WA是指相关实体有选择地捕获、归档和存储具有长期保存价值的网络信息的过程。其基本目标是通过网络信息资源的归档，能够更加全面、真实地反映和再现社会活动的本来面貌，满足相关主体对网络信息使用的长期需求。这种观点是将WA作为归档活动或行为的典型代表；另一班认为WA是建立在现代信息技术基础上，利用网络信息采集、整合、保存、发布来管理网络信息资源的超*敏*感*词*、分布式数字信息系统，并通过网络访问。 . “档案”的含义包括档案（动词）、档案或档案（名词），国外通常采用归档的过程。因此，作者更倾向于后一种观点，将WA看作是一个由采集、归档、保存网络信息形成的虚拟网络实体，可以通过网络访问和使用，其本质是一个网络空间。中国数字资源系统。需要注意的是，所有具有保存价值的网络信息资源都应归入存档保存的范畴，但WA关注的存档保存对象主要来自Web（万维网，使用HTTP协议）空间，如网站、网页以及从网站或网页中提取的内容，其他形式的网络应用（如FTP、Telnet）所携带的信息涉及较少。

　　WebArchive在国外的实践已有十多年的历史，出现了各种WA项目，如国家层面的PANDORA（澳大利亚国家图书馆）、联盟形式的Internet Archive（IA）、 “WebatRisk”（WebatRisk）等形式的项目，其研究和实践吸引了众多参与者，包括国家级图书馆、档案馆、大学图书馆、研究机构、商业机构等，此外还创建了互联网保存联盟（International Internet Preservation Consortium，IIPC）组织。可以说，国外WA的研究和实践积累了丰富的成果和经验，但网络环境的飞速发展以及新技术和应用的不断涌现，也对WA提出了新的挑战。目前，我国WA的实践还处于起步阶段。相关研究涉及网络信息采集、国外项目介绍与分析、WebArchive的一般理论与策略、特定类型网络信息资源的归档与保存等。对WA过程的系统研究缺乏对Web档案保存过程中存在的各种问题和对策的全面回顾。因此，非常有必要借鉴国外WA的实践经验和理论研究成果。研究了网页内容归档保存过程中面临的主要问题，并找到了现有的应对方法和可能的应对策略。

　　2、网页采集

　　Web采集（Webharvesting），也称为Web采集或Web收割，是基于一定的策略，使用特定的方法和工具采集Web内容的过程。它是构建WebArchive的基础，主要涉及采集范围确定、内容发现和内容获取等问题。

　　2.1 采集

　　的范围

　　采集的作用域，即确定“采集what”的问题，是WebArchive采集策略的核心。网络信息量巨大且更新迅速。如果“重要”内容不及时采集，可能会永远丢失。但由于资金、人力、物力的限制，WebArchive无法完成所有网页内容的采集。，因此，确定合适的采集范围是关键。目前国*敏*感*词*时主要采用批量采集策略和选择性采集策略。

　　(1)Bulk采集(bulkharvesting)。互联网档案馆（IA）是BrewsterKahle于1996年创立的美国非营利组织，是bulk采集的典型代表. IA 在全球范围内进行广泛的网络内容采集。目的是为研究人员、学者、历史学家和公众提供永久访问和免费使用互联网上的数字格式文档。目前，它有文本（电子书) 和音频、动态图像、软件、网页等资源。

　　(2)Selective采集(selectiveharvesting)。面对海量的Web信息，全面的采集是不现实的，而IA只是采集surfaceWeb)，最WebArchives 采用选择性的采集策略。选择性采集是指采集“重要”的内容而忽略其他部分，但对现在和未来特定的Web内容很重要，评价性并不容易。信息内容、信息形式、归档主体需求、法律、成本等因素都会影响采集信息的选择。目前采用的选择标准包括领域、主题、资源类型等。

　　以领域为中心的采集是国家级WebArchive的常用方法。为了保护国家的历史和文化遗产，采集国家域名或特定 gTLD（如 .com、.edu 等）。此外，地理信息、服务器位置、目标受众、语言、域名所有者或发布者等也以域的采集中引用的标准为准。

　　专题/专题采集通常由特定的研究需求驱动。研究人员在研究过程中常常被Web内容的短暂性所困扰，而Web站点的生命周期特性无法满足科学验证或提供持久参考的需要。因此，一些研究机构和大学图书馆开始创建基于主题的WebArchives，如德国海德堡大学图书馆的DACS（中国研究数字档案馆）和美国哥伦比亚大学图书馆涵盖15个主题的WebArchive。另一种基于主题的采集由特定事件驱动，也称为以事件为中心的采集。总统选举、法国国家图书馆BnF(Bibliothèque nationale France)的选举WebArchive等典型的驱动事件就属于这一类。

　　Resource-specific 采集是为特定类型的资源开发的。资源类型的定义可以从来源、媒体类型、应用模式等多个角度进行，相应的WebArchive也可以进行相应的划分。格罗宁根大学档案馆（ArchiveofwebsitesofpoliticalpartiesintheNetherlands）和英国政府网络档案馆（theUKgovernmentWebarchive）只是采集政党或政府网站； 2009年开始的法国Ina项目采集相关音视频媒体网站； 2010年，Twitter将其推文数据全部捐赠给美国国会图书馆存档保存、澳大利亚PANDORA项目采集部分博客站点等。Web2.0的应用越来越广泛，资源聚集的也越来越丰富。但是Web2.0内容的存档保存还很不足，只有少量的WebArchive涉及到一些应用。另外，在很多领域广泛使用的Web日志上也没有采集。这也是今后应该引起重视的问题之一。

　　在确定采集的范围时，还有一些更详细的问题需要考虑，比如是否关注robots。 txt协议，是否排除指向范围*敏*感*词*的链接资源（如PDF文件、视频文件、html页面）等. 国*敏*感*词*之*敏*感*词*的链式资源可能收录在采集的范围内，或可能被排除，但通常所有 MIME 类型都被排除。

　　2.2 Web 内容的发现

　　Web采集的范围是确定的，具体实现的首要问题是如何发现采集范围内的Web内容。自动内容发现方法通常由网络爬虫按照超链接实现。首先，预设网络爬虫的*敏*感*词*列表，抓取相关页面后提取超链接，从中发现新资源。在基于域的采集中，网络爬虫的*敏*感*词*列表可以由分配域名的公司提供，也可以由网络提供商提供，也可以通过与已经获得相当数量域名的组织合作获得名称。在采集中，根据主题或资源类型，相关专家或专业人士通常会提供不断更新的*敏*感*词*列表。

　　另外，一些WebArchives在他们的网站上设置了站点推荐功能，用户向他们提供URL。对于 WebArchive，自动内容发现方法是主要方式。网络爬虫最初用于搜索引擎，1996年出现的瑞典最早将网络爬虫技术应用于Web内容保存，随后在WA实践中利用现有爬虫工具和自主开发工具的项目相继出现。比较特殊的爬虫是焦点爬虫（focused crawler or topical crawler）和语言特定爬虫（language specific crawler），它们分别用于发现特定主题的网页内容和特定语言的网页内容。理想的主题爬虫应该只下载与特定主题相关的页面，避免下载其他内容。具体的实现方法有很多，比如在实际下载页面之前通过超链接的锚文本判断相关性，或者通过预先训练好的分类器对下载的页面内容进行相关性分析。田村等人。提出了一种针对特定语言爬虫的方法，它可以在不借助域名的情况下发现特定语言的网络内容。基本思想是使用预设的语言识别器来判断下载的网页是否为目标语言。

　　2.3 获取网页内容

　　中国期刊图书馆（）是一家网站专门从事期刊推广和论文出版的机构。

　　本站提供论文发表解决方案，寻求论文发表代理，快速发表论文，指导发表论文格式：省级论文/国家级论文/核心期刊论文/专业职称论文。

　　【免责声明】本文仅代表作者个人观点，与论文发表、期刊发表_中国期刊图书馆专业期刊文章网站无关。论文发表、期刊发表_中国期刊图书馆专业期刊论文发表网站本站对文章中的陈述和观点保持中立，不对所载内容的准确性、可靠性或完整性提供任何明示或暗示的保证。仅供参考，请读者自行承担。

0

2022-01-03

本网站内容收集互联网网站在美国

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

本网站内容收集互联网网站在美国(国外的研究与实践值得国内借鉴，值得借鉴！！)

0 个评论

发起人

AI时代内容工厂

本网站内容收集互联网网站在美国(国外的研究与实践值得国内借鉴，值得借鉴！！)

0 个评论

发起人

相关问题