开放获取期刊资源及其采集方法和系统实现做了以下研究
优采云 发布时间: 2021-06-27 19:23开放获取期刊资源及其采集方法和系统实现做了以下研究
随着开放获取运动的发展,越来越多的期刊加入了开放获取的行列。开放获取期刊资源经过同行评审,保证学术质量,分布广泛,具有重要的学术价值。研究开放获取期刊资源采集是有效利用资源的基础。对于OAI-PMH协议下的开放获取期刊,OAI-PMH接口通常用于采集期刊资源。对于非OAI-PMH开放获取期刊,期刊网页中的元数据信息一般为采集。但是,开放获取期刊是由期刊机构组织和展示的。不同的期刊采用不同的资源展示形式。同一个期刊在不同时期可能有不同形式的资源展示,可谓“千本”。资源呈现形式大多改为非OAI-PMH协议开放获取期刊资源采集,带来一定难度。为了解决这个问题,本文对开放获取期刊资源及其采集方法和系统实现做了如下研究。首先,本文对*敏*感*词*大量开放获取期刊网站进行了采集调查,从网络资源描述的角度总结出开放获取期刊资源具有细粒度描述的特点,复杂描述和可变描述载体结构。按资源组织形式分为单一资源和组合资源。在对当前主流资源采集方法进行对比分析的基础上,结合开放获取期刊资源的特点,提出一种适用于开放获取期刊资源采集的方法。然后,在详细分析了开放获取期刊资源采集系统的目标和需求之后,本文对比了当前网页采集tool及其在开放获取期刊资源采集上的应用,分析了其发展情况开放获取期刊资源采集系统的必要性。
接下来提出的开放获取期刊资源的采集方法是系统的整体设计。系统主要分为三个模块:用户交互模块、数据采集和网页结构检查模块、数据存储模块。系统实现的主要功能包括可视化信息采集、采集规则自动形成、多线程自动采集、网页结构检查、数据质量检查等功能。然后详细介绍了系统的三大模块和主要功能点的具体实现,并通过编码实现了系统的具体功能。同时,从功能和性能的角度对系统进行了测试。在功能测试中,系统可以对单个资源和组合资源进行采集,可以准确识别期刊网站网页结构的变化,并将结构变化后的页面反馈给用户重新选择和采集,系统具备资源采集的基本功能。在性能测试中,通过对比系统与优采云采集器在同一期刊资源采集上的效果,结果表明该系统在召回率和准确率上均优于优采云采集器。此外,系统对12个非OAI-PMH开放获取期刊网站进行了采集,共采集到达49,660篇论文。总耗时为31659秒,平均每千人花费文章采集时间为10.62分钟。系统采集的论文数加上用户标记的脏页数之和,与爬虫脚本采集的论文链接数完全相同。表明该系统能够满足采集对开放获取期刊资源的需求,同时验证了本文提出的开放获取期刊资源采集方法的有效性。最后总结了论文的主要研究内容及不足之处。它也期待下一步。开放获取期刊资源采集是使用开放获取期刊资源的第一步,也是最基本的一步。充分利用开放获取期刊资源,需要进行数据清洗、数据仓库建设、数据分析平台、数据可视化展示等一系列工作。