文章采集规则(OA期刊介绍开放存取是不同于传统学术传播的一种全新机制)

优采云 发布时间: 2022-03-17 15:15

  文章采集规则(OA期刊介绍开放存取是不同于传统学术传播的一种全新机制)

  1、OA期刊介绍

  开放存取(OA)或开放存取是国际学术界、出版界、图书馆和信息界为促进利用互联网免费传播科学研究成果而采取的行动。其宗旨是促进科学和人文信息的广泛交流,促进利用互联网进行科学交流和出版,提高科学研究的公众利用程度,确保科学信息的保存,提高科研效率。

  开放获取是一种不同于传统学术传播的新机制。其核心特点是在尊重作者权益的前提下,利用互联网免费为用户提供学术信息和研究成果的全文服务。首先,开放获取是一种基于互联网的学术传播机制。互联网是开放获取所依赖的媒介形式。这是因为互联网的发展导致学术交流成本的降低,从而为学术信息的开放获取提供了可能。然而,媒体形式本身并不是区分开放获取与传统学术期刊出版的标志。目前,许多出版商提供在线数据库和电子期刊,但他们在营销策略中仍然使用传统的基于订阅的传播模式。其次,开放获取是一种免费提供全文信息服务的方式。在开放获取模式下,研究人员无需付费(包括个人或团体订阅)即可访问学术信息的全文。换言之,只要具备连接互联网的物理条件,研究人员就可以轻松访问学术信息的全文。从这个角度来看,仅仅是开放文档的基本书目信息并不是开放获取的体现。事实上,传统出版商经常允许用户免费浏览他们的摘要,这只是他们用来推广和销售全文服务的一种常见营销策略。其次,开放获取充分尊重作者的权益,不违背知识产权精神。基于开放获取分发的作品不一定是“公共领域作品”。它不要求作者放弃对作品的所有权利。作者可以根据不同的法律文本和许可协议(如知识共享协议)选择作品的版权。

  自开放获取出现以来,OA 期刊和知识库迅速增长。目前,全球已有5225人、534家相关研究机构签署了布达佩斯开放获取倡议(BOAI)项目协议。

  截止2010年,DOAJ(Directory of Open Access Journal)共有4953种OA期刊收录,其中2014年提供文章级浏览,共收录文章@ >384945 篇文章;在OpenDOAR(由英国诺丁汉大学和瑞典隆德大学图书馆于2005年2月联合创建的开放存取机构资源库和学科资源库目录检索系统)注册的OA仓库已达1620个。

  目前,OA在中国还处于起步阶段。比如我国只有14个被DOAJ收录注册的OA期刊,只有7个被OpenDOAR注册的OA知识库。此外,用户对开放获取的认知度还很低,大部分用户从未听说过开放获取,很少有用户使用过开放获取资源。

  2、OA期刊的实证分析

  为了进一步验证本文提出的方法,具体实现了基于网页信息抽取的OA期刊资源采集系统的主要功能。(1)网页元素采集。使用JavaFX可视化组件WebView,实现资源选择和查询语句的自动生成,利用网页解析器Jsoup根据采集网页信息查询语句。具体来说,当WebView组件加载HTML内容时,会为每个节点添加一个事件*敏*感*词*器,当鼠标点击某个节点时,系统会将该节点分配给“org.w3c.dom”类型的变量。 Node”。Node类提供方法“getParentNode”获取当前节点的父节点,根据该路径可以递归地找到当前节点到网页根节点的路径。通过将路径中每个节点的标签名和属性值拼接成一个Jsoup可以识别的查询语句,然后使用Jsoup中的select方法处理采集节点的信息为采集,页面元素采集的工作就可以完成了。(2)半结构化文本信息提取。具体实现方法是使用用户标记的分隔符. ,然后根据分隔符的位置提取元数据字段信息。OA期刊网站通常将“年、卷、期”组合成一条短信,如“2017, vol39, no.1”,信息显示时先采集 这条文本信息作为网页元素,然后通过在文本中插入分隔符进行标记,将需要的采集信息与固定显示信息分开,即“{2017},vol{39 }, no.{1}" "2017" "39" "1" 是需要 采集, ", vol" ", no." 的信息。是固定的显示信息。

  固定显示信息的内容通常不会改变。因此,可以根据固定显示信息的位置提取文本中的对应信息。(3)网页结构检查。根据规定要求的采集的必填字段,作为判断网页结构是否发生变化的标准,如果采集@收到必填字段>为空,则认为当前网页结构发生了变化,需要重新选择采集,如果文章的标题为必填项,则判断是否采集接收到的字段在页面元素采集中为空,如果为空,可能有两种情况:一种是当前页面没有这个字段,这个页面是脏页; 另一种是该字段存在于当前页面,但元数据采集规则不适用于当前页面,则可以判断该页面是结构变化后的页面。当必填字段为空时,系统无法识别情况,因此系统会将当前页面添加到结构更改页面链接数组中。本轮采集结束后,提取结构变化的网页链接数组的第一个链接显示在嵌入式浏览器中,用户判断该字段为空的情况。该系统为这两种情况提出了解决方案。对于第一个脏页的情况,直接跳过,将页面链接从结构变化的网页链接数组中删除;对于网页结构变化的第二种情况,结构改变后用户会重新选择页面上的元数据,新的采集规则被添加到原来的采集规则集中,系统会使用新的采集@ > 规则继续采集。这样2-3次往复就可以遍历网站的所有模板,然后采集到全数据,解决了OA期刊资源网页结构变化,不能被综合采集。

  为验证基于网页信息抽取的OA期刊资源采集方法的有效性,本文选取*敏*感*词*10个不遵循OAI-PMH的OA期刊网站协议作为 采集 的对象。爬虫脚本采集10个OA期刊的论文链接数,作为采集个数综合性的标准。测试结果见表5。从表5可以看出,从采集到10个期刊的45785篇论文共45785篇,采集的时间为31039秒。其中,4个期刊的网页结构发生了变化。从系统测试结果可以看出,基于网页信息抽取的OA期刊资源采集方法可以灵活响应采集 不同的 OA 期刊资源。在准确率上,该方法可以准确地采集单个资源和固定文本结构的组合资源,表明它可以应用于OA期刊资源采集的工作。基于网页信息抽取的OA期刊资源采集系统的网页结构检测可以准确识别网页结构变化,并对结构变化后的资源进行采集。除了部分OA期刊网站无法访问或没有详细信息外,采集收到的论文数与爬虫脚本统计的论文链接数一致。从采集的时间来看,1000篇文章的采集平均时间为678秒。一般来说,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线