汇总:优采云教程——查看数据和导出数据

优采云 发布时间: 2022-11-05 13:35

  汇总:优采云教程——查看数据和导出数据

  优采云采集器作为采集的工具,让公开可用的数据在互联网上可见。除了采集器中的配置任务,当然还有数据展示和数据导出,然后为后面的数据分析和挖掘提供数据支持。

  查看数据:

  在7.0版本中,我们可以在任务列表界面查看每个任务的最新任务的数据量采集。

  第一步:打开7.0版本的优采云,点击左侧的任务选项,会弹出任务列表界面。在每个任务中间,记录当前任务的采集状态、最新的云采集数据量、本地采集数据量。

  第二步:点击“云端采集:XXX条数据已采集...”或“本地采集:XXX条数据已采集”。页面会直接跳转到视图数据界面。这个界面展示了当前任务采集的最终数据形式。

  云数据接口:

  云数据界面显示当前任务名称(页面中间),以及任务的总数据量和页数(页面左下方)。同时有个提醒:数据只保存3个月。(页面右上角)也就是说云端采集、优采云采集器的数据会在云端存储3个月,之后数据会被清空. 因此,需要及时导出数据。

  

  本地数据:

  本地数据接口与云端数据接口基本相同。但是,本地执行任务时会生成本地数据采集。每次本地采集都会清除之前保存的本地数据,只保留最近一次运行的数据。云数据存储为每次 cloud采集 操作结束后的数据摘要。

  跳转任务编辑界面:

  在云端数据界面,可以直接跳转到任务编辑界面,直接点击“编辑任务”(左上角蓝色框)。当看到任务的数据不符合预期时,可以执行此操作,跳转到任务编辑界面进行修改。然后再次运行任务。

  资料页,跳转

  左下方可以点击翻页操作查看后续数据情况。同时填写一定数量的页面,点击“跳转”,自动跳转到相应页面。

  清除数据:

  

  单击“清除数据”可清除当前显示的所有数据。主要原因是当前数据不符合预期或者数据有误时,需要清除数据,不影响下一个采集的数据。

  所有数据,未导出数据切换:

  当数据长时间更新时,用户会同时导出采集,此时将区分未导出数据和所有数据。方便用户后期过滤导出。在云端数据界面,可以切换这两组数据。

  导出数据

  点击右下角的“导出数据”,会弹出导出窗口,然后以各种格式导出数据。操作如下:

  目前我们支持的导出格式包括excel2007、excel2003、csv文件、HTML文件和导出到数据库。

  汇总:开放存取期刊论文自动采集方法的研究

  

  在以互联网上的Open Access OA(Open Access)期刊文章为信息源创建数字资源库时,需要解决的一个关键问题是OA期刊文章的自动采集。因为OA期刊网站分散在网络的各个地方,制约了OA期刊的有效发挥。因此,OA期刊资源的获取成为当前图书馆数字资源库建设中的热点研究对象。在前人研究的基础上,本文主要做了以下研究。首先,针对传统网络信息采集框架由于采集的目标数据源不同,无法直接应用于OA期刊论文采集的问题,提出了一种开放获取期刊论文的自动方法。采集框架。首先,设计了OA期刊论文自动化采集系统的总体架构和总体模块,并描述了模块之间的关系;其次,介绍了系统的工作流程、性能指标和工作原理;最后,讨论了框架。主要模块的设计思路和采集系统建设中遇到的关键问题及解决方法。其次,在对大量OA期刊网站的页面结构进行仔细分析研究的基础上,提出了一种基于网页块的卷目录链接提取方法。根据 Table 和 Div 布局的特点,将网页分为块,然后根据子树的相似性,通过合并相似的子块来划分网页的语义块。有效提取卷期目录链接。最后,在上述研究工作的基础上,实现了一个原型系统,并在该原型系统上进行了实验。进行了实验验证和分析。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线