知识和经验:科研写作 | 几款常用的文献管理工具，助力护理科研工作

优采云发布时间: 2022-10-17 09:21

　　阅读和组织文献是护理研究人员的基本技能。一个简单易用的文档管理工具，不仅可以大大提高效率，还可以让研究过程更有条理。我们为大家整理了几款常用的文献管理工具，欢迎关注和分享。

　　尾注

　　EndNote 是一种常用的文档管理工具。它的优势是支持3776种参考格式，数百种写作模板，涵盖各个领域的杂志；可直接连接上千个数据库，提供通用检索方式；fast 工具内嵌在Word编辑器中，可以在写论文的同时轻松插入参考文献；系统资源占用小，很少出现因EndNote数据库太大而导致电脑死机的现象。另外，从国外数据库下载数据时，支持EndNote。

　　主要功能：

　　1、在线文献检索：直接从网上搜索相关文献，并导入Endnote的文献库。

　　2、建立文档库和图片库：采集文档、图片和表格供个人使用。

　　4、定制稿件：直接在Word中格式化引文和图形，使用稿件模板直接写出符合杂志要求的文章。

　　5. 引文排版：可以自动帮我们编辑参考文献的格式。

　　官方网站：

　　笔记快递

　　NoteExpress是一款专业级的文档检索和管理工具，功能涵盖“知识采集、管理、应用、挖掘”的方方面面。

　　主要功能：

　　1、文献信息检索与下载：可用于管理参考书目，以附件的方式管理参考文献或任何格式的文件和文件的全文。

　　2、数据挖掘：可以帮助用户快速了解某个研究方向的最新进展和各方意见。除了管理上述知识外，类似的日记、科研经历、论文草稿等也可以通过NoteExpress的笔记功能进行记录，并可与参考书目进行链接。

　　官方网站：

　　佐泰罗

　　Zotero 是一款开源的文档管理工具，可以方便地采集、整理、引用和分享文档，并协助我们管理和引用研究资源，包括期刊、书籍等文档，以及网页、图片等。与 Endnote 不同等等，Zotero 并不是一个独立的软件，而是嵌入在 Firefox 等浏览器中的插件应用程序。即使在使用 Chrome、Firefox 和 Safari 等浏览器时，如果您单击搜索栏旁边的 Zotero 图标，源文件或网页也会自动保存其书目信息。随着互联网的发展，我们获取文献资源的大部分都是通过浏览器，而Zotero和浏览器的紧密结合让我们的工作更加方便。

　　官方网站：

　　门德莱

　　Mendeley 是一款免费的跨平台文献管理软件和在线学术社交网络平台。Mendeley可以一键抓取网页上的文献信息，并添加到个人图书馆。还可以安装MS Word和Open Office插件，方便在文本编辑器中插入和管理参考文献；，推荐相关领域的文献供您进一步阅读。另外免费提供2GB文献存储和100MB共享空间

　　官方网站：

　　为我引用这个

　　Cite This for Me 操作非常简单，更适合学生写论文。您可以从互联网上导入任何书籍、期刊、报纸的文章，支持的参考格式包括哈佛、APA、MLA 等。 Cite This for Me 的开放存取*敏*感*词*是一个自动引文*敏*感*词*，可以根据不同的文档类型和引用格式，但并非所有格式都正确，因此您需要自己仔细检查。此外，网站还具有检查论文重复、检查拼写错误的功能。

　　常用方法:常用的大数据采集工具

　　大数据有多种来源。在大数据时代背景下，如何从大数据中获取有用信息是大数据发展的最关键因素。大数据采集是大数据产业的基石，大数据采集阶段的工作是大数据的核心技术之一。

　　为了高效地采集大数据，关键是要根据采集环境和数据类型选择合适的大数据采集方法和平台。下面介绍一些常用的大数据采集平台和工具。

　　1. 水槽

　　Flume 作为 Hadoop 的一个组件，是 Cloudera 专门开发的分布式日志采集系统。尤其是近年来，随着 Flume 的不断完善，用户在开发过程中的便利性有了很大的提升，Flume 现已成为 Apache Top 项目之一。

　　Flume提供了从Console（控制台）、RPC（Thrift-RPC）、Text（文件）、Tail（UNIX Tail）、Syslog、Exec（命令执行）等数据源采集数据的能力。

　　Flume 采用了多 Master 的方式。为了保证配置数据的一致性，Flume 引入了 ZooKeeper 来保存配置数据。ZooKeeper 本身保证了配置数据的一致性和高可用性。此外，ZooKeeper 可以在配置数据发生变化时通知 Flume Master 节点。Gossip 协议用于在 Flume Master 节点之间同步数据。

　　Flume对于特殊场景也有很好的自定义扩展能力，所以Flume适用于大部分日常数据采集的场景。因为 Flume 是用 JRuby 构建的，所以它依赖于 Java 运行时环境。Flume 被设计成一种分布式管道架构，可以看作是数据源和目的地之间的代理网络，以支持数据路由。

　　Flume 支持设置 Sink 的 Failover 和负载均衡，以保证在一个 Agent 故障时整个系统仍然可以正常采集数据。Flume中传输的内容被定义为一个事件，一个事件由Headers（包括元数据，即Meta Data）和Payload组成。

　　Flume 提供 SDK，可以支持用户定制开发。Flume 客户端负责将事件发送到事件源的 Flume 代理。客户端通常与生成数据源的应用程序位于同一进程空间中。常见的 Flume 客户端是 Avro、Log4J、Syslog 和 HTTP Post。

　　2.流利

　　Fluentd 是另一种开源数据采集架构，如图 1 所示。Fluentd 是用 C/Ruby 开发的，使用 JSON 文件来统一日志数据。通过丰富的插件，您可以采集各种系统或应用程序的日志，然后根据用户定义对日志进行分类。使用 Fluentd，跟踪日志文件、过滤它们并将它们转储到 MongoDB 等操作非常容易。Fluentd 可以将人们从繁琐的日志处理中彻底解放出来。

　　图 1 Fluentd 架构

　　Fluentd 具有多种特性：易于安装、占用空间小、半结构化数据记录、灵活的插件机制、可靠的缓冲和日志转发。Treasure Data 为本产品提供支持和维护。此外，使用 JSON 统一的数据/日志格式是它的另一个特点。与 Flume 相比，Fluentd 的配置相对简单。

　　Fluentd 的扩展性很强，客户可以自己定制（Ruby）Input/Buffer/Output。Fluentd 存在跨平台问题，不支持 Windows 平台。

　　Fluentd 的 Input/Buffer/Output 与 Flume 的 Source/Channel/Sink 非常相似。Fluentd 架构如图 2 所示。

　　图 2 Fluentd 架构

　　3.Logstash

　　Logstash 是著名的开源数据栈 ELK（ElasticSearch、Logstash、Kibana）中的 L。因为 Logstash 是用 JRuby 开发的，所以运行时依赖于 JVM。Logstash的部署架构如图3所示。当然，这只是一个部署选项。

　　图3 Logstash的部署架构

　　一个典型的 Logstash 配置如下，包括 Input 和 Filter 的 Output 的设置。

input { file { type =>"Apache-access" path =>"/var/log/Apache2/other\_vhosts\_access.log" } file { type =>"pache-error" path =>"/var/log/Apache2/error.log" } } filter { grok { match => {"message"=>"%(COMBINEDApacheLOG)"} } date { match => {"timestamp"=>"dd/MMM/yyyy:HH:mm:ss Z"} } } output { stdout {} Redis { host=>"192.168.1.289" data\_type => "list" key => "Logstash" } }

　　几乎在大多数情况下，ELK 同时用作堆栈。在您的数据系统使用 ElasticSearch 的情况下，Logstash 是首选。

　　4.楚夸

　　Chukwa 是 Apache 旗下的另一个开源数据采集平台，知名度远不如其他平台。Chukwa 建立在 Hadoop 的 HDFS 和 MapReduce（用 Java 实现）之上，以提供可扩展性和可靠性。它提供了许多模块来支持 Hadoop 集群日志分析。Chukwa 还提供数据展示、分析和监控。该项目目前处于非活动状态。

　　Chukwa 满足以下需求：

　　(1) 灵活、动态、可控的数据源。

　　(2) 高性能、高扩展性的存储系统。

　　(3) 用于分析采集的*敏*感*词*数据的适当架构。

　　Chukwa 架构如图 4 所示。

　　图 4 Chukwa 架构

　　5. 抄写员

　　Scribe 是 Facebook 开发的数据（日志）采集系统。其官网多年未维护。Scribe 为日志的“分布式采集、统一处理”提供了可扩展和容错的解决方案。当中央存储系统的网络或机器出现故障时，Scribe 会将日志转储到本地或其他位置；当中央存储系统恢复时，Scribe 会将转储的日志重新传输到中央存储系统。Scribe 通常与 Hadoop 结合使用，将日志推送（push）到 HDFS 中，由 MapReduce 作业定期处理。

　　Scribe 架构如图 5 所示。

　　图 5 Scribe 架构

　　Scribe 架构比较简单，主要包括三个部分，即 Scribe 代理、Scribe 和存储系统。

　　6. Splunk

　　在商用大数据平台产品中，Splunk提供完整的数据采集、数据存储、数据分析处理、数据呈现能力。Splunk 是一个分布式机器数据平台，具有三个主要角色。Splunk 架构如图 6 所示。

　　图片

　　图 6 Splunk 架构

　　搜索：负责数据的搜索和处理，在搜索过程中提供信息提取功能。

　　Indexer：负责数据的存储和索引。

　　Forwarder：负责数据的采集、清洗、变形、发送到Indexer。

　　Splunk 内置了对 Syslog、TCP/UDP 和 Spooling 的支持。同时，用户可以通过开发 Input 和 Modular Input 来获取特定的数据。Splunk提供的软件仓库中有很多成熟的数据采集应用，比如AWS、数据库（DBConnect）等，可以很方便的从云端或者数据库中获取数据，输入到Splunk的数据平台进行分析.

　　Search Head和Indexer都支持Cluster配置，即高可用和高扩展，但是Splunk还没有Forwarder的Cluster功能。也就是说，如果一台Forwarder机器出现故障，数据采集将中断，正在运行的数据采集任务无法故障转移到其他Forwarder。

　　7.刮擦

　　Python 的爬虫架构称为 Scrapy。Scrapy 是一个使用 Python 语言开发的快速、高级的屏幕抓取和网页抓取框架，用于抓取网站并从页面中提取结构化数据。Scrapy 用途广泛，可用于数据挖掘、监控和自动化测试。

　　Scrapy 的吸引力在于它是一种任何人都可以根据需要轻松修改的架构。它还为各种类型的爬虫提供了基类，例如BaseSpider、Sitemap爬虫等。最新版本提供了对Web 2.0爬虫的支持。

　　Scrapy的工作原理如图7所示。

　　图片

　　图 7 Scrapy 运行原理

　　Scrapy 的整个数据处理流程由 Scrapy 引擎控制。Scrapy运行过程如下：

　　(1) Scrapy引擎打开域名时，爬虫对域名进行处理，让爬虫获取第一个爬取的URL。

　　(2) Scrapy引擎首先从爬虫中获取第一个需要爬取的URL，然后在调度中将其作为请求进行调度。

　　(3) Scrapy引擎从调度器中获取要爬取的下一页。

　　(4)调度器将下一次抓取的URL返回给引擎，引擎通过下载中间件将其发送给下载器。

　　(5)下载器下载网页后，通过下载器中间件将响应内容发送给Scrapy引擎。

　　(6) Scrapy引擎接收到下载器的响应，通过爬虫中间件发送给爬虫进行处理。

　　(7)爬虫处理响应并返回爬取的物品，然后向Scrapy引擎发送新的请求。

　　(8) Scrapy引擎将抓取到的项目放入项目流水线，向调度器发送请求。

　　(9)系统重复步骤(2)之后的操作，直到调度器中没有请求，然后断开Scrapy引擎与域的连接。

0

2022-10-17

免费文章采集工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

知识和经验:科研写作 | 几款常用的文献管理工具，助力护理科研工作

0 个评论

发起人