三款文献管理软件的信息提取能力大PK

优采云发布时间: 2022-06-18 10:03

　　三款文献管理软件的信息提取能力大PK

　　导语

　　“师姐我好心累！你不是说用文献管理软件可以不用手动输入题录，它自己会插到文末的吗？”“嗯呐。”“可是……把文献导入软件的时候还是要手动录入信息啊T_T”“怎么可能，一定是你打开方式不对！”

　　师弟写论文写了都多久了，现在才来问我这个问题，我也不知道说什么好o(╯□╰)o以前我给他推荐软件的时候，的确更多地考虑阅读管理、题录插入的便捷，没想到他会挂在第一步=_=今天我们就来谈谈文献题录信息识别那些事。

　　题录信息在哪里？

　　我们找文献，最常用的也就是Pubmed、CNKI等网站，这些网站都很好的记录了文献的题录信息，也就是作者、文题、期刊名、卷号、期号、日期、页码等。许多常用的软件都能准确地从英文网站提取这些信息，中文CNKI略麻烦，但也还是能做到的。

　　如果你原来就存了很多pdf，那么如果pdf的元数据里存有这些信息，许多软件都能直接读取；若元数据没有，某些优秀软件还可检测文件的DOI号，再通过后台网络搜索来进行匹配；要是连DOI号都没有，一些神级软件还能提取题名、作者、页码，但其他信息还要手动校正。万一真的什么都没有……那只好全部手动敲字了。

　　好软件是不少，但常常令小伙伴们纠结、摇摆的软件也就那几款，主要是Endnote、Zotero、Mendeley，因为它们物美价“零”啊！下面我们就从网页和PDF两种来源的信息提取，对它们详加考察，供君甄选。

　　Endnote：中英文识别无障碍

　　一、网页提取

　　Endnote是经典文献管理软件了，应该不少人还在用它。但是从网页导入文献的方法有点麻烦，我们之前详细介绍过，在这里：，现在就不详谈了，主要看看效果。

　　Endnote对Pubmed识别比较详尽，但有时候卷号、期号、起止页仍需要校对补充。

　　CNKI网页导入的方法比较像一文中介绍的Google Scholar的方法，需要先从网站导出引文文件，再从Endnote导入该文件。效果也不错呀，只有卷号要补充。

　　二、PDF提取

　　大多数正规OA期刊下载来的PDF都可以直接在Endnote中提取信息。方法是在菜单栏Files→Import，在下面的对话框中Import Option一栏选择pdf，然后选择要导入的文件。这个时候要翻墙！要翻墙！要翻墙！

　　效果：这是一篇science report上的文章，信息还算完整，期号和页码要校正。

　　再来看看中文期刊：

　　就识别了一个文件名。

　　Mendeley：一键提取，但不懂中文

　　一、网页提取

　　Mendeley和Endnote不一样，它可以直接在浏览器上安装一个导入插件（Importer），可以在文献的网页点击插件直接导入。

　　安装好后浏览器右上角会出现Mendeley的图标。搜到一篇文献，直接点击这个图标，就可以提取信息，如图：

　　这样的方法相对于以Endnote为代表的老技术，真是一项偷懒界的大创举！不过也由于这技术对浏览器比较挑剔，所以你可能还需要更换浏览器。目前它支持火狐，还有谷歌家的Chrome。这里我用的是火狐。

　　再来看看CNKI的提取效果：

　　也只是一个标题。

　　二、PDF提取

　　先导入文件，Files→Add Files，然后选择要导入的PDF文件。英文文献还是比较放心的，只有卷号和期号要校对一下。

　　再看看中文的情况——它会向你确认文献信息是否正确……这还要确认吗？直接手动敲啊！

　　Zotero：快、准、狠

　　一、网页提取

　　Zotero的方法和Mendeley差不多，都算新一代信息提取技术了，目前支持的浏览器有火狐、Chrome和苹果的Safari。不过它有个更便捷的地方就是，如果你用火狐浏览器，可以不用安装独立软件，用浏览器内嵌版就可以。下面就用火狐内嵌版展示下提取信息效果。

　　Pubmed：打开网页搜到文献之后，Zotero的导入插件会变成一张小纸片的图标，表示当前文献的类型是期刊文章，点击一键提取。（左边的“Z”用来打开文献管理界面）

　　可以看到，提取的信息很详细，该有的都有了。不过偶尔也会遇到卷号提取不出来，要手动补充。

　　在CNKI，期刊文章的识别效果也是杠杠的，只有卷号要补充：

　　二、PDF提取

　　Zotero提取pdf的信息，要先把文件拖进来，建议拖的同时按住Ctrl+Shift形成链接形式，因为Zotero的免费空间只有300M，用链接比较节俭。然后右击文件链接→重新抓取PDF元数据，这时又会要求安装一个插件，装好后就可以提取数据了：

　　英文的一般都不会让人失望。然而中文就会出现这种情况：

　　所以终极策略

　　个人觉得Mendeley和Zotero作为新一代文献管理软件，从网站抓取信息比Endnote简便多了，但对中文网站的识别能力则是Endnote和Zotero更胜一筹。对pdf的识别，英文三者都很不错，但对中文就全军覆没了。所以还是尽量从网页上获取元数据，再下载pdf作为附件附上。要是你原来下载过很多的中文pdf……要不你还是再从网站上搜一遍吧*^_^*

　　精彩内容回顾（回复左边数字查看）：

　　61：非编码RNA类型及功能汇总，吐血推荐！

　　62：一文读懂 | 与自噬相关的mTOR信号通号

　　63：干货 | Oligo设计引物，就是这么简单

　　64：跟着13分文章学作图，等着收获SCI吧（origin8教程）

　　65：干货 | 磷酸化抗体使用必杀技

　　66：Discussion写作模板：从3分、5分到10分

　　67：一文包会：Web of science数据库应用宝典

　　68：读图 | qPCR那些奇奇怪怪的曲线都代表啥？

　　69：MicroRNA，如何实现从零基础到10分的跨越

　　70：ELISA实验操作中值得关注的细节大盘点

　　回复SCI、国自然、信号通路、CNS、实验工具、统计查看相应专栏文章！

　　投稿邮箱：

0

2022-06-18

网页信息抓取软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

三款文献管理软件的信息提取能力大PK

0 个评论

发起人