干货 | 数据收集和处理工具一览
优采云 发布时间: 2022-06-18 20:01干货 | 数据收集和处理工具一览
进入大数据时代,调查报道愈加成为信息战。从哪里收集有效数据?如何抽取、筛选、整合、分类大量琐碎的信息?如何分享、存储数据,并实现随取随用?深度君整理了一张数据收集和处理工具清单,分为八大类,方便实用,各有所长,供大家选择。(点击“阅读原文”可查看相关教程、工具下载链接)1.全文本搜索和挖掘的搜索引擎包括:搜索方法、技术:全文本搜索,信息检索,桌面搜索,企业搜索和分面搜索(点击“阅读原文”可查看相关教程链接)开源搜索工具
搜素数据库和API
如果想编程,可以试用以下强大的搜索引擎:Solr和Elastic Search,支持索引和API搜索,更多全文搜索、实时检索、数据分析、多格式数据读取(JSON, SML, CSV或HTTP)等强大功能等你开发。
2.数据库、数字文档、数据管理系统、文件管理系统和内容管理系统
还在为不同格式的脚注、尾注、文中引用和文献参考大费脑筋吗?资源整理神器Zotero的标注和引用功能帮你解决难题。它可以在Word,Open Office添加引用,在Google doc和电子邮件中插入文献参考,或者为数据库添加标记。
3.文本文件挖掘、分析
“ 如果你觉得不够,我们还推荐:
4. 图表和关系网络分析(SNA)帮助分析关联并将其可视化的工具
5. 抽取、转换数据包括数据整合、抽取、转换、转移、ETL(数据提取、转换和加载)、网络爬虫等等从文件抽取结构化数据
从图片识别文本(OCR)
从声音识别、抽取文本
CMU Sphinx: 开源声音识别工具,支持英语、法语、中文、德语、荷兰语、俄语。该开发商还提供关键词识别和读音识别等实用工具,可以多多关注。
从网站抽取数据(网络爬虫)
网络采集哪家强?简易 Scrapy帮你忙:你可以依托Scrapy建立自己的网络爬虫工具,编写Python代码,在Windows,Mac,Linux和BSD系统上都可运行。
6. 输入、修改、转换数据
编写文件和删除元数据
记者为了保护信息,往往需要重新编写文件、清除敏感文件、删除隐藏在文件或图片里的元数据,例如软件的序列号或软件、用户名,以下工具可供参考:
7. 统计与分析:包括数据分析、统计,图表、数据可视化(点击“阅读原文”可查看相关教程链接)
8. 通用开源软件工具包
最强大的通用开源工具包,例如 Debian GNU/Linux或Ubuntu Linux,涵盖了成千上万个免费软件和开源工具、软件数据库和编程语言。运行时,用户无需移除现有的操作系统:安装适用于Windows和Mac的Virtual Box,就可以在现有操作环境下运行上述Linux软件。
*想获取更多实用数据工具和公开资源?请戳左下角“阅读原文”到GIJN官网获取相关链接。
微信号公号:gijn_cn