自动爬取?三种工具让数据搜集超容易 | 数据新闻工具之二
优采云 发布时间: 2022-08-17 10:08自动爬取?三种工具让数据搜集超容易 | 数据新闻工具之二
编者按
“数据新闻”这种全新的新闻报道形态,从数据中挖掘线索、以可视化方式呈现故事,其核心是对数据的处理。有效利用数据分析技术和可视化软件,是我们提高数据新闻制作能力的重要一步。
《数据新闻报道软件工具与应用》旨在提高新闻学子、媒体人的数据新闻领域制作技能,对数据新闻的*敏*感*词*式进行了介绍,并配以详尽的案例练习、*敏*感*词*带领读者学习技术工具。
上一篇我们介绍了如何使用Python、Node.js和R语言通过自主编程爬取数据。对于没有代码基础的数据新闻工作者而言,工具化的爬虫应用——“数据采集器”是不错的选择。
01
工具一:优采云
介绍
优采云大数据采集平台整合了网页数据采集、移动互联网数据及API接口服务等功能,无需编写代码,即可快速满足用户的基础性数据爬取需求。
官方网址:
主要功能
优采云采集器主要有两种数据采集模式:模板采集、自定义采集。
优采云内已有数百个网站的采集模板,涵盖主流网站的采集场景。自定义采集模式适用于所有网站,用户可以根据自己的需求进行配置,包括智能识别、手动配置采集流程两种模式。
案例实践
本书针对上述两种采集模式——模板采集与自定义采集,分别以“国家卫健委-疫情防控动态”模板采集和自定义采集豆瓣电影Top250为例,简单清晰且详尽地讲解了相关步骤与原理,为直接上手操作打下良好基础。详情见《数据新闻报道软件工具与应用》第23-33页。
02
工具二:集搜客GooSeeker
介绍
集搜客GooSeeker是一款在网页进行语义标注和结构化转换基础上,进行网页信息和数据爬取的采集软件。
官方网址:
主要功能
集搜客GooSeeker的功能主要集中在客户端和官网网站。
集搜客GooSeeker客户端为浏览器布局,被形象的命名为“爬虫浏览器”。借助其内置的MS谋数台与DS打数台功能,用户可以通过可视化点击,确定采集规则等内容,轻松对目标数据进行采集。
集搜客GooSeeker官方网站除了提供相应客户端的下载功能外,还配套有一系列的辅助功能。例如,在网站的资源栏里可以下载配置好的任务采集规则;在大数据论坛里发布使用心得或困难等。
案例实践
本书以豆瓣电影Top250排行榜为例,详细讲解了客户端在数据采集时地步骤和操作原理;不仅如此,书中还对官方网站配有的一系列辅助功能进行说明。详情见《数据新闻报道软件工具与应用》第36-48页。
03
工具三:优采云采集器
介绍
优采云采集器是一款能够在数据自动化采集过程中,同步对数据进行清洗的网页采集软件,确保采集数据更加准确有效。
官方网站网址:
主要功能
优采云采集器主要有两种采集模式:智能模式采集和流程图模式采集。
智能模式主要针对无编程基础的使用者而研发,其功能可类比上篇推送中提到的优采云自定义采集模式的智能识别功能。不同的是,该软件的智能模式可以根据需要下载图片、音频、视频等内容。
流程图模式是一种满足用户丰富的个性化数据采集需求的操作模式。通过在可视化网页中进行点选,自定义设置采集流程,可以满足用户更多个性化、精准化的需要。
案例实践
本书以国家统计局公布2010年-2019年我国行政区划的数据为例,对智能模式和流程图模式的数据采集步骤进行了极为详细地讲解,并对该软件“启动设置”界面的所有功能和功能中的每一项设置给出清晰明了的解释,为直接上手操作开通绿色通道。详情见《数据新闻报道软件工具与应用》第49-62页。
以上均可在《数据新闻报道软件工具与应用》中查阅
购书链接: