利用专业数据采集工具获取网路数据的方式

优采云 发布时间: 2020-08-25 15:42

  利用专业数据采集工具获取网路数据的方式

  杨健

  

  

  随着联通互联网的日渐普及和广泛应用,网络上的资讯成为人们获取信息的重要来源。人们一般依据需求使用百度等搜索引擎,输入关键字,检索所需的网页内容。在浏览网路资讯信息的同时,人们还希望还能将这种信息保存出来,选择适当的方式进行数据剖析,得出有效推论,为日后相关决策提供可靠根据。

  那么怎么保存网页上的信息呢?通常情况下,大家会选中网页上须要的信息,然后通过“复制”和“粘贴”操作,保存在笔记本的本地文件中。这种方式其实简单直观,但是操作繁复,不适宜大批量数据信息的采集。为了确切方便地获取网路中的海量数据,人们设计开发了多种用于采集数据信息的专业工具,借助专业工具中网路爬虫的强悍功能,能够愈发确切、方便、快速地获取网页信息。这样的专业数据采集工具有很多种,本文以“优采云”数据采集工具为例,介绍专业数据采集工具的功能、原理及使用方式。

  “优采云”数据采集工具的功能

  “优采云”数据采集工具是一款通用的数据采集器,能够采集98%的网页上的文本信息。它可依照不同网站提供多种网页采集策略,也可以自定义配置,以本地采集或云采集的形式对选中网站中的单个网页或多个网页的内容信息进行手动提取,并将获取结果保存在Excel、CSV、HTML、数据库格式文件中,以便捷后续的数据处理与剖析。

  “优采云”数据采集工具的原理

  一般情况下,人们浏览网页时,首先要输入网站的网址;然后通过键盘单击网页上的按键或热点等操作,找到所要获取的相关信息;最后选中这种信息,提取下来,保存到特定格式的文件中。“优采云”数据采集工具的核心原理是通过外置Firefox内核浏览器,模拟上述人为浏览网页的行为,对网页的信息进行全手动提取。这些功能由“优采云”采集器的三个程序完成:负责任务配置及管理的主程序;任务的云采集控制和云集成数据的管理程序;数据导入程序。

  “优采云”数据采集工具的操作

  使用“优采云”采集器之前,我们要步入其官方网站https:///,下载并安装“优采云”采集器客户端(本文以“优采云”8.0版软件为例)。打开客户端软件,注册登入后即可使用。

  1.使用模板采集数据

  “优采云”客户端中外置了好多网站的采集模板,我们可以依据需求使用这种模板,如图1所示,按照提示步骤简单快捷地全手动获取网站信息。操作过程分三步:第一,选择目标网站的模板;第二,配置数据采集参数(采集的关键字、采集的页数等),选择采集模式(本地采集或云采集)自动提取数据;第三,选择输出的文件格式,导出数据。

  图1 客户端中外置的网站采集模板

  上述操作完成后,“优采云”客户端会将整个操作过程及提取的数据以任务的方式进行保存。通过客户端“我的任务”项,可以随时查看已提取的数据,也可以重复执行或更改当前任务。

  2.自定义采集数据

  当我们希望根据自己的要求获取网页上的个性化数据时,就须要使用自定义数据采集模式。首先要确定目标网站和采集需求;然后打开网页,配置采集选项,提取数据;最后导入数据到指定格式的文件中。

  不管使用“优采云”客户端的哪种模式采集网页数据信息,整个流程都可统一为配置任务、采集数据和导入数据三个步骤。其中,配置采集选项参数是确切获取网页数据的关键。

  “优采云”数据采集工具的应用案例

  “优采云”数据采集工具才能采集大多数网站上的网页信息,而非只针对某类专业网站数据进行采集。下面以获取豆瓣影片Top 250(https:///top 250)网页数据为例,介绍“优采云”数据采集工具的具体使用技巧。

  豆瓣网站是按照每部电影看过的人数以及该电影所得的评价等综合数据,通过算法剖析形成豆瓣影片Top 250榜单。豆瓣影片前250名的数据信息分10个连续网页显示,每个网页呈现25部连续剧,每部影片都包括影片排行、电影海报、电影中英文名称、电影编剧及执导、参评人数、豆瓣得分等相关信息。我们可以按照实际需求,使用“优采云”数据采集工具获取豆瓣影片Top 250的详尽数据,具体方式如下。

  1.获取榜单中某一部影片的信息

  首先,查看豆瓣影片网页中关于某部影片的信息,如《霸王别姬》,确定要获取的信息内容:电影排行、电影名、导演、主要艺人和剧情简介五项。其次,在“优采云”客户端的首页中,输入该部影片网页的网址,鼠标单击“开始采集”按钮,打开该网页;在显示网页的窗口中,鼠标单击“NO2 豆瓣影片Top 250”标签;在弹出的“操作提示”窗口中选择“采集该元素文本”,在“配置采集字段”窗口中显示出“ NO2 豆瓣影片Top 250 ”选项。重复上述操作,分别选中网页中“霸王别姬(1993)”“导演:陈凯歌”等其他标签完成采集字段的配置,并更改数组名称。再次,在“操作提示”窗口中执行“保存并开始采集”命令,在“运行任务”窗口中启动“本地采集”选项搜集数据信息。最后,将采集到的数据保存到特定格式的文件中。

  数据信息采集完毕后,除了通过打开数据文件查看采集的信息外,还可以从“优采云”客户端首页的“我的任务”项中查看采集好的数据。

  2.获取某个网页的全部影片信息

  豆瓣影片榜单中每页就会显示25部影片的相关信息,每部影片展示了相同的信息项,如影片排行、海报、电影英文名称、导演及出演等。那么,“优采云”客户端提取每部影片数据的操作都是相同的。因此,我们只需完成一部影片的数据采集配置,其余影片使用循环重复操作即可。

  首先要确定需求,在“优采云”客户端的首页输入要获取信息的网址并打开网页。其次,单击键盘选中一部影片相关数据区域。在弹出的“操作提示”窗口中选择“选中子元素”选项,选中该影片的影片排行、海报、电影英文名称、导演及出演等数组;然后再单击键盘选择“选中全部”,建立循环列表,选中该网页中25部影片的相关数据项;再单击“采集数据”选项,在预览窗口中,查看更改要采集的数据数组名。最后启动“本地采集”,获取数据信息,生成数据文件。

  3.获取榜单中全部影片信息

  除了上述自动选择数据采集字段外,由于豆瓣影片Top 250榜单中每部影片显示的信息都是相同的,在获取全部250部電影数据时,我们可以通过“操作提示”窗口中的提示信息,自动配置要提取的数据项,来完成影片信息的获取。

  首先明晰获取信息需求,确定网址https://movie.douban. com/top 250,在“优采云”客户端打开网页;在“操作提示”窗口中选择“自动辨识网页”。经过“优采云”算法的辨识,自动完成采集字段配置,如图2所示。在“数据预览”窗口中,可以看见正式采集的数组及数据,通过“修改”和“删除”操作可以调整数组相关信息。然后选择“生成采集设置”,保存并开始采集数据。数据提取完成后,保存到特定格式的文件中。

  图2 自动完成采集字段配置

  除了以上这种应用之外,“优采云”数据采集工具还可以针对好多采集需求和不同结构的网页进行数据采集,如获取特定网页数量的数据、使用云采集等。这些都是你们可以进一步学习研究的内容。

  专业数据采集工具及网路爬虫技术日渐成为获取网路信息的重要手段,但是在现实社会中,并不是所有数据都可以任意提取和使用。在数据采集时,我们要遵循有关的法律法规,负责任地、合理地使用网路技术和网路信息。

  基金项目:北京市教育科学“十三五”规划2018年度通常课题“高中信息技术教学中估算思维培养的教学案例研究”,立项编号:CDDB18183。作者系北京教育学院“北京市中小学人工智能教学实践研究”特级班主任工作室成员

  参考文献

  [1]祝智庭,樊磊. 普通中学教科书·信息技术选修 [M]. 北京:人民教育出版社、中国地图出版社,2019.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线