“优采云”数据采集工具的功能、原理及使用方法
优采云 发布时间: 2021-03-22 02:14“优采云”数据采集工具的功能、原理及使用方法
杨健
随着移动互联网的日益普及和广泛应用,互联网上的信息已成为人们获取信息的重要来源。人们通常使用诸如百度之类的搜索引擎来输入关键字,并根据需要检索所需的Web内容。人们在浏览Internet信息时,也希望保存这些信息,选择适当的数据分析方法,并得出有效的结论,以便为将来的相关决策提供可靠的依据。
那么如何在网页上保存信息?通常情况下,您将在网页上选择所需的信息,然后通过“复制”和“粘贴”操作将其保存在计算机上的本地文件中。尽管此方法简单直观,但操作复杂且不适用于海量数据信息采集。为了准确,方便地在Web上获取大量数据,人们设计并开发了用于采集数据信息的各种专业工具。借助专业工具中Web爬虫的强大功能,可以更准确,方便,快速地获取网页。有许多此类专业数据采集工具。本文以“ 优采云”数据采集工具为例,介绍专业数据采集工具的功能,原理和用法。
“ 优采云”数据采集工具的功能
“ 优采云”数据采集工具是通用数据采集器,它可以采集网页上98%的文本信息。它可以根据不同的网站提供多个网页采集策略,还可以自定义配置,以本地采集或云采集的方式在网站中选择单个网页或多个网页的内容信息。自动提取并将获得的结果保存在Excel,CSV,HTML和数据库格式文件中,以方便后续数据处理和分析。
“ 优采云”数据采集工具的原理
在通常情况下,人们浏览网页时,必须先输入网站的网址;然后用鼠标单击网页上的按钮或热点,以找到他们想要获取的相关信息;最后选择信息并提取出来。以特定格式保存到文件。 “ 优采云”数据采集工具的核心原理是通过内置的Firefox内核浏览器模拟上述人类浏览网页的行为,并自动提取网页信息。这些功能由“ 优采云” 采集器这三个程序完成:负责任务配置和管理的主程序;任务云采集控制和云集成数据的管理程序;数据导出程序。
“ 优采云”数据采集工具的操作
在使用“ 优采云” 采集器之前,我们必须输入其官方网站 https:///,下载并安装“ 优采云” 采集器客户端(本文使用“ 优采云以“ 8.版本0软件为例)。打开客户端软件,注册并登录以使用它。
1.使用模板采集数据
“ 优采云”客户端中内置了许多网站 采集模板。我们可以根据需要使用这些模板。如图1所示,按照提示快速轻松地获取网站信息。操作过程分为三个步骤:第一,选择目标模板网站;第二,选择目标模板。其次,配置数据采集参数(采集的关键字,采集的页数等),选择采集模式(本地采集或云采集)自动提取数据;第三,选择输出文件格式并导出数据。
图1客户端中内置的网站 采集模板
完成上述操作后,“ 优采云”客户端将以任务的形式保存整个操作过程和提取的数据。通过客户端的“我的任务”项目,您可以随时查看提取的数据,还可以重复或修改当前任务。
2.自定义采集数据
当我们要根据自己的要求在网页上获取个性化数据时,我们需要使用自定义数据采集模式。首先,确定目标网站和采集要求;然后打开网页,配置采集选项,并提取数据;最后,将数据导出到指定格式的文件中。
无论在[优采云]客户端中使用哪种模式采集网页数据信息,整个过程都可以分为三个步骤:配置任务,采集数据和导出数据。其中,配置采集选项参数是准确获取网页数据的关键。
“ 优采云”数据采集工具的应用案例
“ 优采云”数据采集工具可以采集上网站上的大多数网页信息,而不仅仅是某些类型的专业网站数据采集。以豆瓣电影排行榜前250名(https:// top 25 0))的数据为例,我们将介绍如何使用“ 优采云”数据采集工具。
Douban 网站基于全面的数据,例如观看每部电影的人数和电影的评估,并且通过算法分析生成了豆瓣电影的前250名列表。前250张豆瓣电影的数据信息连续显示在10个网页上,每页显示25部电影,每部电影包括电影排名,电影海报,中英文电影名称,电影导演和主演,参加人数,豆瓣评分等相关信息。我们可以根据实际需要,使用“ 优采云”数据采集工具获取豆瓣电影排行榜250强的详细数据。具体方法如下。
1.获取列表中电影的信息
首先,在“豆瓣电影”网页上查看有关某部电影的信息,例如“霸王别姬”,并确定要获取的信息内容:电影排名,电影名称,导演,主要演员和剧情简介。其次,在“ 优采云”客户端的主页中,输入电影网页的URL,单击“开始采集”按钮以打开该网页;在显示网页的窗口中,单击“ NO2豆瓣电影” Top 250”选项卡;在弹出的“操作技巧”窗口中,选择“ 采集元素文本”,然后选择“ NO2豆瓣电影Top 250”选项将显示在“配置采集字段”窗口中。重复上述操作并选择其他标签,例如“告别我的后((199 3)”,“导演:陈凯歌”)和网页上的其他标签再次,在“操作提示”窗口中执行“保存并启动采集”命令,然后在“运行任务”中启动“本地采集”选项。 “窗口采集数据信息。最后,将采集中的数据以特定格式保存到文件中。
完成数据信息采集之后,除了通过打开数据文件查看采集的信息之外,还可以从主页上的“我的任务”项目查看采集的正确数据。 “ 优采云”客户端。
2.获取网页的所有电影信息
豆瓣电影列表中的每个页面将显示有关25部电影的信息,并且每部电影都显示相同的信息项,例如电影排名,海报,电影中文名称,导演和主演演员等。 “ 优采云”客户端提取的每个电影的数据是相同的。因此,我们只需要完成一部电影的数据采集配置,并对其余电影重复该操作。
首先,我们必须确定要求,在“ 优采云”客户端的主页上输入要获取的信息的URL,然后打开网页。其次,单击鼠标以选择与电影相关的数据区域。在弹出的“操作提示”窗口中,选择“选择子元素”选项,选择电影排名,海报,电影中文名称,导演和主演字段;然后单击鼠标选择“全选”以创建一个循环列表,在网页中选择25部电影的相关数据项;然后在预览窗口中单击“ 采集数据”选项,查看并修改数据字段名称为采集。最后,启动“本地采集”以获取数据信息并生成数据文件。
3.获取列表中的所有电影信息
除了上面提到的手动数据选择采集字段外,由于豆瓣电影排名前250名列表中每部电影的显示信息都是相同的,因此我们可以使用“操作提示”窗口来获取所有数据250部电影。在提示信息中,将自动配置要提取的数据项,以完成电影信息的获取。
首先,弄清信息要求,确定URL https://movie.douban。 com / top 250,在“ 优采云”客户端上打开网页;在“操作提示”窗口中选择“自动识别网页”。识别出“ 优采云”算法后,采集字段配置将自动完成,如图2所示。在“数据预览”窗口中,您可以看到即将到来的采集的字段和数据,并且您可以通过“修改”和“删除”操作来调整与字段相关的信息。然后选择“生成采集设置”,保存并启动采集数据。提取数据后,将其保存为特定格式的文件。
图2 采集字段配置的自动完成
除上述应用程序外,“ 优采云”数据采集工具还可以针对许多采集需求和具有不同结构的网页执行数据采集,例如获取特定数量的网页和使用云采集等。这些是每个人都可以进一步研究和研究的内容。
专业数据采集工具和网络爬虫技术已逐渐成为获取网络信息的重要手段,但是在现实社会中,并非所有数据都可以任意提取和使用。数据采集时,必须遵守相关法律法规,并负责任地,合理地使用网络技术和网络信息。
资助项目:北京市教育科学“十三五” 2018年总项目“高中信息技术教学中计算思维培养的案例研究”,项目编号:CDDB18183。作者是北京教育学院《北京中小学人工智能教学实践研究》特聘教师工作室的成员。
参考
[1]朱志婷,范磊。普通高中教材与信息技术必修[M]。北京:人民教育出版社,中国地图出版社,201 9.
中小学信息技术教育,2020年,第6期
中小学的其他信息技术教育文章
停课,不停课,不停学,教育信息技术彰显“内在力量”
数百名中小学生在网上享受高质量的教育,并且没有“停课”。
教育部发布了《中小学幼儿园教师在线培训实施指南》
北京:2020年将建立教育大数据平台
资本教育距离有助于和田教师的教育和教学能力的提高
教育部发布了六项超过标准和高级培训的义务教育科目否定名单