瑞翼工坊——优采云采集器基础操作
优采云 发布时间: 2022-06-20 13:59瑞翼工坊——优采云采集器基础操作
瑞翼工坊——优采云采集器基础操作
2018年11月21日晚19:00,曙光瑞翼大数据学院瑞翼工坊—专业学生“对话式”教学研讨第十三次活动,在广西师范学院五合校区理综楼815机房开展。本期主题为“优采云采集器基础操作”,由助教沈皓主讲,让我们学会了数据采集的基础。
优采云数据采集系统以完全自主研发的分布式云计算平台为核心,可以在很短的时间内,轻松从各种不同的网站或者网页获取大量的规范化数据,帮助任何需要从网页获取信息的客户实现数据自动化采集,编辑,规范化,摆脱对人工搜索及收集数据的依赖,从而降低获取信息的成本,提高效率。下面让我们一起来学习优采云采集器的五个基本操作吧!
第一个,单网页信息采集——提取新闻信息
该操作主要分为两个步骤。第一步,打开网页:大家可以先登陆优采云采集器,点击左上角+图标,选择自定义采集,然后输入网址(如:),点击保存,在网页打开后,我们可以对任务名进行修改,不修改则默认以网页标题命名。在运行采集前可随时修改任务名。第二步,提取数据:首先在网页中,直接选中需要提取的数据。如:提取新闻标题、时间、正文。然后点击保存并开始运行采集。
第二个,创建循环列表
该操作有两种方法。第一种方法,我们可以在输入网址打开网页以后,鼠标选中文章料表中第一个链接,右面的提示框中会提示发现同类的元素,可以一起选中所有同类的元素。第二种方法,打开网页以后,选中第一个以后不能按照提示选中全部,需要选中右下角的扩大选项标识,才能选中其他想要的元素。然后选项的元素就扩充到第一行所有元素,再选择提示框中“选中子元素”,系统就可以识别出其他相似元素。最后选择提示框中的“选中全部”就可以把表中的所有数据都选中了。
第三个,采集单网页列表详细信息
步骤一,打开网页,步骤二,循环点击元素。首先我们可以点击第一个电影标题“ 肖申克救赎”链接,再选择“选中全部”选项,最后选择“循环点击每个链接”选项。步骤三,提取数据。点击页面中要提取的电影 剧情 字段,选择“采集该元素的文本”。步骤四:修改字段名称。先点击“流程”,后修改字段名称,再点击“确定”保存。步骤五:采集并导出数据。依次点击“保存”,“开始采集”,启动“本地采集”,“导出数据”选择导出方式。
第四个,采集分页列表信息
首先打开网页,其次点击“下一页”,选择“循环点击下一页”选项,再次将列表展示的信息采集成二维表的形式,然后修改字段名称,最后采集并保存数据。
第五个,采集分页列表详细信息
首先,打开网页,其次制作循环翻页流程,再次对电影名称创建循环点击,另外,点击电影标题字段,选择“采集该元素的文本”,以同样方式点击选择其他字段。然后修改字段名称,最后采集并导出数据。
了解完优采云采集器的五个基本操作,下面就来观看一下我们的课堂吧。
这是我们本次课堂的主讲:沈皓学长
是不是很帅呢!讲课很仔细呢!
同学们认真的学习和实战操作
通过学习使用优采云采集器,我们可以轻松地从各种不同的网站或者网页获取大量的数据,大家对这一期瑞翼工坊的内容是否有兴趣呢?赶紧登陆优采云采集器亲手实践一下吧!下一期的瑞翼工坊,我们期待你的到来!
本期供稿:曾竞慧
本期美工:韦慧怡