快速入门爬虫1-0基础采集入门知识学习本篇
优采云 发布时间: 2021-07-23 02:03快速入门爬虫1-0基础采集入门知识学习本篇
欢迎来到小白的数据梦工厂。很高兴你对爬虫感兴趣,想学习爬虫,或者想采集网络上的一些数据。
先自我介绍一下。我是优采云采集器的创始人刘宝强。 优采云是全球领先的网络数据采集平台,每天为全球70万家企业和个人提供采集1亿条数据。恭喜您在众多爬虫入门方式中选择了优采云。这是一个非常好的起点。你从一开始就站在巨人的肩膀上!
阅读这篇文章大约需要 15 分钟。
这是Quick Start Crawler的第二部分,第一个链接:Quick Start Crawler 1-0 Basics采集Beginner Knowledge
本系列文章将带领你从0基础开始,一步一步,从采集一个简单的网页,到复杂的列表,多页数据,Ajax页面,瀑布流等等,直到应对常见封IP,验证码等防采集措施,包括采集淘宝,京东,微信,大众点评等热门网站。由浅入深,循序渐进的深入网页数据采集领域,相信认真学完本系列,你也会成为采集大神,有能力把互联网变成自己的数据库(这一段提到了Ajax等专业数据,你可能不懂,但有个好消息:到目前为止你不需要了解这些技术概念)。
要学习本内容,首先需要掌握以下知识:
我已经学习了第一篇:Quick Start Crawler-0 Basic 采集Beginner Knowledge,这意味着你了解了基础知识并成功安装了优采云采集器,在第一篇文章中详细解释。
截止本文发布时,八爪鱼采集器的最新版本是7.1.8,下载地址是:http://www.bazhuayu.com/download
学习本内容,您将掌握以下内容:
了解如何采集list 数据。学习如何翻页实现多页数据采集。
第一篇我们采集成功采集一条数据,你可能觉得采集一条数据没用,采集一条数据是手动复制最快的方式,可能几十以内件数 可以手动复制。在实际应用场景中,我们经常需要采集数百、数千甚至数百万的数据。所以,第一篇文章的意义在于学习如何使用软件工具实现自动化采集。
在真实场景中,大部分网站数据可能是这样的(如下图):
一个网站有很多类别,每个类别都有很多数据。通常,每个类别都是一个收录列表或表格的页面,以及一个翻页功能。以知名的京东商城为例。京东有很多产品品类(categories),每个品类(比如手机)都有一个手机数据列表(data list)。该列表页收录60款手机的基本数据。每个手机(列表项)都有价格、标题、销量(字段)等多个具体信息,页面底部有一个翻页链接区。您可以点击下一页,在第二页查看其他60款手机的基本数据。
常见的网站数据*敏*感*词*
我们采集data的时候经常用到上面提到的几个概念:分类、列表、数据项、数据字段、翻页;如果你看到一个网站,你就可以在脑海中构建这个网站数据结构,采集就变得很容易了。
这里我为大家准备了一个例子网站:Demo网站-Movie数据分类,网址:/guide/demo/genremoviespage1.html,大家可以对比一下上面常见的网站数据*敏*感*词*来看看这个网站,是不是很像? ?
示例网站截图(带有网站数据结构标记)
如果我们不使用工具,手动复制完成的数据采集,我们肯定会这样做:
在浏览器中打开这个网站。复制第一部电影的数据:标题肖申克的救赎类型*敏*感*词*评级9.2 发行年份 1994 时间 142 分钟。粘贴到 Excel 中并另存为 5 列。重复上面的步骤 2,直到您复制了第一页上的 3 部电影的数据。点击翻页区的“下一页”链接,重复步骤2和3,然后再次点击“下一页”,重复直到到达最后一页(最后一页没有“下一页”链接) .
那么优采云工具怎么用呢?还记得第一篇提到的优采云采集核心原理吗?
优采云采集的核心原理是模拟人们浏览网页和复制数据的行为。通过记录和模拟人们的一系列上网行为,他们可以代替人眼浏览网页,手动复制网页数据。对来自网页采集的数据进行自动化处理,然后重复一系列设定的动作流程,实现采集海量数据的全自动处理。
你可能已经想到了怎么做,别着急,让我们试着把我们的想法画成一个流程图,它应该是这样的:
我来解释一下这个流程图的具体步骤:
蓝色方块代表一些步骤,黑色圆角矩形代表我们需要重复的一个或多个步骤。
打开这个网站分类数据录入页面,就是刚才的示例网址。接下来是需要重复的步骤:重复点击下一页,黑色矩形线框中的部分需要重复。它收录另一个需要重复的步骤:循环播放每部电影。同样的,我们再来看看内部。有一个蓝色的步骤:提取每个字段的数据。这就是我们现在需要做的。让优采云Tools 自动提取每个字段。执行完最后一个蓝色步骤后,此时需要重复这个蓝色步骤,直到自动提取出第一页的三部电影的数据。至此,“循环每部电影”的步骤就完成了。然后我们执行如下蓝色步骤:点击下一页,这样网页会跳转到第2页,我们重复步骤2、3,然后“点击下一页”,以此类推,直到采集完最后一页数据,此时网页上没有“下一页”链接,“循环点击下一页”以外的重复步骤就结束了,整个过程就结束了。
仔细对比手动复制数据的4个步骤和使用优采云工具采集的流程图,你会发现它们非常相似,可以说是完全相同的过程。这再次说明优采云就像一个机器人,模拟人类的思维和上网行为以及复制数据的过程。虽然每个网站都不同,但好消息是:任何复杂的网站都可以用这个简单的想法来做,想想人们是怎么做的,然后在优采云中设置相应的工作流,你可以实现任何网站网站采集。这就是优采云能够不改变地适应变化,能够采集any网站的秘诀。
看到这里,也许你已经迫不及待要实际去做了,验证一下我们的想法,我们来看看如何在实践中去做:
打开优采云采集器,点击“自定义采集”按钮→点击左上角的“新建任务”按钮进入任务配置页面,然后输入网址(/guide/demo /genremoviespage1.html )→保存网址,系统进入流程设计页面,自动打开输入的网址。
操作录屏-第一步
2. 打开网页后,随着鼠标的移动,有蓝色背景指示内容。 优采云内置了自己专门为采集data开发的浏览器。这个浏览器除了其他浏览器还可以显示网页之外,还增加了很*敏*感*词*来支持采集。其中之一是当鼠标移动到不同的内容时,相应的内容会自动标记为蓝色背景。当用户点击鼠标时,该区域会被选中并用绿色标记,并弹出操作提示框。这里优采云已经自动识别出我们选择的区域收录多个数字字段(子元素),并用红色虚线框标记(表示预选),我们点击第一个选项“选择子元素”,多个刚刚预选的数据字段被正式选中并标记为绿色,这些字段也会在提示界面的表格中显示。然后优采云提醒我们:找到了3组相似的元素,也就是自动找到了另外2部电影的数据,也是用红色虚线框预选的,我们选择第一个选项“全选”,然后选择它是所有电影的数据。
操作录屏-步骤2
在第二步中,我们接触到了几个新的东西:子元素、智能提示框、各种颜色选择提示。如果您有兴趣,可以阅读下面的详细说明。当然,你可以跳到第一个3步操作。
智能提醒框:
为了记录采集数据的步骤,优采云在用户选择要操作的网页内容时会要求用户选择要进行的操作。比如用户选择一个链接,可以选择提取链接的文字、URL链接,或者点击这个链接等。优采云的智能提示不仅可以让用户选择操作,还可以预测用户的操作很有可能是下一次*敏*感*词*。通过对网页数据的智能分析,优采云会自动发现数据字段和类似数据项,指导用户操作。 4是不是4很聪明,很贴心?
选择提示颜色:
蓝色表示鼠标当前放置在哪个内容区域。
绿色表示我们点击了所选内容。
红色虚线表示系统智能识别并预测您要选择的内容。
子元素:
当我们选择一个收录多个数据字段的区域时,优采云将选中的区域称为“元素(英文Element,这是一个技术术语)”,每个数据字段称为一个“子元素”,元素可能收录多个“子元素”。
3. 在上一步中,我们已经选择了所有数据。在我们确定采集这些字段之前,让我们先检查一下表格。您会发现标题本身也被提取为一个字段。事实上,我们只需要真正的标题。 , 标题中不需要两个字,所以我们可以直接删除提示框表单中的“字段1”,同理删除其他多余的字段,然后修改我们想要的字段的字段名。点击采集确认数据字段。
操作录屏-第三步
4.我们现在采集有第一页的所有数据,一共3页,然后我们设置翻页,点击下面的“下一页”按钮,优采云自动识别这个是下一页链接,我们选择“循环点击下一页”的选项,这样系统就会翻页,每页采集直到最后一页。点击启动采集,在弹出的窗口中选择“启动本地采集”,会弹出一个窗口,继续采集
操作录屏-第4步
总结:
恭喜!您已经成功采集 获得了电影网站 的所有数据,以此类推,就像您可以采集 任何收录列表、表格和页面的网站 一样,您就在网站 的路上采集 又一个里程碑。以后我们会继续学习更多的技能,一步步成为采集大神。
如果您有任何问题或想法想与我交流,请在下方评论区留言。也可以关注我的知乎与我互动:点击关注“刘宝强的知乎”。同时欢迎关注我的知乎专栏,获取文章新通知:点击关注“小白的数据梦工厂”