汇总:优采云采集入门到熟练——03 基本采集流程

优采云 发布时间: 2020-09-06 02:06

  优采云 采集入门知识——03基本的采集过程

  在准备了第一篇文章和第二篇信心不足的文章之后,如果没有懒惰和自卑的话,肖梦欣应该已经在优采云官方网站上观看了视频教程。接下来,进入采集流程并逐步构建采集规则。

  一、 采集层次结构的分析与构建

  采集页面和采集内容确定采集的总体结构和过程。一般来说,采集工具不会做得太深采集,因为它会大大增加采集的可能性。因此,我们放弃了其他复杂的可能性。采用标准化的采集规范,即第二级采集-列表页+内容页+分页,这是大多数采集的最常用方法。

  列表页面是什么?什么是内容页面?

  如果我想采集网易国际新闻的标题,内容和其他信息,则此页面为列表页面。

  

  国际新闻_网易新闻中心

  因为此页面上有新闻列表,所以我们想要采集是列表中单击的每个新闻内容页面。话虽如此,每个人也都知道内容页面是什么。内容页面是收录您需要的信息的页面采集。内容页面通常是列表页面的从属页面。

  采集的第一步是找到列表页面并在列表页面上设置翻页周期,首先完全定位列表。

  什么是分页?

  如果内容页面(即文章详细页面)未显示在一页上,而是由多个页面组成,则称为分页。例如,如果我想采集一篇文章文章,文章分为4页,那么我需要在分页符上执行采集。分页级别,通常是因为网站一页没有完全显示。那是:

  列表页面

  -分页1

  -分页2

  ……

  这样的结构。

  分页也需要循环构建,这与翻页循环本质上是相同的。

  通过这种方式,我们通过循环构建了辅助采集结构。通常,列表页面需要形成两个循环。第一个循环是翻页循环,用于翻页,通常称为“单击下一页”循环;第二个循环是列表循环,此循环包括所有内容页面,通常“单击进入页面循环”。

  在这里,每个人都需要注意,未选中在新标签页中打开翻页循环的单击操作。这是为了确保翻页周期本身的结构不会改变。但是,默认情况下“在新选项卡页面中打开”会自动检查内容页面循环的单击操作,因为每个内容页面都可以独立打开,并且采集不会影响原创列表页面。因此,如果您发现无法通过单击并手动将循环拖入并自动生成所需的循环,则需要注意修改这些小的详细信息设置,否则将使您感到沮丧。

  二、详细分析页面结构为采集(尽可能多地分析部分源代码)

  您可以认为内容页面的页面结构是相同的;或因为尚未经过测试,所以您不确定它们是否一致;在先前的测试中可能也相同,但是采集在一段时间后已被修改。简而言之,有很多情况,并且永远不变的一件事就是查看独立于源代码的测试采集 -adjust xpath。

  分析源代码条目的方法并不复杂。 Firefox和Chrome均进入开发人员模式。有关具体操作,请参考其他人的教导:

  Artifact-Chrome开发者工具(一)-仅仅是娱乐目的-SegmentFault

  重新介绍Firefox开发人员工具(1):Web控制台和Javascript调试器-文章-在线在线

  这里推荐两个插件:

  Firefox-Firepath

  Chrome——Xpath帮助器

  

  这两个插件可用于快速验证xpath是否正确并可以突出显示,这非常方便。

  优采云附带有xpath工具。如果在浏览器中xpath正确,但是无法在优采云中提取数据,请记住使用优采云中的内置工具来进行测试测试以查看优采云是否获得了页面的源代码与浏览器获得的结果不同。

  三、复杂的逻辑结构判断

  在采集测试开始之前,如果可以发现逻辑结构分支是最好的,如果不是,则至少在独立测试之后尝试完善它。但是,我提醒大家,优采云对于复杂的逻辑结构分支,最好在开始时进行计划,否则您很快就会感到困惑,并且以后的维修会引起各种错误和问题。你不能摸你的头。最简单的方法是删除整个规则并重做它,这会使您很头疼,因此,您越早计划采集,就越容易制定完美的规则。

  看到这里的许多人仍然感到困惑,为什么他们很复杂?为什么称之为复杂逻辑机制?这是怎么发生的。有时当我们采集个数据时,尽管它们都是内容页面,但内部格式已更改。例如,在公众​​意见中,有些商店具有完整的图片和说明,而有些则属于低端商店仅提供最简单的信息,而页面格式则完全不同。目前,我们很难编写通用的xpath语句,采集条目甚至可能不同。

  

  这时,优采云 采集器的条件判断可以发挥作用。它与if else语句非常相似。通过判断页面元素或文本,您可以执行完全不同的采集流程,这可以说是非常有用的。另一种情况是出现问题时的判断。例如,如果页面提示输入验证码,则执行的过程是先输入验证码,然后继续执行采集而不是原创的采集过程(原创过程肯定会认为跳过此页面而没有数据)。每个人都应该使用良好的条件进行判断,这可以在很大程度上避免采集没有数据或数据丢失的情况。

  四、数据提取和后处理

  通常可以通过一种相对简单的方法来提取数据,该方法是通过单击直接提取文本或链接。但是那些真正擅长查看源代码的人知道,有时候他们想要提取的信息不一定是文本,它可能是元素的属性,例如id,src,style等。此时,优采云数据提取下的编辑按钮很有用。首先,您可以自定义元素定位。如果您认为单击生成的位置不正确,则可以编写xpath来替换它;然后是元素提取方法,这里有很多提取方法。其他工具可能需要使用正则表达式来提取属性。我们可以直接选择,也可以快速选择摘录链接或其他html代码。在此步骤中,即使我们已经提取了所需的近似值,也可以满足要求。如果需要文本处理,则需要进一步的检*敏*感*词*理。

  

  优采云提供了更多通用的文本处理方法和工具,首先是最简单的替换功能,其次是通用正则表达式(认真学习,比xpath pit更深入)。此外,还有时间处理,html的基本处理等。因为优采云具有内置的正则表达式工具,请相信我,用心学习这个小技巧,可以节省很多自学的正则表达式时间,这绝对是一个神奇的工具,我想每天都有一个小的工具!

  五、小细节设置

  每个新手都会遇到一个大问题,Internet上的许多其他人找不到这些设置。实际上,这主要是因为优采云的许多详细设置都在每个操作的高级部分中,这使新来者不熟悉。 ,或者我没有使用过,我不知道如何找到它。

  这里的简单方法是将所有操作拉入流程,然后单击一个以查看高级设置,然后您可以慢慢记住它们。只要看一下实际战斗中的高级设置,您很快就会知道这是什么。高级设置和小细节设置与操作相互对应。如果我考虑需要的操作,那么我可以理解应该在哪里找到它们。例如:打开页面后,我想自动滚动到底部。此设置可能出现在哪里?毫无疑问,第一个是当我打开URL时,第二个是当我单击链接时,以便我可以立即知道在哪个步骤中可以找到此设置。

  

  以下是一些注意事项:

  六、单机测试和故障排除

  无论您如何编写规则,都可能会遇到问题,因为优采云规则不是您所看到的就是得到的,是的!不要上当,当您编辑规则时,您会感觉一切都很好,但是在启动独立测试后,一切都不是您所想的。这次是我们所有人都祝贺您进入维修站的时候了!

  

  很难避免深坑!您为什么这么说,因为这是一个经验性的问题...肖梦新会慢慢陷入困境...在遇到很多陷阱之后,您将逐渐知道如何解决问题。让我们开始“扫雷”:

  首先写很多,爪子可以跟随我的知乎专栏和数据交换组。

  Brother Rabbit Data Geek Club的QQ群:462346024

  我的博客:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线