文章采集规则(第一节:内容规则回顾第2章第4节What(内容) )

优采云 发布时间: 2021-12-10 12:08

  文章采集规则(第一节:内容规则回顾第2章第4节What(内容)

)

  第 1 部分:内容规则

  回顾第2章第4节What(内容),页面和元素事件采集都有对应的内容。下面通过一些具体的例子来说明元素内容的具体规则。

  示例一

  

  最简单的例子就是上图中的“免费试用”按钮。A标签为叶子节点,内容为标签文本,即“免费试用”。

  2.示例2

  

  例2为图片,IMG标签也是叶子节点,内容为alt文本,即“提高注册转化率,降低获客成本”。

  3.示例三

  

  例3是提交按钮,INPUT标签也是叶子节点,内容是value属性,即“开始数据增长”。

  4.示例四

  

  例4不再是叶子节点,而是一个简单的按钮容器,里面的内容就是里面的文字,即“新建”。

  5.示例 5

  

  例5也是容器节点,因为A节点是空内容,而LI节点是倒数第二个节点,所以会是采集 LI节点。本来LI节点的内容是空的,但是因为设置了title属性,所以采集收到的内容就是title属性的值,即“上一页”。

  6.示例 6

  

  示例 6 与示例 5 相同,不同之处在于 title 属性被替换为 data-growth-title 属性。如果您不希望在用户将鼠标悬停在节点上后鼠标锚点显示文本,您可以使用数据增长标题而不是标题。

  7.示例 7

  

  Example 7的容器是采集,收录多个元素,如叶子节点IMG标签、H2标签,内容逻辑如Example 1和Example 2。作为倒数第二个节点,P标签也将是采集,其内容为内部文字内容,即“分析广告渠道转化率监控,以更低的成本获客”。

  8.示例 8

  

  例8和例7是同一个容器。在例7中,IMG标签、H2标签和P标签都是采集。例8中专门指出了A标签。A 标签与 BUTTON 标签相同。无论级别如何,它都会是 采集。这里A标签没有指定title属性,所以内容默认会使用href属性,即“/conversion”。

  还有一些额外的规则。详情请参考第二章第四节内容规则流程图。

  应用

  当我们知道了不同DOM结构采集的内容的不同逻辑后,内容有什么实际用途呢?

  在上一章的元素定义中,我们介绍了内容可用于匹配的规则和条件。例如,例如1,可以使用内容严格匹配“免费试用”按钮。这是一个很常见的应用场景。

  

  另一种常见的场景是将内容作为维度来查看不同内容的数据,比如博客列表页面,如下图所示。

  

  当我们在列表中圈出文章标题时,可以使用圈选项中的“相似元素”忽略内容和位置,定义为标签“Web_Technical Forum文章List Page_< @文章标题”。之后,以“元素内容”为维度,我们可以轻松得到不同文章标题的曝光率、点击率和点击率,了解文章在一定时间内的流行度.

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线