文章采集规则(第一节:内容规则回顾第2章第4节What(内容) )
优采云 发布时间: 2021-12-10 12:08文章采集规则(第一节:内容规则回顾第2章第4节What(内容)
)
第 1 部分:内容规则
回顾第2章第4节What(内容),页面和元素事件采集都有对应的内容。下面通过一些具体的例子来说明元素内容的具体规则。
示例一
最简单的例子就是上图中的“免费试用”按钮。A标签为叶子节点,内容为标签文本,即“免费试用”。
2.示例2
例2为图片,IMG标签也是叶子节点,内容为alt文本,即“提高注册转化率,降低获客成本”。
3.示例三
例3是提交按钮,INPUT标签也是叶子节点,内容是value属性,即“开始数据增长”。
4.示例四
例4不再是叶子节点,而是一个简单的按钮容器,里面的内容就是里面的文字,即“新建”。
5.示例 5
例5也是容器节点,因为A节点是空内容,而LI节点是倒数第二个节点,所以会是采集 LI节点。本来LI节点的内容是空的,但是因为设置了title属性,所以采集收到的内容就是title属性的值,即“上一页”。
6.示例 6
示例 6 与示例 5 相同,不同之处在于 title 属性被替换为 data-growth-title 属性。如果您不希望在用户将鼠标悬停在节点上后鼠标锚点显示文本,您可以使用数据增长标题而不是标题。
7.示例 7
Example 7的容器是采集,收录多个元素,如叶子节点IMG标签、H2标签,内容逻辑如Example 1和Example 2。作为倒数第二个节点,P标签也将是采集,其内容为内部文字内容,即“分析广告渠道转化率监控,以更低的成本获客”。
8.示例 8
例8和例7是同一个容器。在例7中,IMG标签、H2标签和P标签都是采集。例8中专门指出了A标签。A 标签与 BUTTON 标签相同。无论级别如何,它都会是 采集。这里A标签没有指定title属性,所以内容默认会使用href属性,即“/conversion”。
还有一些额外的规则。详情请参考第二章第四节内容规则流程图。
应用
当我们知道了不同DOM结构采集的内容的不同逻辑后,内容有什么实际用途呢?
在上一章的元素定义中,我们介绍了内容可用于匹配的规则和条件。例如,例如1,可以使用内容严格匹配“免费试用”按钮。这是一个很常见的应用场景。
另一种常见的场景是将内容作为维度来查看不同内容的数据,比如博客列表页面,如下图所示。
当我们在列表中圈出文章标题时,可以使用圈选项中的“相似元素”忽略内容和位置,定义为标签“Web_Technical Forum文章List Page_< @文章标题”。之后,以“元素内容”为维度,我们可以轻松得到不同文章标题的曝光率、点击率和点击率,了解文章在一定时间内的流行度.