不用采集规则就可以采集(如下配置采集规则示范数据整理搜索结果)

优采云 发布时间: 2021-11-22 17:06

  不用采集规则就可以采集(如下配置采集规则示范数据整理搜索结果)

  有时,我们只需要部分列表页面的内容。比如我们要采集百度的某个关键词搜索结果,我们只需要标题、网址、介绍等内容。或者我们认为采集是一个短信栏,它的列表页收录了我们需要的短信内容。

  一、

  如果我们希望列表中的每一项都单独发布,那么配置采集规则如下:

  1、按照正常采集配置列表URL,自动列表,列表设置中的列表区域;

  2、列出分析规则。如果采集的内容不需要URL,则使用文章地址将任意采集标记为字符串;如果我们需要除了标题和网址采集其他内容,比如介绍,我们可以使用thumbnail标签来采集;

  

  3、文章 URL合成,这里填写一个快速访问的URL,或者本地站点的URL;

  

  4.1、 在ET3中,可以使用指定的方式调用列表数据;

  

  4.2、在ET2中,您可以使用数据排序将列表数据分配给数据项。数据排序中有【列表数据】标记,可以引用从列表中获取的标题、文章 URL、缩略图等数据。因此,我们可以在它们对应的数据排序中创建新的数据项、引用标题、文章 URL、缩略图等数据,并将它们分解或合并为我们要发布的内容。下面三张图演示了缩略图数据给文本数据项赋值。

  

  (1、文本数据项的采集规则填写任意文本)

  

  (2、在文本的数据排序中使用列表数据标记)

  

  (3、使用参数标签或变量标签将文本数据项的内容替换为列表的缩略图内容)

  5、其他同一般采集规则;

  6、在发布规则中要注意数据项名称和发布参数名称的正确对应关系;

  

  这样就可以将列表中的内容一一发布采集。

  二、

  如果我们需要一次性发布采集的内容,那么配置采集规则如下:

  1、List URL,随便填一个访问速度快的网页,或者填一个本地txt文件的地址;

  2、 自动列表和列表区域不需要设置;

  3、列表分析,对列表URL中填写的地址内容设置一个简单的规则,使用文章地址标签,文章地址标签的分析结果可以是任意内容,因为它不会被使用,但是这个分析规则必须是有效的。文章地址标签最好只匹配一个结果(如果有多个结果,可以在采集Configuration-Basic Settings采集中设置条目数为1);

  4、文章 URL合成,这里填写你要采集的列表页面的URL;

  5、对列表中的每一项使用文本数据项和其他数据项采集,可以全部收录,也可以选择匹配多个项;

  6、 如果有多个list URL,可以使用body page设置采集;

  7、其他配置同一般采集规则;

  完成此配置后,整个列表将作为 文章 发布。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线