采集规则配置

优采云 发布时间: 2020-08-08 00:17

  1,说明

  [列表分析规则]是必填项,此项目用于从由[列表区域规则]确定的网页代码范围中分析文章项的URL,标题,缩略图和其他信息,请参见图5:

  

  (ͼʾ5)

  点击

  

  图标,可以测试[列表分析规则];

  2,标记区域

  [列表分析规则]有7个可用标签,请参见图5;

  1. 文章地址

  标记代码为必填项. 它用于指示文章条目的URL中的特征字符串. 在[Article URL Synthesis]处将用于确定文章的URL. [文章地址]标签只能使用一次,并且不能与其他标签连接;

  2,文章标题

  标记代码用于指示商品的标题. [article title]标签在规则中只能使用一次,不能与其他标签连接;

  如果列表分析规则中未使用此标记,则默认情况下,文章地址将显示为文章标题.

  此标签对应于数据项[title],并且可以在数据项[title]中进行更多设置.

  如果在数据项页面上设置了[title]数据项采集规则,则在发布文章时将使用从[title]数据项采集规则获取的文章标题;

  3. 缩略图

  标记代码用于指示与文章条目对应的缩略图的URL. [thumbnail]标签在规则中只能使用一次,不能连接到其他标签;

  此标签对应于数据项[thumbnail],并且可以在数据项[thumbnail]中进行更多设置.

  如果在数据项页面上设置了[thumbnail]数据项采集规则,则在发布文章时将使用从[thumbnail]数据项采集规则获得的文章标题;

  要使用[thumbnail]标记,请参阅采集规则示例-分页应用程序中的“逻辑方式-非主流-美”规则;

  4. 变量标签

  标记代码用于指示连续的,零到任意数量的不确定字符串,这些字符串不需要在源代码中采集. [variable tag]标签可以在规则中多次使用,并且不能与其他标签连接; </p

p使用的[variable tag]越多,采集效率就会越低;/p

p5. 附加信息标签/p

p有3个[附加信息]标签,可以选择. 标签代码分别用于采集列表中的更多信息. 它们只能在规则中使用一次,并且不能连接到其他标签;/p

p[附加信息]标记的值可用于数据排序./p

p有关标记的更多说明,请参见相关主题;/p

p3. 参考示例/p

p以ET官方论坛的“ ET2.0安装和使用”版本(网站)为例:/p

p1. 由[列表区域规则]的参考示例确定的源代码片段如下:/p

p2. 在上面的源代码中,我们可以获得URL和标题. 因此,在此示例中不使用[thumbnail]标签. 我们首先选择收录集合元素的代码,如下所示:/p

p关于“此Beta版本的试用期已过期,请使用正式版等”解决方案/p

pet1.4没有过期的Beta版本. 2.0一直是beta版./p

p3. 请仔细检查以上源代码. 您会注意到,上面示例中的两个商品条目的代码略有不同. 区别在于,第一条条目的A标签中有多个样式,因此在我们的规则中,为了与这一点兼容,请注意以下规则中的[variable tag],以下规则是: 如下:/p

p&extra = page%3D1“>

  4. 该规则可以获取文章条目,但是在使用规则测试工具进行测试后,我们发现它还获取了一些不需要的数据. 例如,它还与以下代码匹配:

  

  5. 我们将继续调整规则. 为了确保它仅与文章条目的功能匹配,我们需要为此规则代码找到一些功能源代码. 通过观察,我们发现在与前一条规则匹配的所有代码中,只有在文章条目中该代码才用SPAN标记,因此调整后的规则如下:

  “>&extra = page%3D1”>

  6. 经过测试,我们发现分析结果是完全正确的,并且[List Analysis Rule]已成功建立.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线