采集规则配置
优采云 发布时间: 2020-08-08 00:171,说明
[列表分析规则]是必填项,此项目用于从由[列表区域规则]确定的网页代码范围中分析文章项的URL,标题,缩略图和其他信息,请参见图5:
(ͼʾ5)
点击
图标,可以测试[列表分析规则];
2,标记区域
[列表分析规则]有7个可用标签,请参见图5;
1. 文章地址
标记代码为必填项. 它用于指示文章条目的URL中的特征字符串. 在[Article URL Synthesis]处将用于确定文章的URL. [文章地址]标签只能使用一次,并且不能与其他标签连接;
2,文章标题
标记代码用于指示商品的标题. [article title]标签在规则中只能使用一次,不能与其他标签连接;
如果列表分析规则中未使用此标记,则默认情况下,文章地址将显示为文章标题.
此标签对应于数据项[title],并且可以在数据项[title]中进行更多设置.
如果在数据项页面上设置了[title]数据项采集规则,则在发布文章时将使用从[title]数据项采集规则获取的文章标题;
3. 缩略图
标记代码用于指示与文章条目对应的缩略图的URL. [thumbnail]标签在规则中只能使用一次,不能连接到其他标签;
此标签对应于数据项[thumbnail],并且可以在数据项[thumbnail]中进行更多设置.
如果在数据项页面上设置了[thumbnail]数据项采集规则,则在发布文章时将使用从[thumbnail]数据项采集规则获得的文章标题;
要使用[thumbnail]标记,请参阅采集规则示例-分页应用程序中的“逻辑方式-非主流-美”规则;
4. 变量标签
标记代码用于指示连续的,零到任意数量的不确定字符串,这些字符串不需要在源代码中采集. [variable tag]标签可以在规则中多次使用,并且不能与其他标签连接; </p
p使用的[variable tag]越多,采集效率就会越低;/p
p5. 附加信息标签/p
p有3个[附加信息]标签,可以选择. 标签代码分别用于采集列表中的更多信息. 它们只能在规则中使用一次,并且不能连接到其他标签;/p
p[附加信息]标记的值可用于数据排序./p
p有关标记的更多说明,请参见相关主题;/p
p3. 参考示例/p
p以ET官方论坛的“ ET2.0安装和使用”版本(网站)为例:/p
p1. 由[列表区域规则]的参考示例确定的源代码片段如下:/p
p2. 在上面的源代码中,我们可以获得URL和标题. 因此,在此示例中不使用[thumbnail]标签. 我们首先选择收录集合元素的代码,如下所示:/p
p关于“此Beta版本的试用期已过期,请使用正式版等”解决方案/p
pet1.4没有过期的Beta版本. 2.0一直是beta版./p
p3. 请仔细检查以上源代码. 您会注意到,上面示例中的两个商品条目的代码略有不同. 区别在于,第一条条目的A标签中有多个样式,因此在我们的规则中,为了与这一点兼容,请注意以下规则中的[variable tag],以下规则是: 如下:/p
p&extra = page%3D1“>
4. 该规则可以获取文章条目,但是在使用规则测试工具进行测试后,我们发现它还获取了一些不需要的数据. 例如,它还与以下代码匹配:
5. 我们将继续调整规则. 为了确保它仅与文章条目的功能匹配,我们需要为此规则代码找到一些功能源代码. 通过观察,我们发现在与前一条规则匹配的所有代码中,只有在文章条目中该代码才用SPAN标记,因此调整后的规则如下:
“>&extra = page%3D1”>
6. 经过测试,我们发现分析结果是完全正确的,并且[List Analysis Rule]已成功建立.