免规则采集器列表算法(优采云采集平台列表提取器快速提取多个详情页链接的方法 )

优采云 发布时间: 2021-08-29 04:11

  免规则采集器列表算法(优采云采集平台列表提取器快速提取多个详情页链接的方法

)

  在优采云采集平台,可以通过列表提取器快速提取多个详情页链接。配置主要分为三个步骤:

  1、点击“重置当前字段”按钮重新开始配置;

  2、用鼠标点击你想要采集的链接(标题),只需点击两个不同的链接,系统会自动选择其他相似的链接;

  3、 检查页面左下角“数据预览”下是否列出了文章链接地址。如果有,则配置正确。如果没有,请再次单击,直到出现链接。

  URL采集配置结果示例:

  

  详细使用步骤:

  1.清除旧配置

  在智能向导创建任务期间或之后,如果URL采集规则不正确,您可以打开“列表提取器”进行修改。

  点击列表提取器右上角的【重置当前字段配置】按钮,点击【确定】清除现有配置:

  

  2.点击页面上的采集链接

  用鼠标点击你想要采集的链接(标题),只需点击两个不同的链接,系统会自动选择其他相似的链接。

  点击两次后,查看页面左下角“数据预览”下是否列出了文章链接地址。如果有,则配置正确。如果没有,请再次单击,直到出现链接。 (如果没有出现链接,请查看列表页面配置常见问题及解决方法)

  

  (可选)URL采集Rule 通用性测试:如果任务配置了多个列表页面采集(如翻页),可以点击'Typical List Page URL'输入框,其他会出现在列表页面的URL下拉列表中,可以随机选择一两个不同的链接。

  高级配置说明:列表提取器只能配置一个url字段,默认勾选“仅获取URL”和“自动选择相似元素”功能。

  列表页面配置常见问题及解决方法一、无法点击链接怎么办?

  解决方案主要分为四种情况:

  重新选择、移动和更改选定区域,缩小或放大。或者注意灵活性,选择其他位置以实现相同的目标。如果列表中有“阅读全文”链接;

  手动修改“当前字段xpath”:列表详情链接xpath通常以/a或a/kds结尾。如果您发现情况并非如此,您可以删除最后的其他人。 (/Kds 此删除或保留不会影响);

  如果所需区域的内容为空,可以尝试勾选“使用JS动态数据”动态加载页面;

  列表提取器获取特殊链接网址(如onclick属性中),点击查看详细教程;

  二。列表提取器的入口?

  列表提取器有两个主要入口:

  快速进入任务列表;

  任务基本信息页面入口;

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线