操作方法:数据采集中快速获取列表页数据方法
优采云 发布时间: 2020-12-30 08:18操作方法:数据采集中快速获取列表页数据方法
在优采云采集平台中,可以通过列表提取器快速提取多个详细信息页面链接。共有三个主要配置步骤:
1、单击“重置当前字段”按钮以重新启动配置;
2、用鼠标单击采集的链接(标题),只需单击两个不同的链接,系统将自动选择其他类似的链接;
3、检查文章链接地址是否在页面左下角的“数据预览”下列出。如果存在,则配置正确。如果没有,请再次单击,直到出现链接。
URL 采集配置结果示例:
详细的使用步骤:
1.清除旧配置
在通过智能向导创建任务期间或之后,如果URL 采集规则不正确,则可以打开“列表提取器”进行修改。
单击列表提取器右上方的[重置当前字段配置]按钮,然后单击[确定]清除现有配置:
2.单击页面上采集的链接
使用鼠标单击您要采集的链接(标题),只需单击两个不同的链接,系统就会自动选择其他类似的链接。
单击两次后,检查文章链接地址是否在页面左下角的“数据预览”下列出。如果存在,则配置正确。如果不是,请再次单击,直到出现链接。 (如果没有出现链接,请检查列表页面配置中的常见问题和解决方法)
(可选)URL 采集规则通用性测试:如果任务配置有采集个多个列表页面(例如翻页),则单击“典型列表页面URL”的输入框,其他将从列表页面URL的下拉列表中出现,只需选择一个或两个不同的链接即可继续进行。
高级配置说明:列表提取器只能配置一个url字段,并且默认选中“仅获取URL”和“自动选择相似元素”功能。
列表页面配置中的常见问题和解决方案I.如果无法单击链接该怎么办?
解决方案主要分为四种情况:
重新选择,移动和更改所选区域,缩小或放大。或者注意灵活性并选择其他位置来实现相同的目标。如果列表中有“阅读全文”链接;
手动修改“当前字段xpath”:列表详细信息链接xpath通常以/ a或a / kds结尾。如果不是这种情况,则可以删除最后一个。 (/ Kds,此删除或保留不会影响);
如果所需区域的内容为空,则可以尝试选中“使用JS动态数据”来动态加载页面;
列表提取器获取特殊链接URL(例如onclick属性),单击以查看详细的教程;
II。列表提取器的入口?
列表提取器有两个主要入口:
快速进入任务列表;
任务基本信息页面的入口;