网页采集器的自动识别算法(新手入门3——单网页列表详情页采集(8.3版本) )
优采云 发布时间: 2021-10-03 04:17网页采集器的自动识别算法(新手入门3——单网页列表详情页采集(8.3版本)
)
入门3-单网页列表详情页采集(8.3版)
本教程将向您展示如何采集单个网页列表的详细信息中的数据。目的是让大家了解如何创建循环点击进入详情页,规范采集详情页的数据信息。
本教程中提到的例子网站的地址为:/guide/demo/navmovies2.html
比如这个网址里面有很多电影,我们需要点击每部电影进入详情页采集电影剧情、上映时间等字段。
针对这种需求,我们采用【自动识别】进行数据采集,或者手动模式,点击页面生成采集流程。下面我们介绍一下【自动识别】的采集方法。
步骤1 登录优采云8.3采集器→点击输入框输入采集的网址→点击开始采集。进入任务配置页面,程序会自动进行智能识别。
如果点击开始采集,不进行自动识别,请点击下方操作提示中的【自动识别网页】。此外,在设置中,您可以启用每次打开网页时的自动识别。
步骤2 自动识别完成后,可以切换到识别结果。找到最合适的需求后,也可以对字段进行调整,调整后点击【生成采集设置】。
Step 3 由于我们需要采集,点击后每部电影的详细数据。因此,生成采集配置后,点击【采集一级网页数据】。
步骤4 进入电影详情页面后,观察识别结果是否符合要求,如果不符合则切换识别结果。或者删除所选字段并再次从页面添加新字段。如果您不满意,您可以单击[取消],然后从页面添加新字段。
Step 4 提取完成后,我们可以在数据预览中点击字段名,然后修改字段名。这里的字段名相当于header,便于采集时区分各个字段类别。
在下图界面修改字段名称,修改完成后点击“保存”保存
步骤5 点击“采集”,在弹出的对话框中选择“启动本地采集”
系统会在本地计算机上启动一个采集任务和采集数据。任务采集完成后,会弹出提示采集,然后选择导出数据。选择Export Excel 作为示例,然后单击OK。然后选择文件存储路径,然后单击“保存”。这样,我们最终需要的数据就得到了。
下面是数据的一个例子