网页采集器的自动识别算法(新手入门3——单网页列表详情页采集（8.3版本） )

优采云发布时间: 2021-10-03 04:17

　　网页采集器的自动识别算法(新手入门3——单网页列表详情页采集（8.3版本）

)

　　入门3-单网页列表详情页采集（8.3版）

　　本教程将向您展示如何采集单个网页列表的详细信息中的数据。目的是让大家了解如何创建循环点击进入详情页，规范采集详情页的数据信息。

　　本教程中提到的例子网站的地址为：/guide/demo/navmovies2.html

　　比如这个网址里面有很多电影，我们需要点击每部电影进入详情页采集电影剧情、上映时间等字段。

　　针对这种需求，我们采用【自动识别】进行数据采集，或者手动模式，点击页面生成采集流程。下面我们介绍一下【自动识别】的采集方法。

　　步骤1 登录优采云8.3采集器→点击输入框输入采集的网址→点击开始采集。进入任务配置页面，程序会自动进行智能识别。

　　如果点击开始采集，不进行自动识别，请点击下方操作提示中的【自动识别网页】。此外，在设置中，您可以启用每次打开网页时的自动识别。

　　步骤2 自动识别完成后，可以切换到识别结果。找到最合适的需求后，也可以对字段进行调整，调整后点击【生成采集设置】。

　　Step 3 由于我们需要采集，点击后每部电影的详细数据。因此，生成采集配置后，点击【采集一级网页数据】。

　　步骤4 进入电影详情页面后，观察识别结果是否符合要求，如果不符合则切换识别结果。或者删除所选字段并再次从页面添加新字段。如果您不满意，您可以单击[取消]，然后从页面添加新字段。

　　Step 4 提取完成后，我们可以在数据预览中点击字段名，然后修改字段名。这里的字段名相当于header，便于采集时区分各个字段类别。

　　在下图界面修改字段名称，修改完成后点击“保存”保存

　　步骤5 点击“采集”，在弹出的对话框中选择“启动本地采集”

　　系统会在本地计算机上启动一个采集任务和采集数据。任务采集完成后，会弹出提示采集，然后选择导出数据。选择Export Excel 作为示例，然后单击OK。然后选择文件存储路径，然后单击“保存”。这样，我们最终需要的数据就得到了。

　　下面是数据的一个例子

0

2021-10-03

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册