免规则采集器列表算法(豆瓣网图书列表为例如何修改字段名称?*如何操作)
优采云 发布时间: 2022-01-01 12:09免规则采集器列表算法(豆瓣网图书列表为例如何修改字段名称?*如何操作)
通过学习【02节采集单数据】:采集在单数据中,我们学会了如何从单个网页中抓取文本、图片、超链接等。对优采云“自定义采集”采集的数据有了初步的了解。本课将继续学习如何采集多个数据列表。
以下是豆瓣上的书单示例:
打开网页,可以看到很多结构相同的书单。每个书单都有相同的字段:书名、出版信息、评分、评论数、书介绍等。
我们将采集上面网页上的多个列表中的字段按照网页顺序保存为结构化数据如Excel,如下图:
在优采云中学习如何操作如下:示例地址:
采集列表数据的两种方法:
方法一:智能识别
在列表类网页上,优采云支持智能识别,自动识别列表数据。使用智能识别,只需输入网址即可自动获取列表数据。
具体操作如下:输入网址
在起始页输入框输入目标URL,点击下一步,优采云会自动打开网页,自动识别列表页数据。
方法二:手动选择列表
注意:有一些网站,一个页面有几个列表项,优采云通过智能分析,自动匹配常用的列表数据,如果匹配的数据不是我们需要的,那么我们就要手动选择列表了。
如何手动选择列表?
** 如何修改字段名称? **
选择字段/右键单击/修改名称
三:采集数据和导出
点击下一步开始采集,选择合适的导出方式导出数据。导出(发布)多种格式,包括TXT、CSV、Excel、AccessMySQL、SQLServer、SQLite,发布到网站接口(Api),这里导出为Excel。
数据示例:
通过上面的学习,我们可以使用优采云采集一个完整的列表数据,或者自定义选择列表数据。为进一步深入研究奠定基础。