采集自动组合(网页中表格数据指什么样子?如何做到批量采集100页或1000页)
优采云 发布时间: 2022-02-14 05:13采集自动组合(网页中表格数据指什么样子?如何做到批量采集100页或1000页)
看起来需要这种需求的人很少,但我想你总有一天会有需求的。
网页中的表格数据指的是什么?
例如,这就是我今天要举的一个例子:
本产品成分表为表格数据。
我们一般使用优采云采集器difficulty采集这样的数据,并保持原有结构。
还有优采云采集器,可以智能识别表格数据和采集,但是很多网站认不出来,上面这个例子我认不出来,所以导致 采集 失败。
但其实excel里面有个功能是采集在网页中形成,但是缺点是每次只有采集一页,怎么批量采集100或者1000数据页?你不能一个一个地手动完成,对吧?
试了又试,最后还是用了excel的采集表格功能。不过,我先采集将这100或1000页的内容组成一个页面。用excel识别后就可以了。
以下是步骤:
1:优采云采集器采集 必填页面
例如,我首先 采集 到这些页面的 URL。
2、然后整理出来导入到优采云采集器
这里注意一定要作为一级页面使用,否则会自动采集下级页面,老版本的优采云采集器没有这个问题。
3、然后使用表格部分的html代码
这里我们使用最简单的前后截取方式,采集获取内容,我们来测试一下
获得这样的内容正是我们所需要的。
4、批次采集
然后保存任务并批处理采集。
5、采集完成
新版本优采云采集器默认本地保存为sqlite数据库。没有旧版本的access数据库,所以不能在office用access打开,但是可以用navicat导入。
链接到 sqlite,然后选择我们 采集 到的 db3 文件,打开并确认。
获取以下数据。
6、合并来自 采集 的数据
如果不合并数据库中的数据,也很简单,直接导出excel。
可以合并excel吗?即使没有,也只需选择该列并直接复制即可。
然后我们贴出来看看。
获取这样的内容。
直接保存为 html 文件到桌面。
7、Excel 识别为表格数据
我们在excel-new query-from 网站中选择数据(我的excel版本用的是红框那个按钮不好用)
然后填写刚才的html文件的本地地址,确认
Excel 将识别多种样式的数据,只需选择您想要的一种即可。
8、最终结果
我们得到的最终渲染是这样的,因为我只有 采集72 页,得到了 1600 行数据。
到目前为止,你已经完成了。