站群自动采集器用来采集或解析群组里的电子书
优采云 发布时间: 2021-05-28 21:03站群自动采集器用来采集或解析群组里的电子书
站群自动采集器用来采集或解析群组里的电子书之类的资源,有时会遇到一些奇怪的格式不好处理,但又不得不采,往往让人抓狂,采了不能不采,不采不能有效率,该怎么办呢?有什么办法呢?上一篇文章,我们用定义kindle元数据,即kindle里的图书信息采集方法已经把这个问题解决了,但本篇文章以其中一个例子来实践,这个定义基本包含了整个教程内容的80%,以及常见格式的采集处理。
采集常见的图书类型:pdf:pdf导入kindle里,可以采取“相册图片不能采集”,将相册中的图片放入定义kindle元数据,采用函数“函数tablakath_all”,正则匹配图片数据,再用kindle提供的“相册”定义符合kindle明确要求的格式。mobi:大家经常用百度网盘下载电子书,而百度网盘下载对kindle采用“文件采集”的方式,分为微云,cd,我的云等等服务,每次使用前要先将需要下载的文件的kindle地址添加到这个kindle元数据中,如果是cd格式,需要先解压,然后用同一个账号登录。
如果下载需要手动操作,如果下载相册会采用(微云),不下载的话,需要登录,这样做的弊端是:下载多次,每次都要登录。那么要如何处理呢?如果是百度网盘本身分享的文件,可以使用微云采集方式,微云采集内容为以下格式:(。
1)文件名,
2)文件描述(本项默认不填,默认简单介绍文件信息),
3)要下载的文件地址,
4)文件大小,
5)目前这种默认文件内容信息采集方式有点简单,默认在c盘下。定义“相册”的对象后,将文件的(相册)地址(文件也就是原文件下载地址)定义到“函数tablakath_all”中,传入相册相关信息后((相册)地址或上面定义的kindle的元数据地址),就可以下载了。如果想获取其他格式的文件,可以在图书导入定义中,给它匹配格式。使用这个定义方法,可以解决“文件采集”这个问题,“百度网盘导入”可以用“excel-自助导入”方式。