内容采集器(免登陆采集辅助插件IjkxsDatas2.采集器7.6企业旗舰版,赠配套typecho发布插件 )
优采云 发布时间: 2022-02-21 15:06内容采集器(免登陆采集辅助插件IjkxsDatas2.采集器7.6企业旗舰版,赠配套typecho发布插件
)
文章系列:
免费登录采集辅助插件IjkxsDatastypecho 优采云采集器 7.6企业终极版,免费配套typecho发布插件教你使用typecho 优采云@ >采集壁纸架
最近一直在找typecho的采集插件,看到很多都是收费的,主要是真的太贵了。对于没有收入的学生党来说,偶尔用起来根本买不起。所以我打算自己写一个插件,和老式的优采云一起使用。没想到用过一次,效果还蛮惊喜的。
以下是站长自己的采集壁纸站的教程。
工具:
1.采集插件typecho免费登录采集辅助插件IjkxsDatas
2.typecho 优采云采集器 7.6企业终极版,免费配套typecho发布插件
教程:
首先按照工具1安装typecho插件,按照工具2配置优采云采集配置。
然后启动官方 采集 壁纸,这次 采集 的壁纸站是 Enter 桌面。
总的来说,采集分为两大步。第一大步是先获取分页规则,第二大步是获取每个页面要解析的内容的详细地址。
1.打开优采云,新建群组壁纸,新建任务壁纸采集
在任务的第一步,我们首先需要添加起始URL,(以默认页面为例,当然选择不同的壁纸类别也是一样的),滚动页面,我们打开开发者工具调试,发现加载页面也可用。常规的。分页每次递增 1。
因此,我们可以构造一个解析地址,为采集地址选择多页,地址格式用通配符(*)代替页数,选择等差数列,第一项为1,项目数等于页数。构建完成后,点击添加完成。这样就完成了第一步。
接下来是第二大步骤,需要获取每个页面需要解析的具体详细地址。因为大多数分页负载都是缩略图。从开发者工具中可以看到一张图片的详细html结构。(如果没有,打开开发者工具,点击工具左上角的鼠标,点击网页中的图片。)
上图中a元素中的href属性就是我们想要的采集的详细地址,那么我们如何获取这个地址呢?最简单的是使用xpath。我们发现a被dl和dd元素包裹,dd被一个元素包裹。所以 xpath 可以这样写: //dl/dd/a/@href 。不知道xpath的可以百度一下,几分钟看看xpath的基本语法。
回到优采云,在获取多级URL的地方点击添加,输入xpath相关信息,如下图。这里也可以使用xpath浏览器获取xpath规则,不多介绍。
这样,URL采集就准备好了,可以点击右下角的测试URL采集查看效果。
2.接下来是采集的详细内容(图)
让我们打开一个刚刚采集 到达的详情页面,看看页面结构。
您可以看到标题的页面结构。大部分网页的标题结构都是一样的,编辑器已经默认配置好了,不用着急,有需要的可以加一些数据处理。
接下来添加内容。
方法一(老手):
这张图片有一个特殊的类名class="arc_main_pic_img",可以作为我们分析的起点。我们需要获取链接,也就是src="xxxxx"的部分,使用xpath很简单。//img[@class="arc_main_pic_img"],这样就可以得到对应的图片节点了。
双击采集内容规则左侧标签中的内容,填写如下。
方法2(新手):
双击采集的内容规则左侧标签中的内容,在打开的页面集合中点击Get data through 采集,选择Visual Extraction,点击Get through xpath browser
得到图片节点后,我们做一些数据处理,点击数据处理->添加->高级特征->提取第一张图片。
由于typecho使用Markdown解析,所以还需要对图片链接做一些处理,点击数据处理->添加->高级功能->内容添加前缀和后缀
因为 Markdown 语法要求图片格式为:
这样就完成了内容的添加。
采集 标签是类似的。一般在head->meta的位置,找到对应的节点,邮件拷贝,拷贝xpath。
添加数据处理
这样就完成了标签的 采集。
左边的选项卡只需要填写必要的选项。由于需要在本地下载图片,所以还需要填写一张图片列表(存放需要下载的图片链接)。
我们已经解析了图片,所以选择内容,点击复制,粘贴,修改标签名称为图片列表,删除数据处理中添加前缀和后缀的选项。
填写完基本内容后,在右侧规则测试中输入我们的详情链接,点击测试。
看到内容解析和格式正确后,就可以进行下一步了。
3. 发布内容设置
方案一:Web在线发布,如果没有内容,点击Web发布模式管理,按照
2.typecho 优采云采集器 7.6企业终极版,免费配套typecho发布插件
配置它。
配置完成后,您可以选择要发布的类别。
最后,保存并启动任务。