免规则采集器列表算法(规则采集对源站的规则和两种方式自动采集需要使用 )

优采云发布时间: 2022-03-19 06:15

　　免规则采集器列表算法(规则采集对源站的规则和两种方式自动采集需要使用

)

　　规则采集

　　源站规则采集有两种方式

　　自动采集

　　自动采集需要使用 Tampermonkey (opens new window) 脚本 — Magnetic Search Auto采集 (opens new window)。

　　打开浏览器的开发者工具，进入源站搜索页面，右上角会多出一个采集按钮，可以在控制台分析页面并打印出所有版本的解析规则.

　　Auto采集已经收录了大部分字段，部分字段（如名称、图标、代理等）需要根据实际情况手动调整。

　　如果自动采集的结果不起作用，那么需要

　　手册采集

　　以磁果为例，先定义源站信息

　　那么源站信息部分的JSON如下：

　　{

"id": "ciliguo",

"name": "磁力果",

"url": "https://ciliguo.cc",

"icon": "https://ciliguo.cc/favicon.ico",

"proxy": true,

"paths": {

"preset": "/search?q={k}&p={p}"

}

　　打开开发者工具进入搜索页面，定位单个条目的最外层节点，复制XPath得到 //*[@id="__layout"]/div/div[1]/div[2] /div[1]/div/div[1]，作为group的原创表达式。

　　可以看到节点的类是card mb-4，那么可以优化为 //div[@class=\"card mb-4\"] 作为最终的组表达式。

　　找到名称节点并获取完整的 XPath//*[@id="__layout"]/div/div[1]/div[2]/div[1]/div/div[1]/div[ 1 ]/div[1]/a/span，但是这里只需要name部分，所以还需要删除group原来的表达式，加上路径字符./，那么name的表达式就是./div[ 1]/div [1]/a

　　其他字段也用同样的操作得到

　　所以最终的规则如下：

　　{

"id": "ciliguo",

"name": "磁力果",

"url": "https://ciliguo.cc",

"icon": "https://ciliguo.cc/favicon.ico",

"proxy": true,

"paths": {

"preset": "/search?q={k}&p={p}"

},

"xpath": {

"group": "//div[@class=\"card mb-4\"]",

"magnet": "./div[1]/div[2]/div/button[1]/@data-src",

"name": "./div[1]/div[1]/a",

"size": "./div[2]/div/div[1]/small[2]/span",

"date": "./div[2]/div/div[1]/small[1]/span",

"hot": "./div[2]/div/div[1]/small[3]/span",

"detail": {

"files": "//div[@class=\"card mt-4 mb-4 card-info\"]/div[2]/div[1]/div/div[1]/span"

}

0

2022-03-19

免规则采集器列表算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

免规则采集器列表算法(规则采集对源站的规则和两种方式自动采集需要使用 )

0 个评论

发起人

AI时代内容工厂

免规则采集器列表算法(规则采集对源站的规则和两种方式自动采集需要使用 )

0 个评论

发起人

相关问题