免规则采集器列表算法(规则采集对源站的规则和两种方式自动采集需要使用 )
优采云 发布时间: 2022-03-19 06:15免规则采集器列表算法(规则采集对源站的规则和两种方式自动采集需要使用
)
规则采集
源站规则采集有两种方式
自动采集
自动采集 需要使用 Tampermonkey (opens new window) 脚本 — Magnetic Search Auto采集 (opens new window)。
打开浏览器的开发者工具,进入源站搜索页面,右上角会多出一个采集按钮,可以在控制台分析页面并打印出所有版本的解析规则.
Auto采集已经收录了大部分字段,部分字段(如名称、图标、代理等)需要根据实际情况手动调整。
如果自动采集的结果不起作用,那么需要
手册采集
以磁果为例,先定义源站信息
那么源站信息部分的JSON如下:
{
"id": "ciliguo",
"name": "磁力果",
"url": "https://ciliguo.cc",
"icon": "https://ciliguo.cc/favicon.ico",
"proxy": true,
"paths": {
"preset": "/search?q={k}&p={p}"
}
}
打开开发者工具进入搜索页面,定位单个条目的最外层节点,复制XPath得到 //*[@id="__layout"]/div/div[1]/div[2] /div[1]/div/div[1],作为group的原创表达式。
可以看到节点的类是card mb-4,那么可以优化为 //div[@class=\"card mb-4\"] 作为最终的组表达式。
找到名称节点并获取完整的 XPath//*[@id="__layout"]/div/div[1]/div[2]/div[1]/div/div[1]/div[ 1 ]/div[1]/a/span,但是这里只需要name部分,所以还需要删除group原来的表达式,加上路径字符./,那么name的表达式就是./div[ 1]/div [1]/a
其他字段也用同样的操作得到
所以最终的规则如下:
{
"id": "ciliguo",
"name": "磁力果",
"url": "https://ciliguo.cc",
"icon": "https://ciliguo.cc/favicon.ico",
"proxy": true,
"paths": {
"preset": "/search?q={k}&p={p}"
},
"xpath": {
"group": "//div[@class=\"card mb-4\"]",
"magnet": "./div[1]/div[2]/div/button[1]/@data-src",
"name": "./div[1]/div[1]/a",
"size": "./div[2]/div/div[1]/small[2]/span",
"date": "./div[2]/div/div[1]/small[1]/span",
"hot": "./div[2]/div/div[1]/small[3]/span",
"detail": {
"files": "//div[@class=\"card mt-4 mb-4 card-info\"]/div[2]/div[1]/div/div[1]/span"
}
}
}