免规则采集器列表算法(规则采集对源站的规则和两种方式自动采集需要使用 )

优采云 发布时间: 2022-03-19 06:15

  免规则采集器列表算法(规则采集对源站的规则和两种方式自动采集需要使用

)

  规则采集

  源站规则采集有两种方式

  自动采集

  自动采集 需要使用 Tampermonkey (opens new window) 脚本 — Magnetic Search Auto采集 (opens new window)。

  打开浏览器的开发者工具,进入源站搜索页面,右上角会多出一个采集按钮,可以在控制台分析页面并打印出所有版本的解析规则.

  Auto采集已经收录了大部分字段,部分字段(如名称、图标、代理等)需要根据实际情况手动调整。

  

  如果自动采集的结果不起作用,那么需要

  手册采集

  以磁果为例,先定义源站信息

  

  那么源站信息部分的JSON如下:

  {

"id": "ciliguo",

"name": "磁力果",

"url": "https://ciliguo.cc",

"icon": "https://ciliguo.cc/favicon.ico",

"proxy": true,

"paths": {

"preset": "/search?q={k}&p={p}"

}

}

  打开开发者工具进入搜索页面,定位单个条目的最外层节点,复制XPath得到 //*[@id="__layout"]/div/div[1]/div[2] /div[1]/div/div[1],作为group的原创表达式。

  可以看到节点的类是card mb-4,那么可以优化为 //div[@class=\"card mb-4\"] 作为最终的组表达式。

  

  找到名称节点并获取完整的 XPath//*[@id="__layout"]/div/div[1]/div[2]/div[1]/div/div[1]/div[ 1 ]/div[1]/a/span,但是这里只需要name部分,所以还需要删除group原来的表达式,加上路径字符./,那么name的表达式就是./div[ 1]/div [1]/a

  

  其他字段也用同样的操作得到

  所以最终的规则如下:

  {

"id": "ciliguo",

"name": "磁力果",

"url": "https://ciliguo.cc",

"icon": "https://ciliguo.cc/favicon.ico",

"proxy": true,

"paths": {

"preset": "/search?q={k}&p={p}"

},

"xpath": {

"group": "//div[@class=\"card mb-4\"]",

"magnet": "./div[1]/div[2]/div/button[1]/@data-src",

"name": "./div[1]/div[1]/a",

"size": "./div[2]/div/div[1]/small[2]/span",

"date": "./div[2]/div/div[1]/small[1]/span",

"hot": "./div[2]/div/div[1]/small[3]/span",

"detail": {

"files": "//div[@class=\"card mt-4 mb-4 card-info\"]/div[2]/div[1]/div/div[1]/span"

}

}

}

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线