文章采集规则(添加采集规则规则说明系统(系统默认变量：文章序号))

优采云发布时间: 2021-09-01 22:05

　　添加采集规则。规则描述系统默认变量：-文章序号，-章节序号，-文章子序号，-章节子序号。系统标签 * 可以替换任何字符串。系统标签！可以替换除此之外的任何字符串。系统标签~可以替换除'"以外的任何字符串。系统标签^可以替换数字和以外的字符串。系统标签$可以替换数字字符串。在采集规则中，需要获取四个内容部分而不是上面的系统标签，比如!!!!!! 基本设置网站logo configs\article\collectsite.php中添加的logo，随便填写即可，一般是采集的域名缩写站点，以区别于其他规则。例如：feiku网站名所采集站的名称。例如：Feiku网站Address所采集站的地址。例如：文章子序列号计算方法不一定要加，我这里就直接用了留空支持四种使用记号的算术运算（+加法，-减法，*乘法，/除法，%余数）本章子序列计算方法不用加，我这里留空。（谁知道他的一个文件夹里有多少本书？他没有把它放在一起按照规则，我不是采集不）它支持使用标签的四种算术运算（+add、-subtract、*multiply、/division、%取余数）。代理服务器地址不使用代理服务器请留空。代理服务器端口。当现有章节无法对应时，是否全部清除。 Re采集是否根据需要选择是否将采集到的文章设置为整本书。是否根据您的需要选择，如果选择“是”“无论文章是连载还是完成，都会在您的站点上显示整个文本。建议选择“否”将HTTP_REFERER标志发送到突破反采集设置。默认选择是否为“是”，不知道是干什么用的，我先突破选择“是”，然后再说对方的网页编码（自动检测GB2312 UTF8 BIG5）默认“自动检测”编码与本站不同会自动尝试转换文章信息页采集标准文章信息页地址图书信息页面URL，使用图书ID代替。例如：/Index.html 文章title采集规则要求检查网页的源文件，如果没有，可以停止。检查信息页的源文件，然后找到文章源文件中的title在哪里（我们以飞酷为例，即c盘上源文件中“文章Title”的位置章节信息页）。这里以《我的美丽*敏*感*词*》为例，找到标题附近的代码是

　　《美丽的女人》

　　把上面的代码复制到文章title采集rules的框里，然后把我美女的真实头衔换成！！！！当然，你也可以用** **等其他替换符号来替换它，但重要的是范围越小，越能表达意思越好（习惯问题，当然只能是采集到文章的标题，但是当你不想要的时候还有其他的采集。李兴宇这里是使用采集的内容，但是144238只对这个文章有用，而且其他文章有其他数字，所以用任意数字String $代替。所以作者采集rule是！！！@文章型采集全球都市从上面两个采集rules，不难看出看到这里的规则是!!!!!!

0

2021-09-01

文章采集规则

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集规则(添加采集规则规则说明系统(系统默认变量：文章序号))

0 个评论

发起人

AI时代内容工厂

文章采集规则(添加采集规则规则说明系统(系统默认变量：文章序号))

0 个评论

发起人

相关问题