
网页小说抓取 ios
网页小说抓取 ios(红薯中文网网页版存在CSS伪类样式反爬,怎么办?)
网站优化 • 优采云 发表了文章 • 0 个评论 • 320 次浏览 • 2021-10-08 19:25
网页小说抓取 ios(红薯中文网网页版存在CSS伪类样式反爬,怎么办?)
快过年了,好久没写文章了。我们今天要练习的网站是红书中文网站的网页版,手机版网站有CSS伪样式。爬吧,下次给大家解释一下。
目标分析
甘薯中文网站网站版的反爬虫主要在于小说的文字内容,所以我们可以找一本小说进行分析。值得注意的是,甘薯中文网在小说正文页禁用了鼠标右键。检查页面元素(Ctrl+Shift+I)或查看网页源代码(Ctrl+U)我们可以使用Chrome浏览器的快捷键:
在元素中呈现的页面
通过查看网页元素,我们可以发现浏览器渲染的数据没有出现乱码,说明没有我们上次讲的字体爬取。我们来看一下网页的源代码:
网页源代码
我们可以发现网页的源代码中并没有我们想要的数据,如果我们学过Django和Flask,可以发现网页使用了类似Django和Flask的模板语言。其实这就是前端模板语言,这也说明页面数据可能是通过ajax请求的,然后通过前端模板语言渲染到网页上。因此,我们可以使用 F12 来抓取和分析网页,然后找到这个请求数据:
Ajax 请求数据
我们找到了这个获取数据的请求,但是我们发现这个响应的json数据中加密了小说的内容。我们稍后会分析和处理这种加密。我们来分析一下获取这个Ajax请求所需的参数:
Ajax 请求详细信息
我们发现这个请求没有任何加密参数。至于post提交的参数,我们可以在小说目录页面上获取,这里就不多说了,通过postman模拟请求,我们也可以发现headers里面的参数其实并不是全部必需的:
邮递员模拟请求
既然拿到这个ajax请求是没有问题的,那我们就需要逆向破解小说的正文,因为这个请求是一个ajax请求,所以我们可以通过XHR/fetch Breakpoints进行调试,在XHR/fetch中添加断点名称断点并填写bookajax .do(加密文件名),然后刷新网页:
调试 Ajax 请求
然后我们按F10一步步调试,直到找到解密的小说内容:
解密前的代码
解密前的数据内容
解密后
解密后的数据内容
可以发现 data.content = utf8to16(hs_decrypt(base64decode(data.content), key)); 这段代码是解密的关键,为了找到解密方法,我们按照前面的分析方法分析解密函数,我们发现解密依赖于utf8to16函数,hs_decrypt函数(注意里面还有str2long和long2str函数这个我们需要获取的函数)、base64decode函数和key:
base64decode 函数.png
hs_decrypt 函数.png
然后我们把key反了,发现重新调试的key是在我们生成小说内容之前生成的:
反向键
我们还可以看到这个获取网络密钥的请求:
抓包请求中的key
获取内容的ajax api接口和之前一样,只是formdata提交的参数不同。这里就不介绍了。你可以自己研究一下,找到所有的解密依赖。我们可以分析解密逻辑或者用python js运行。该库用于运行js。由于时间问题,我不会研究解密逻辑。我直接使用js运行库。解密
至于发送请求获取密钥和加密内容的请求代码,我就不写了。解密代码我直接贴出来。如果需要,可以自己完成其余代码:
<p>import execjs
utf_to_changes = r"""
function utf8to16(str) {
var out, i, len, c;
var char2, char3;
out = "";
len = str.length;
i = 0;
while (i < len) {
c = str.charCodeAt(i++);
switch (c >> 4) {
case 0:
case 1:
case 2:
case 3:
case 4:
case 5:
case 6:
case 7:
out += str.charAt(i - 1);
break;
case 12:
case 13:
char2 = str.charCodeAt(i++);
out += String.fromCharCode(((c & 0x1F) 0; p--) {
z = v[p - 1];
mx = (z >>> 5 ^ y >> 3 ^ z >> 5 ^ y >> 3 ^ z >> 8 & 0xff, v[i] >>> 16 & 0xff, v[i] >>> 24 & 0xff);
}
if (w) {
return v.join('').substring(0, sl);
} else {
return v.join('');
}
}
function str2long(s, w) {
var len = s.length;
var v = [];
for (var i = 0; i < len; i += 4) {
v[i >> 2] = s.charCodeAt(i) | s.charCodeAt(i + 1) 查看全部
快过年了,好久没写文章了。我们今天要练习的网站是红书中文网站的网页版,手机版网站有CSS伪样式。爬吧,下次给大家解释一下。
目标分析
甘薯中文网站网站版的反爬虫主要在于小说的文字内容,所以我们可以找一本小说进行分析。值得注意的是,甘薯中文网在小说正文页禁用了鼠标右键。检查页面元素(Ctrl+Shift+I)或查看网页源代码(Ctrl+U)我们可以使用Chrome浏览器的快捷键:
在元素中呈现的页面
通过查看网页元素,我们可以发现浏览器渲染的数据没有出现乱码,说明没有我们上次讲的字体爬取。我们来看一下网页的源代码:
网页源代码
我们可以发现网页的源代码中并没有我们想要的数据,如果我们学过Django和Flask,可以发现网页使用了类似Django和Flask的模板语言。其实这就是前端模板语言,这也说明页面数据可能是通过ajax请求的,然后通过前端模板语言渲染到网页上。因此,我们可以使用 F12 来抓取和分析网页,然后找到这个请求数据:
Ajax 请求数据
我们找到了这个获取数据的请求,但是我们发现这个响应的json数据中加密了小说的内容。我们稍后会分析和处理这种加密。我们来分析一下获取这个Ajax请求所需的参数:
Ajax 请求详细信息
我们发现这个请求没有任何加密参数。至于post提交的参数,我们可以在小说目录页面上获取,这里就不多说了,通过postman模拟请求,我们也可以发现headers里面的参数其实并不是全部必需的:
邮递员模拟请求
既然拿到这个ajax请求是没有问题的,那我们就需要逆向破解小说的正文,因为这个请求是一个ajax请求,所以我们可以通过XHR/fetch Breakpoints进行调试,在XHR/fetch中添加断点名称断点并填写bookajax .do(加密文件名),然后刷新网页:
调试 Ajax 请求
然后我们按F10一步步调试,直到找到解密的小说内容:
解密前的代码
解密前的数据内容
解密后
解密后的数据内容
可以发现 data.content = utf8to16(hs_decrypt(base64decode(data.content), key)); 这段代码是解密的关键,为了找到解密方法,我们按照前面的分析方法分析解密函数,我们发现解密依赖于utf8to16函数,hs_decrypt函数(注意里面还有str2long和long2str函数这个我们需要获取的函数)、base64decode函数和key:
base64decode 函数.png
hs_decrypt 函数.png
然后我们把key反了,发现重新调试的key是在我们生成小说内容之前生成的:
反向键
我们还可以看到这个获取网络密钥的请求:
抓包请求中的key
获取内容的ajax api接口和之前一样,只是formdata提交的参数不同。这里就不介绍了。你可以自己研究一下,找到所有的解密依赖。我们可以分析解密逻辑或者用python js运行。该库用于运行js。由于时间问题,我不会研究解密逻辑。我直接使用js运行库。解密
至于发送请求获取密钥和加密内容的请求代码,我就不写了。解密代码我直接贴出来。如果需要,可以自己完成其余代码:
<p>import execjs
utf_to_changes = r"""
function utf8to16(str) {
var out, i, len, c;
var char2, char3;
out = "";
len = str.length;
i = 0;
while (i < len) {
c = str.charCodeAt(i++);
switch (c >> 4) {
case 0:
case 1:
case 2:
case 3:
case 4:
case 5:
case 6:
case 7:
out += str.charAt(i - 1);
break;
case 12:
case 13:
char2 = str.charCodeAt(i++);
out += String.fromCharCode(((c & 0x1F) 0; p--) {
z = v[p - 1];
mx = (z >>> 5 ^ y >> 3 ^ z >> 5 ^ y >> 3 ^ z >> 8 & 0xff, v[i] >>> 16 & 0xff, v[i] >>> 24 & 0xff);
}
if (w) {
return v.join('').substring(0, sl);
} else {
return v.join('');
}
}
function str2long(s, w) {
var len = s.length;
var v = [];
for (var i = 0; i < len; i += 4) {
v[i >> 2] = s.charCodeAt(i) | s.charCodeAt(i + 1) 查看全部
网页小说抓取 ios(红薯中文网网页版存在CSS伪类样式反爬,怎么办?)
快过年了,好久没写文章了。我们今天要练习的网站是红书中文网站的网页版,手机版网站有CSS伪样式。爬吧,下次给大家解释一下。
目标分析
甘薯中文网站网站版的反爬虫主要在于小说的文字内容,所以我们可以找一本小说进行分析。值得注意的是,甘薯中文网在小说正文页禁用了鼠标右键。检查页面元素(Ctrl+Shift+I)或查看网页源代码(Ctrl+U)我们可以使用Chrome浏览器的快捷键:
在元素中呈现的页面
通过查看网页元素,我们可以发现浏览器渲染的数据没有出现乱码,说明没有我们上次讲的字体爬取。我们来看一下网页的源代码:
网页源代码
我们可以发现网页的源代码中并没有我们想要的数据,如果我们学过Django和Flask,可以发现网页使用了类似Django和Flask的模板语言。其实这就是前端模板语言,这也说明页面数据可能是通过ajax请求的,然后通过前端模板语言渲染到网页上。因此,我们可以使用 F12 来抓取和分析网页,然后找到这个请求数据:
Ajax 请求数据
我们找到了这个获取数据的请求,但是我们发现这个响应的json数据中加密了小说的内容。我们稍后会分析和处理这种加密。我们来分析一下获取这个Ajax请求所需的参数:
Ajax 请求详细信息
我们发现这个请求没有任何加密参数。至于post提交的参数,我们可以在小说目录页面上获取,这里就不多说了,通过postman模拟请求,我们也可以发现headers里面的参数其实并不是全部必需的:
邮递员模拟请求
既然拿到这个ajax请求是没有问题的,那我们就需要逆向破解小说的正文,因为这个请求是一个ajax请求,所以我们可以通过XHR/fetch Breakpoints进行调试,在XHR/fetch中添加断点名称断点并填写bookajax .do(加密文件名),然后刷新网页:
调试 Ajax 请求
然后我们按F10一步步调试,直到找到解密的小说内容:
解密前的代码
解密前的数据内容
解密后
解密后的数据内容
可以发现 data.content = utf8to16(hs_decrypt(base64decode(data.content), key)); 这段代码是解密的关键,为了找到解密方法,我们按照前面的分析方法分析解密函数,我们发现解密依赖于utf8to16函数,hs_decrypt函数(注意里面还有str2long和long2str函数这个我们需要获取的函数)、base64decode函数和key:
base64decode 函数.png
hs_decrypt 函数.png
然后我们把key反了,发现重新调试的key是在我们生成小说内容之前生成的:
反向键
我们还可以看到这个获取网络密钥的请求:
抓包请求中的key
获取内容的ajax api接口和之前一样,只是formdata提交的参数不同。这里就不介绍了。你可以自己研究一下,找到所有的解密依赖。我们可以分析解密逻辑或者用python js运行。该库用于运行js。由于时间问题,我不会研究解密逻辑。我直接使用js运行库。解密
至于发送请求获取密钥和加密内容的请求代码,我就不写了。解密代码我直接贴出来。如果需要,可以自己完成其余代码:
<p>import execjs
utf_to_changes = r"""
function utf8to16(str) {
var out, i, len, c;
var char2, char3;
out = "";
len = str.length;
i = 0;
while (i < len) {
c = str.charCodeAt(i++);
switch (c >> 4) {
case 0:
case 1:
case 2:
case 3:
case 4:
case 5:
case 6:
case 7:
out += str.charAt(i - 1);
break;
case 12:
case 13:
char2 = str.charCodeAt(i++);
out += String.fromCharCode(((c & 0x1F) 0; p--) {
z = v[p - 1];
mx = (z >>> 5 ^ y >> 3 ^ z >> 5 ^ y >> 3 ^ z >> 8 & 0xff, v[i] >>> 16 & 0xff, v[i] >>> 24 & 0xff);
}
if (w) {
return v.join('').substring(0, sl);
} else {
return v.join('');
}
}
function str2long(s, w) {
var len = s.length;
var v = [];
for (var i = 0; i < len; i += 4) {
v[i >> 2] = s.charCodeAt(i) | s.charCodeAt(i + 1)
网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))
网站优化 • 优采云 发表了文章 • 0 个评论 • 335 次浏览 • 2021-10-03 19:23
网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))
本站提供绿色免费版山垦网页【小说抢下载工具】TXT采集器软件免费下载。
【软件截图】
【基本介绍】
山垦网页TXT采集器采用全新正则表达式小说爬取下载必备工具,支持下载小说整章并存为txt文件程序,可实时预览内容,确保下载资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。
功能模块介绍
1、规则布局设置:
①在规则设置窗口,随便找一篇网站的文章,不写任何规则,先用鼠标点击实时预览,看看能不能拿到网页的源码,再写规则如果你可以的话。如果你不能得到它,就没有必要继续。
②规则设置使用正则表达式匹配内容。最好有一定的基础。如果你没有基础,你可以参考给出的例子。学习起来并不复杂,对规律性也没有深入研究的要求。
③设置规则时,目录页和内容页需要分开预览,也需要两个链接,一个目录页链接和一个内容页链接。
④ 与换货有关,有一般换货和定制换货之分。目前不需要正则化。普通更换就好了。一定要提醒的是,必须输入值,空格就OK了。删除:选择整行,然后按住删除键。当内置的\n 用作替换数据消息时,表示换行。
⑤编码(将信息从一种形式或格式转换成另一种形式或格式的过程),目前只设置了GBK和UFT-8,几乎大部分网站都是这两种编码中的一种。
2、解析下载
①要进行分析,请按“分析地址 2”按钮。按钮1目前是任性的,不想被删除,以后会开发其他功能。
②支持单章下载和全文下载。
③支持添加章节号【部分小说无章节号时可以查看】
④ 支持在线观看,但需要联网。该功能只是辅助(可以模拟人工手动操作,实现自动查杀、自动挂机等),并非专业的小说阅读软件。
⑤显示下载进度和总时间,内置多线程。
3、关于软件
①其实只要.exe就够了,规则都是我自己加的,commonrule.xml里面有通用的替换规则。网站规则在规则文件夹中。我在里面放了两条网站规则,主要是为了测试。其他网站规则,可以自己添加,或者支持开发者。
②软件未打包,c#开发,不含病毒。别担心,请不要使用它,我不会收回它。
③关于软件中跳转到论坛,我亲自测试跳转时,提示360,也可能是跳转到360浏览器的原因。不知道你会不会遇到这个问题。
④如果不知道xml中的内容,千万不要碰,以免软件识别失败报错。
山垦网页【小说爬取下载工具】TXT采集器特别说明:
山垦网页TXT采集器采用全新正则表达式小说抓取下载工具,支持将小说整章下载并保存为txt文件,并可实时预览内容,确保下载的资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。 查看全部
本站提供绿色免费版山垦网页【小说抢下载工具】TXT采集器软件免费下载。
【软件截图】
【基本介绍】
山垦网页TXT采集器采用全新正则表达式小说爬取下载必备工具,支持下载小说整章并存为txt文件程序,可实时预览内容,确保下载资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。
功能模块介绍
1、规则布局设置:
①在规则设置窗口,随便找一篇网站的文章,不写任何规则,先用鼠标点击实时预览,看看能不能拿到网页的源码,再写规则如果你可以的话。如果你不能得到它,就没有必要继续。
②规则设置使用正则表达式匹配内容。最好有一定的基础。如果你没有基础,你可以参考给出的例子。学习起来并不复杂,对规律性也没有深入研究的要求。
③设置规则时,目录页和内容页需要分开预览,也需要两个链接,一个目录页链接和一个内容页链接。
④ 与换货有关,有一般换货和定制换货之分。目前不需要正则化。普通更换就好了。一定要提醒的是,必须输入值,空格就OK了。删除:选择整行,然后按住删除键。当内置的\n 用作替换数据消息时,表示换行。
⑤编码(将信息从一种形式或格式转换成另一种形式或格式的过程),目前只设置了GBK和UFT-8,几乎大部分网站都是这两种编码中的一种。
2、解析下载
①要进行分析,请按“分析地址 2”按钮。按钮1目前是任性的,不想被删除,以后会开发其他功能。
②支持单章下载和全文下载。
③支持添加章节号【部分小说无章节号时可以查看】
④ 支持在线观看,但需要联网。该功能只是辅助(可以模拟人工手动操作,实现自动查杀、自动挂机等),并非专业的小说阅读软件。
⑤显示下载进度和总时间,内置多线程。
3、关于软件
①其实只要.exe就够了,规则都是我自己加的,commonrule.xml里面有通用的替换规则。网站规则在规则文件夹中。我在里面放了两条网站规则,主要是为了测试。其他网站规则,可以自己添加,或者支持开发者。
②软件未打包,c#开发,不含病毒。别担心,请不要使用它,我不会收回它。
③关于软件中跳转到论坛,我亲自测试跳转时,提示360,也可能是跳转到360浏览器的原因。不知道你会不会遇到这个问题。
④如果不知道xml中的内容,千万不要碰,以免软件识别失败报错。
山垦网页【小说爬取下载工具】TXT采集器特别说明:
山垦网页TXT采集器采用全新正则表达式小说抓取下载工具,支持将小说整章下载并保存为txt文件,并可实时预览内容,确保下载的资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。 查看全部
网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))
本站提供绿色免费版山垦网页【小说抢下载工具】TXT采集器软件免费下载。
【软件截图】

【基本介绍】
山垦网页TXT采集器采用全新正则表达式小说爬取下载必备工具,支持下载小说整章并存为txt文件程序,可实时预览内容,确保下载资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。
功能模块介绍
1、规则布局设置:
①在规则设置窗口,随便找一篇网站的文章,不写任何规则,先用鼠标点击实时预览,看看能不能拿到网页的源码,再写规则如果你可以的话。如果你不能得到它,就没有必要继续。
②规则设置使用正则表达式匹配内容。最好有一定的基础。如果你没有基础,你可以参考给出的例子。学习起来并不复杂,对规律性也没有深入研究的要求。
③设置规则时,目录页和内容页需要分开预览,也需要两个链接,一个目录页链接和一个内容页链接。
④ 与换货有关,有一般换货和定制换货之分。目前不需要正则化。普通更换就好了。一定要提醒的是,必须输入值,空格就OK了。删除:选择整行,然后按住删除键。当内置的\n 用作替换数据消息时,表示换行。
⑤编码(将信息从一种形式或格式转换成另一种形式或格式的过程),目前只设置了GBK和UFT-8,几乎大部分网站都是这两种编码中的一种。
2、解析下载
①要进行分析,请按“分析地址 2”按钮。按钮1目前是任性的,不想被删除,以后会开发其他功能。
②支持单章下载和全文下载。
③支持添加章节号【部分小说无章节号时可以查看】
④ 支持在线观看,但需要联网。该功能只是辅助(可以模拟人工手动操作,实现自动查杀、自动挂机等),并非专业的小说阅读软件。
⑤显示下载进度和总时间,内置多线程。
3、关于软件
①其实只要.exe就够了,规则都是我自己加的,commonrule.xml里面有通用的替换规则。网站规则在规则文件夹中。我在里面放了两条网站规则,主要是为了测试。其他网站规则,可以自己添加,或者支持开发者。
②软件未打包,c#开发,不含病毒。别担心,请不要使用它,我不会收回它。
③关于软件中跳转到论坛,我亲自测试跳转时,提示360,也可能是跳转到360浏览器的原因。不知道你会不会遇到这个问题。
④如果不知道xml中的内容,千万不要碰,以免软件识别失败报错。
山垦网页【小说爬取下载工具】TXT采集器特别说明:
山垦网页TXT采集器采用全新正则表达式小说抓取下载工具,支持将小说整章下载并保存为txt文件,并可实时预览内容,确保下载的资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。
网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))
网站优化 • 优采云 发表了文章 • 0 个评论 • 167 次浏览 • 2021-09-24 23:09
网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))
本站提供绿色免费版山垦网页【小说抢下载工具】TXT采集器软件免费下载。
【软件截图】
【基本介绍】
山垦网页TXT采集器采用全新正则表达式小说爬取下载必备工具,支持下载小说整章并存为txt文件程序,可实时预览内容,确保下载资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。
功能模块介绍
1、规则布局设置:
①在规则设置窗口,随便找一篇网站的文章,不写任何规则,先用鼠标点击实时预览,看看能不能拿到网页的源码,再写规则如果你可以的话。如果你不能得到它,就没有必要继续。
②规则设置使用正则表达式匹配内容。最好有一定的基础。如果你没有基础,你可以参考给出的例子。在简单学习下,对规律性的深度学习没有要求。
③设置规则时,目录页和内容页需要分开预览,也需要两个链接,一个目录页链接和一个内容页链接。
④ 与换货有关,有一般换货和定制换货之分。目前不需要正则化。正常更换没问题。需要提醒的是,一定要输入一个值,一个空格也可以。删除:选择整行,然后按住删除键。当内置的\n 用作替换数据消息时,表示换行。
⑤编码(将信息从一种形式或格式转换为另一种形式或格式的过程),目前只设置了GBK和UFT-8,几乎大多数网站是这两种编码中的一种。
2、解析下载
①要进行分析,请按“分析地址 2”按钮。按钮1目前是任性的,不想被删除,以后会开发其他功能。
②支持单章下载和全文下载。
③支持添加章节号【部分小说无章节号时可以查看】
④ 支持在线观看,但需要联网。该功能只是辅助(可以模拟人工手动操作,实现自动杀怪、自动挂机等),并非专业的小说阅读软件。
⑤显示下载进度和总时间,内置多线程。
3、关于软件
①其实只要.exe就够了,规则都是我自己加的,commonrule.xml中收录了通用的替换规则。网站规则在规则文件夹中。我在里面放了两条网站规则,主要是为了测试。其他网站规则,可以自己添加,或者支持开发者。
②软件未打包,c#开发,不含病毒。别担心,请不要使用它,我不会收回它。
③关于软件中跳转到论坛,我亲自测试跳转时,提示360,也可能是跳转到360浏览器的原因。不知道你会不会遇到这个问题。
④如果不知道xml中的内容,千万不要碰,以免软件识别失败报错。
山垦网页【小说爬取下载工具】TXT采集器特别说明:
山垦网页TXT采集器采用全新正则表达式小说抓取下载工具,支持下载小说整章并保存为txt文件,并可实时预览内容,保证下载的资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。 查看全部
本站提供绿色免费版山垦网页【小说抢下载工具】TXT采集器软件免费下载。
【软件截图】
【基本介绍】
山垦网页TXT采集器采用全新正则表达式小说爬取下载必备工具,支持下载小说整章并存为txt文件程序,可实时预览内容,确保下载资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。
功能模块介绍
1、规则布局设置:
①在规则设置窗口,随便找一篇网站的文章,不写任何规则,先用鼠标点击实时预览,看看能不能拿到网页的源码,再写规则如果你可以的话。如果你不能得到它,就没有必要继续。
②规则设置使用正则表达式匹配内容。最好有一定的基础。如果你没有基础,你可以参考给出的例子。在简单学习下,对规律性的深度学习没有要求。
③设置规则时,目录页和内容页需要分开预览,也需要两个链接,一个目录页链接和一个内容页链接。
④ 与换货有关,有一般换货和定制换货之分。目前不需要正则化。正常更换没问题。需要提醒的是,一定要输入一个值,一个空格也可以。删除:选择整行,然后按住删除键。当内置的\n 用作替换数据消息时,表示换行。
⑤编码(将信息从一种形式或格式转换为另一种形式或格式的过程),目前只设置了GBK和UFT-8,几乎大多数网站是这两种编码中的一种。
2、解析下载
①要进行分析,请按“分析地址 2”按钮。按钮1目前是任性的,不想被删除,以后会开发其他功能。
②支持单章下载和全文下载。
③支持添加章节号【部分小说无章节号时可以查看】
④ 支持在线观看,但需要联网。该功能只是辅助(可以模拟人工手动操作,实现自动杀怪、自动挂机等),并非专业的小说阅读软件。
⑤显示下载进度和总时间,内置多线程。
3、关于软件
①其实只要.exe就够了,规则都是我自己加的,commonrule.xml中收录了通用的替换规则。网站规则在规则文件夹中。我在里面放了两条网站规则,主要是为了测试。其他网站规则,可以自己添加,或者支持开发者。
②软件未打包,c#开发,不含病毒。别担心,请不要使用它,我不会收回它。
③关于软件中跳转到论坛,我亲自测试跳转时,提示360,也可能是跳转到360浏览器的原因。不知道你会不会遇到这个问题。
④如果不知道xml中的内容,千万不要碰,以免软件识别失败报错。
山垦网页【小说爬取下载工具】TXT采集器特别说明:
山垦网页TXT采集器采用全新正则表达式小说抓取下载工具,支持下载小说整章并保存为txt文件,并可实时预览内容,保证下载的资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。 查看全部
网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))
本站提供绿色免费版山垦网页【小说抢下载工具】TXT采集器软件免费下载。
【软件截图】

【基本介绍】
山垦网页TXT采集器采用全新正则表达式小说爬取下载必备工具,支持下载小说整章并存为txt文件程序,可实时预览内容,确保下载资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。
功能模块介绍
1、规则布局设置:
①在规则设置窗口,随便找一篇网站的文章,不写任何规则,先用鼠标点击实时预览,看看能不能拿到网页的源码,再写规则如果你可以的话。如果你不能得到它,就没有必要继续。
②规则设置使用正则表达式匹配内容。最好有一定的基础。如果你没有基础,你可以参考给出的例子。在简单学习下,对规律性的深度学习没有要求。
③设置规则时,目录页和内容页需要分开预览,也需要两个链接,一个目录页链接和一个内容页链接。
④ 与换货有关,有一般换货和定制换货之分。目前不需要正则化。正常更换没问题。需要提醒的是,一定要输入一个值,一个空格也可以。删除:选择整行,然后按住删除键。当内置的\n 用作替换数据消息时,表示换行。
⑤编码(将信息从一种形式或格式转换为另一种形式或格式的过程),目前只设置了GBK和UFT-8,几乎大多数网站是这两种编码中的一种。
2、解析下载
①要进行分析,请按“分析地址 2”按钮。按钮1目前是任性的,不想被删除,以后会开发其他功能。
②支持单章下载和全文下载。
③支持添加章节号【部分小说无章节号时可以查看】
④ 支持在线观看,但需要联网。该功能只是辅助(可以模拟人工手动操作,实现自动杀怪、自动挂机等),并非专业的小说阅读软件。
⑤显示下载进度和总时间,内置多线程。
3、关于软件
①其实只要.exe就够了,规则都是我自己加的,commonrule.xml中收录了通用的替换规则。网站规则在规则文件夹中。我在里面放了两条网站规则,主要是为了测试。其他网站规则,可以自己添加,或者支持开发者。
②软件未打包,c#开发,不含病毒。别担心,请不要使用它,我不会收回它。
③关于软件中跳转到论坛,我亲自测试跳转时,提示360,也可能是跳转到360浏览器的原因。不知道你会不会遇到这个问题。
④如果不知道xml中的内容,千万不要碰,以免软件识别失败报错。
山垦网页【小说爬取下载工具】TXT采集器特别说明:
山垦网页TXT采集器采用全新正则表达式小说抓取下载工具,支持下载小说整章并保存为txt文件,并可实时预览内容,保证下载的资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。
网页小说抓取 ios(红薯中文网网页版存在CSS伪类样式反爬,怎么办?)
网站优化 • 优采云 发表了文章 • 0 个评论 • 320 次浏览 • 2021-10-08 19:25
网页小说抓取 ios(红薯中文网网页版存在CSS伪类样式反爬,怎么办?)
快过年了,好久没写文章了。我们今天要练习的网站是红书中文网站的网页版,手机版网站有CSS伪样式。爬吧,下次给大家解释一下。
目标分析
甘薯中文网站网站版的反爬虫主要在于小说的文字内容,所以我们可以找一本小说进行分析。值得注意的是,甘薯中文网在小说正文页禁用了鼠标右键。检查页面元素(Ctrl+Shift+I)或查看网页源代码(Ctrl+U)我们可以使用Chrome浏览器的快捷键:
在元素中呈现的页面
通过查看网页元素,我们可以发现浏览器渲染的数据没有出现乱码,说明没有我们上次讲的字体爬取。我们来看一下网页的源代码:
网页源代码
我们可以发现网页的源代码中并没有我们想要的数据,如果我们学过Django和Flask,可以发现网页使用了类似Django和Flask的模板语言。其实这就是前端模板语言,这也说明页面数据可能是通过ajax请求的,然后通过前端模板语言渲染到网页上。因此,我们可以使用 F12 来抓取和分析网页,然后找到这个请求数据:
Ajax 请求数据
我们找到了这个获取数据的请求,但是我们发现这个响应的json数据中加密了小说的内容。我们稍后会分析和处理这种加密。我们来分析一下获取这个Ajax请求所需的参数:
Ajax 请求详细信息
我们发现这个请求没有任何加密参数。至于post提交的参数,我们可以在小说目录页面上获取,这里就不多说了,通过postman模拟请求,我们也可以发现headers里面的参数其实并不是全部必需的:
邮递员模拟请求
既然拿到这个ajax请求是没有问题的,那我们就需要逆向破解小说的正文,因为这个请求是一个ajax请求,所以我们可以通过XHR/fetch Breakpoints进行调试,在XHR/fetch中添加断点名称断点并填写bookajax .do(加密文件名),然后刷新网页:
调试 Ajax 请求
然后我们按F10一步步调试,直到找到解密的小说内容:
解密前的代码
解密前的数据内容
解密后
解密后的数据内容
可以发现 data.content = utf8to16(hs_decrypt(base64decode(data.content), key)); 这段代码是解密的关键,为了找到解密方法,我们按照前面的分析方法分析解密函数,我们发现解密依赖于utf8to16函数,hs_decrypt函数(注意里面还有str2long和long2str函数这个我们需要获取的函数)、base64decode函数和key:
base64decode 函数.png
hs_decrypt 函数.png
然后我们把key反了,发现重新调试的key是在我们生成小说内容之前生成的:
反向键
我们还可以看到这个获取网络密钥的请求:
抓包请求中的key
获取内容的ajax api接口和之前一样,只是formdata提交的参数不同。这里就不介绍了。你可以自己研究一下,找到所有的解密依赖。我们可以分析解密逻辑或者用python js运行。该库用于运行js。由于时间问题,我不会研究解密逻辑。我直接使用js运行库。解密
至于发送请求获取密钥和加密内容的请求代码,我就不写了。解密代码我直接贴出来。如果需要,可以自己完成其余代码:
<p>import execjs
utf_to_changes = r"""
function utf8to16(str) {
var out, i, len, c;
var char2, char3;
out = "";
len = str.length;
i = 0;
while (i < len) {
c = str.charCodeAt(i++);
switch (c >> 4) {
case 0:
case 1:
case 2:
case 3:
case 4:
case 5:
case 6:
case 7:
out += str.charAt(i - 1);
break;
case 12:
case 13:
char2 = str.charCodeAt(i++);
out += String.fromCharCode(((c & 0x1F) 0; p--) {
z = v[p - 1];
mx = (z >>> 5 ^ y >> 3 ^ z >> 5 ^ y >> 3 ^ z >> 8 & 0xff, v[i] >>> 16 & 0xff, v[i] >>> 24 & 0xff);
}
if (w) {
return v.join('').substring(0, sl);
} else {
return v.join('');
}
}
function str2long(s, w) {
var len = s.length;
var v = [];
for (var i = 0; i < len; i += 4) {
v[i >> 2] = s.charCodeAt(i) | s.charCodeAt(i + 1) 查看全部
快过年了,好久没写文章了。我们今天要练习的网站是红书中文网站的网页版,手机版网站有CSS伪样式。爬吧,下次给大家解释一下。
目标分析
甘薯中文网站网站版的反爬虫主要在于小说的文字内容,所以我们可以找一本小说进行分析。值得注意的是,甘薯中文网在小说正文页禁用了鼠标右键。检查页面元素(Ctrl+Shift+I)或查看网页源代码(Ctrl+U)我们可以使用Chrome浏览器的快捷键:
在元素中呈现的页面
通过查看网页元素,我们可以发现浏览器渲染的数据没有出现乱码,说明没有我们上次讲的字体爬取。我们来看一下网页的源代码:
网页源代码
我们可以发现网页的源代码中并没有我们想要的数据,如果我们学过Django和Flask,可以发现网页使用了类似Django和Flask的模板语言。其实这就是前端模板语言,这也说明页面数据可能是通过ajax请求的,然后通过前端模板语言渲染到网页上。因此,我们可以使用 F12 来抓取和分析网页,然后找到这个请求数据:
Ajax 请求数据
我们找到了这个获取数据的请求,但是我们发现这个响应的json数据中加密了小说的内容。我们稍后会分析和处理这种加密。我们来分析一下获取这个Ajax请求所需的参数:
Ajax 请求详细信息
我们发现这个请求没有任何加密参数。至于post提交的参数,我们可以在小说目录页面上获取,这里就不多说了,通过postman模拟请求,我们也可以发现headers里面的参数其实并不是全部必需的:
邮递员模拟请求
既然拿到这个ajax请求是没有问题的,那我们就需要逆向破解小说的正文,因为这个请求是一个ajax请求,所以我们可以通过XHR/fetch Breakpoints进行调试,在XHR/fetch中添加断点名称断点并填写bookajax .do(加密文件名),然后刷新网页:
调试 Ajax 请求
然后我们按F10一步步调试,直到找到解密的小说内容:
解密前的代码
解密前的数据内容
解密后
解密后的数据内容
可以发现 data.content = utf8to16(hs_decrypt(base64decode(data.content), key)); 这段代码是解密的关键,为了找到解密方法,我们按照前面的分析方法分析解密函数,我们发现解密依赖于utf8to16函数,hs_decrypt函数(注意里面还有str2long和long2str函数这个我们需要获取的函数)、base64decode函数和key:
base64decode 函数.png
hs_decrypt 函数.png
然后我们把key反了,发现重新调试的key是在我们生成小说内容之前生成的:
反向键
我们还可以看到这个获取网络密钥的请求:
抓包请求中的key
获取内容的ajax api接口和之前一样,只是formdata提交的参数不同。这里就不介绍了。你可以自己研究一下,找到所有的解密依赖。我们可以分析解密逻辑或者用python js运行。该库用于运行js。由于时间问题,我不会研究解密逻辑。我直接使用js运行库。解密
至于发送请求获取密钥和加密内容的请求代码,我就不写了。解密代码我直接贴出来。如果需要,可以自己完成其余代码:
<p>import execjs
utf_to_changes = r"""
function utf8to16(str) {
var out, i, len, c;
var char2, char3;
out = "";
len = str.length;
i = 0;
while (i < len) {
c = str.charCodeAt(i++);
switch (c >> 4) {
case 0:
case 1:
case 2:
case 3:
case 4:
case 5:
case 6:
case 7:
out += str.charAt(i - 1);
break;
case 12:
case 13:
char2 = str.charCodeAt(i++);
out += String.fromCharCode(((c & 0x1F) 0; p--) {
z = v[p - 1];
mx = (z >>> 5 ^ y >> 3 ^ z >> 5 ^ y >> 3 ^ z >> 8 & 0xff, v[i] >>> 16 & 0xff, v[i] >>> 24 & 0xff);
}
if (w) {
return v.join('').substring(0, sl);
} else {
return v.join('');
}
}
function str2long(s, w) {
var len = s.length;
var v = [];
for (var i = 0; i < len; i += 4) {
v[i >> 2] = s.charCodeAt(i) | s.charCodeAt(i + 1) 查看全部
网页小说抓取 ios(红薯中文网网页版存在CSS伪类样式反爬,怎么办?)
快过年了,好久没写文章了。我们今天要练习的网站是红书中文网站的网页版,手机版网站有CSS伪样式。爬吧,下次给大家解释一下。
目标分析
甘薯中文网站网站版的反爬虫主要在于小说的文字内容,所以我们可以找一本小说进行分析。值得注意的是,甘薯中文网在小说正文页禁用了鼠标右键。检查页面元素(Ctrl+Shift+I)或查看网页源代码(Ctrl+U)我们可以使用Chrome浏览器的快捷键:
在元素中呈现的页面
通过查看网页元素,我们可以发现浏览器渲染的数据没有出现乱码,说明没有我们上次讲的字体爬取。我们来看一下网页的源代码:
网页源代码
我们可以发现网页的源代码中并没有我们想要的数据,如果我们学过Django和Flask,可以发现网页使用了类似Django和Flask的模板语言。其实这就是前端模板语言,这也说明页面数据可能是通过ajax请求的,然后通过前端模板语言渲染到网页上。因此,我们可以使用 F12 来抓取和分析网页,然后找到这个请求数据:
Ajax 请求数据
我们找到了这个获取数据的请求,但是我们发现这个响应的json数据中加密了小说的内容。我们稍后会分析和处理这种加密。我们来分析一下获取这个Ajax请求所需的参数:
Ajax 请求详细信息
我们发现这个请求没有任何加密参数。至于post提交的参数,我们可以在小说目录页面上获取,这里就不多说了,通过postman模拟请求,我们也可以发现headers里面的参数其实并不是全部必需的:
邮递员模拟请求
既然拿到这个ajax请求是没有问题的,那我们就需要逆向破解小说的正文,因为这个请求是一个ajax请求,所以我们可以通过XHR/fetch Breakpoints进行调试,在XHR/fetch中添加断点名称断点并填写bookajax .do(加密文件名),然后刷新网页:
调试 Ajax 请求
然后我们按F10一步步调试,直到找到解密的小说内容:
解密前的代码
解密前的数据内容
解密后
解密后的数据内容
可以发现 data.content = utf8to16(hs_decrypt(base64decode(data.content), key)); 这段代码是解密的关键,为了找到解密方法,我们按照前面的分析方法分析解密函数,我们发现解密依赖于utf8to16函数,hs_decrypt函数(注意里面还有str2long和long2str函数这个我们需要获取的函数)、base64decode函数和key:
base64decode 函数.png
hs_decrypt 函数.png
然后我们把key反了,发现重新调试的key是在我们生成小说内容之前生成的:
反向键
我们还可以看到这个获取网络密钥的请求:
抓包请求中的key
获取内容的ajax api接口和之前一样,只是formdata提交的参数不同。这里就不介绍了。你可以自己研究一下,找到所有的解密依赖。我们可以分析解密逻辑或者用python js运行。该库用于运行js。由于时间问题,我不会研究解密逻辑。我直接使用js运行库。解密
至于发送请求获取密钥和加密内容的请求代码,我就不写了。解密代码我直接贴出来。如果需要,可以自己完成其余代码:
<p>import execjs
utf_to_changes = r"""
function utf8to16(str) {
var out, i, len, c;
var char2, char3;
out = "";
len = str.length;
i = 0;
while (i < len) {
c = str.charCodeAt(i++);
switch (c >> 4) {
case 0:
case 1:
case 2:
case 3:
case 4:
case 5:
case 6:
case 7:
out += str.charAt(i - 1);
break;
case 12:
case 13:
char2 = str.charCodeAt(i++);
out += String.fromCharCode(((c & 0x1F) 0; p--) {
z = v[p - 1];
mx = (z >>> 5 ^ y >> 3 ^ z >> 5 ^ y >> 3 ^ z >> 8 & 0xff, v[i] >>> 16 & 0xff, v[i] >>> 24 & 0xff);
}
if (w) {
return v.join('').substring(0, sl);
} else {
return v.join('');
}
}
function str2long(s, w) {
var len = s.length;
var v = [];
for (var i = 0; i < len; i += 4) {
v[i >> 2] = s.charCodeAt(i) | s.charCodeAt(i + 1)
网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))
网站优化 • 优采云 发表了文章 • 0 个评论 • 335 次浏览 • 2021-10-03 19:23
网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))
本站提供绿色免费版山垦网页【小说抢下载工具】TXT采集器软件免费下载。
【软件截图】
【基本介绍】
山垦网页TXT采集器采用全新正则表达式小说爬取下载必备工具,支持下载小说整章并存为txt文件程序,可实时预览内容,确保下载资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。
功能模块介绍
1、规则布局设置:
①在规则设置窗口,随便找一篇网站的文章,不写任何规则,先用鼠标点击实时预览,看看能不能拿到网页的源码,再写规则如果你可以的话。如果你不能得到它,就没有必要继续。
②规则设置使用正则表达式匹配内容。最好有一定的基础。如果你没有基础,你可以参考给出的例子。学习起来并不复杂,对规律性也没有深入研究的要求。
③设置规则时,目录页和内容页需要分开预览,也需要两个链接,一个目录页链接和一个内容页链接。
④ 与换货有关,有一般换货和定制换货之分。目前不需要正则化。普通更换就好了。一定要提醒的是,必须输入值,空格就OK了。删除:选择整行,然后按住删除键。当内置的\n 用作替换数据消息时,表示换行。
⑤编码(将信息从一种形式或格式转换成另一种形式或格式的过程),目前只设置了GBK和UFT-8,几乎大部分网站都是这两种编码中的一种。
2、解析下载
①要进行分析,请按“分析地址 2”按钮。按钮1目前是任性的,不想被删除,以后会开发其他功能。
②支持单章下载和全文下载。
③支持添加章节号【部分小说无章节号时可以查看】
④ 支持在线观看,但需要联网。该功能只是辅助(可以模拟人工手动操作,实现自动查杀、自动挂机等),并非专业的小说阅读软件。
⑤显示下载进度和总时间,内置多线程。
3、关于软件
①其实只要.exe就够了,规则都是我自己加的,commonrule.xml里面有通用的替换规则。网站规则在规则文件夹中。我在里面放了两条网站规则,主要是为了测试。其他网站规则,可以自己添加,或者支持开发者。
②软件未打包,c#开发,不含病毒。别担心,请不要使用它,我不会收回它。
③关于软件中跳转到论坛,我亲自测试跳转时,提示360,也可能是跳转到360浏览器的原因。不知道你会不会遇到这个问题。
④如果不知道xml中的内容,千万不要碰,以免软件识别失败报错。
山垦网页【小说爬取下载工具】TXT采集器特别说明:
山垦网页TXT采集器采用全新正则表达式小说抓取下载工具,支持将小说整章下载并保存为txt文件,并可实时预览内容,确保下载的资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。 查看全部
本站提供绿色免费版山垦网页【小说抢下载工具】TXT采集器软件免费下载。
【软件截图】
【基本介绍】
山垦网页TXT采集器采用全新正则表达式小说爬取下载必备工具,支持下载小说整章并存为txt文件程序,可实时预览内容,确保下载资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。
功能模块介绍
1、规则布局设置:
①在规则设置窗口,随便找一篇网站的文章,不写任何规则,先用鼠标点击实时预览,看看能不能拿到网页的源码,再写规则如果你可以的话。如果你不能得到它,就没有必要继续。
②规则设置使用正则表达式匹配内容。最好有一定的基础。如果你没有基础,你可以参考给出的例子。学习起来并不复杂,对规律性也没有深入研究的要求。
③设置规则时,目录页和内容页需要分开预览,也需要两个链接,一个目录页链接和一个内容页链接。
④ 与换货有关,有一般换货和定制换货之分。目前不需要正则化。普通更换就好了。一定要提醒的是,必须输入值,空格就OK了。删除:选择整行,然后按住删除键。当内置的\n 用作替换数据消息时,表示换行。
⑤编码(将信息从一种形式或格式转换成另一种形式或格式的过程),目前只设置了GBK和UFT-8,几乎大部分网站都是这两种编码中的一种。
2、解析下载
①要进行分析,请按“分析地址 2”按钮。按钮1目前是任性的,不想被删除,以后会开发其他功能。
②支持单章下载和全文下载。
③支持添加章节号【部分小说无章节号时可以查看】
④ 支持在线观看,但需要联网。该功能只是辅助(可以模拟人工手动操作,实现自动查杀、自动挂机等),并非专业的小说阅读软件。
⑤显示下载进度和总时间,内置多线程。
3、关于软件
①其实只要.exe就够了,规则都是我自己加的,commonrule.xml里面有通用的替换规则。网站规则在规则文件夹中。我在里面放了两条网站规则,主要是为了测试。其他网站规则,可以自己添加,或者支持开发者。
②软件未打包,c#开发,不含病毒。别担心,请不要使用它,我不会收回它。
③关于软件中跳转到论坛,我亲自测试跳转时,提示360,也可能是跳转到360浏览器的原因。不知道你会不会遇到这个问题。
④如果不知道xml中的内容,千万不要碰,以免软件识别失败报错。
山垦网页【小说爬取下载工具】TXT采集器特别说明:
山垦网页TXT采集器采用全新正则表达式小说抓取下载工具,支持将小说整章下载并保存为txt文件,并可实时预览内容,确保下载的资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。 查看全部
网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))
本站提供绿色免费版山垦网页【小说抢下载工具】TXT采集器软件免费下载。
【软件截图】

【基本介绍】
山垦网页TXT采集器采用全新正则表达式小说爬取下载必备工具,支持下载小说整章并存为txt文件程序,可实时预览内容,确保下载资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。
功能模块介绍
1、规则布局设置:
①在规则设置窗口,随便找一篇网站的文章,不写任何规则,先用鼠标点击实时预览,看看能不能拿到网页的源码,再写规则如果你可以的话。如果你不能得到它,就没有必要继续。
②规则设置使用正则表达式匹配内容。最好有一定的基础。如果你没有基础,你可以参考给出的例子。学习起来并不复杂,对规律性也没有深入研究的要求。
③设置规则时,目录页和内容页需要分开预览,也需要两个链接,一个目录页链接和一个内容页链接。
④ 与换货有关,有一般换货和定制换货之分。目前不需要正则化。普通更换就好了。一定要提醒的是,必须输入值,空格就OK了。删除:选择整行,然后按住删除键。当内置的\n 用作替换数据消息时,表示换行。
⑤编码(将信息从一种形式或格式转换成另一种形式或格式的过程),目前只设置了GBK和UFT-8,几乎大部分网站都是这两种编码中的一种。
2、解析下载
①要进行分析,请按“分析地址 2”按钮。按钮1目前是任性的,不想被删除,以后会开发其他功能。
②支持单章下载和全文下载。
③支持添加章节号【部分小说无章节号时可以查看】
④ 支持在线观看,但需要联网。该功能只是辅助(可以模拟人工手动操作,实现自动查杀、自动挂机等),并非专业的小说阅读软件。
⑤显示下载进度和总时间,内置多线程。
3、关于软件
①其实只要.exe就够了,规则都是我自己加的,commonrule.xml里面有通用的替换规则。网站规则在规则文件夹中。我在里面放了两条网站规则,主要是为了测试。其他网站规则,可以自己添加,或者支持开发者。
②软件未打包,c#开发,不含病毒。别担心,请不要使用它,我不会收回它。
③关于软件中跳转到论坛,我亲自测试跳转时,提示360,也可能是跳转到360浏览器的原因。不知道你会不会遇到这个问题。
④如果不知道xml中的内容,千万不要碰,以免软件识别失败报错。
山垦网页【小说爬取下载工具】TXT采集器特别说明:
山垦网页TXT采集器采用全新正则表达式小说抓取下载工具,支持将小说整章下载并保存为txt文件,并可实时预览内容,确保下载的资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。
网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))
网站优化 • 优采云 发表了文章 • 0 个评论 • 167 次浏览 • 2021-09-24 23:09
网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))
本站提供绿色免费版山垦网页【小说抢下载工具】TXT采集器软件免费下载。
【软件截图】
【基本介绍】
山垦网页TXT采集器采用全新正则表达式小说爬取下载必备工具,支持下载小说整章并存为txt文件程序,可实时预览内容,确保下载资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。
功能模块介绍
1、规则布局设置:
①在规则设置窗口,随便找一篇网站的文章,不写任何规则,先用鼠标点击实时预览,看看能不能拿到网页的源码,再写规则如果你可以的话。如果你不能得到它,就没有必要继续。
②规则设置使用正则表达式匹配内容。最好有一定的基础。如果你没有基础,你可以参考给出的例子。在简单学习下,对规律性的深度学习没有要求。
③设置规则时,目录页和内容页需要分开预览,也需要两个链接,一个目录页链接和一个内容页链接。
④ 与换货有关,有一般换货和定制换货之分。目前不需要正则化。正常更换没问题。需要提醒的是,一定要输入一个值,一个空格也可以。删除:选择整行,然后按住删除键。当内置的\n 用作替换数据消息时,表示换行。
⑤编码(将信息从一种形式或格式转换为另一种形式或格式的过程),目前只设置了GBK和UFT-8,几乎大多数网站是这两种编码中的一种。
2、解析下载
①要进行分析,请按“分析地址 2”按钮。按钮1目前是任性的,不想被删除,以后会开发其他功能。
②支持单章下载和全文下载。
③支持添加章节号【部分小说无章节号时可以查看】
④ 支持在线观看,但需要联网。该功能只是辅助(可以模拟人工手动操作,实现自动杀怪、自动挂机等),并非专业的小说阅读软件。
⑤显示下载进度和总时间,内置多线程。
3、关于软件
①其实只要.exe就够了,规则都是我自己加的,commonrule.xml中收录了通用的替换规则。网站规则在规则文件夹中。我在里面放了两条网站规则,主要是为了测试。其他网站规则,可以自己添加,或者支持开发者。
②软件未打包,c#开发,不含病毒。别担心,请不要使用它,我不会收回它。
③关于软件中跳转到论坛,我亲自测试跳转时,提示360,也可能是跳转到360浏览器的原因。不知道你会不会遇到这个问题。
④如果不知道xml中的内容,千万不要碰,以免软件识别失败报错。
山垦网页【小说爬取下载工具】TXT采集器特别说明:
山垦网页TXT采集器采用全新正则表达式小说抓取下载工具,支持下载小说整章并保存为txt文件,并可实时预览内容,保证下载的资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。 查看全部
本站提供绿色免费版山垦网页【小说抢下载工具】TXT采集器软件免费下载。
【软件截图】
【基本介绍】
山垦网页TXT采集器采用全新正则表达式小说爬取下载必备工具,支持下载小说整章并存为txt文件程序,可实时预览内容,确保下载资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。
功能模块介绍
1、规则布局设置:
①在规则设置窗口,随便找一篇网站的文章,不写任何规则,先用鼠标点击实时预览,看看能不能拿到网页的源码,再写规则如果你可以的话。如果你不能得到它,就没有必要继续。
②规则设置使用正则表达式匹配内容。最好有一定的基础。如果你没有基础,你可以参考给出的例子。在简单学习下,对规律性的深度学习没有要求。
③设置规则时,目录页和内容页需要分开预览,也需要两个链接,一个目录页链接和一个内容页链接。
④ 与换货有关,有一般换货和定制换货之分。目前不需要正则化。正常更换没问题。需要提醒的是,一定要输入一个值,一个空格也可以。删除:选择整行,然后按住删除键。当内置的\n 用作替换数据消息时,表示换行。
⑤编码(将信息从一种形式或格式转换为另一种形式或格式的过程),目前只设置了GBK和UFT-8,几乎大多数网站是这两种编码中的一种。
2、解析下载
①要进行分析,请按“分析地址 2”按钮。按钮1目前是任性的,不想被删除,以后会开发其他功能。
②支持单章下载和全文下载。
③支持添加章节号【部分小说无章节号时可以查看】
④ 支持在线观看,但需要联网。该功能只是辅助(可以模拟人工手动操作,实现自动杀怪、自动挂机等),并非专业的小说阅读软件。
⑤显示下载进度和总时间,内置多线程。
3、关于软件
①其实只要.exe就够了,规则都是我自己加的,commonrule.xml中收录了通用的替换规则。网站规则在规则文件夹中。我在里面放了两条网站规则,主要是为了测试。其他网站规则,可以自己添加,或者支持开发者。
②软件未打包,c#开发,不含病毒。别担心,请不要使用它,我不会收回它。
③关于软件中跳转到论坛,我亲自测试跳转时,提示360,也可能是跳转到360浏览器的原因。不知道你会不会遇到这个问题。
④如果不知道xml中的内容,千万不要碰,以免软件识别失败报错。
山垦网页【小说爬取下载工具】TXT采集器特别说明:
山垦网页TXT采集器采用全新正则表达式小说抓取下载工具,支持下载小说整章并保存为txt文件,并可实时预览内容,保证下载的资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。 查看全部
网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))
本站提供绿色免费版山垦网页【小说抢下载工具】TXT采集器软件免费下载。
【软件截图】

【基本介绍】
山垦网页TXT采集器采用全新正则表达式小说爬取下载必备工具,支持下载小说整章并存为txt文件程序,可实时预览内容,确保下载资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。
功能模块介绍
1、规则布局设置:
①在规则设置窗口,随便找一篇网站的文章,不写任何规则,先用鼠标点击实时预览,看看能不能拿到网页的源码,再写规则如果你可以的话。如果你不能得到它,就没有必要继续。
②规则设置使用正则表达式匹配内容。最好有一定的基础。如果你没有基础,你可以参考给出的例子。在简单学习下,对规律性的深度学习没有要求。
③设置规则时,目录页和内容页需要分开预览,也需要两个链接,一个目录页链接和一个内容页链接。
④ 与换货有关,有一般换货和定制换货之分。目前不需要正则化。正常更换没问题。需要提醒的是,一定要输入一个值,一个空格也可以。删除:选择整行,然后按住删除键。当内置的\n 用作替换数据消息时,表示换行。
⑤编码(将信息从一种形式或格式转换为另一种形式或格式的过程),目前只设置了GBK和UFT-8,几乎大多数网站是这两种编码中的一种。
2、解析下载
①要进行分析,请按“分析地址 2”按钮。按钮1目前是任性的,不想被删除,以后会开发其他功能。
②支持单章下载和全文下载。
③支持添加章节号【部分小说无章节号时可以查看】
④ 支持在线观看,但需要联网。该功能只是辅助(可以模拟人工手动操作,实现自动杀怪、自动挂机等),并非专业的小说阅读软件。
⑤显示下载进度和总时间,内置多线程。
3、关于软件
①其实只要.exe就够了,规则都是我自己加的,commonrule.xml中收录了通用的替换规则。网站规则在规则文件夹中。我在里面放了两条网站规则,主要是为了测试。其他网站规则,可以自己添加,或者支持开发者。
②软件未打包,c#开发,不含病毒。别担心,请不要使用它,我不会收回它。
③关于软件中跳转到论坛,我亲自测试跳转时,提示360,也可能是跳转到360浏览器的原因。不知道你会不会遇到这个问题。
④如果不知道xml中的内容,千万不要碰,以免软件识别失败报错。
山垦网页【小说爬取下载工具】TXT采集器特别说明:
山垦网页TXT采集器采用全新正则表达式小说抓取下载工具,支持下载小说整章并保存为txt文件,并可实时预览内容,保证下载的资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节,支持原创作者。