话题：网页小说抓取 ios - 自动文章采集器-优采云官网

网页小说抓取 ios(红薯中文网网页版存在CSS伪类样式反爬，怎么办？)

网站优化 • 优采云发表了文章 • 0 个评论 • 388 次浏览 • 2021-10-08 19:25 • 来自相关话题

　　网页小说抓取 ios(红薯中文网网页版存在CSS伪类样式反爬，怎么办？)
　　快过年了，好久没写文章了。我们今天要练习的网站是红书中文网站的网页版，手机版网站有CSS伪样式。爬吧，下次给大家解释一下。
　　目标分析
　　甘薯中文网站网站版的反爬虫主要在于小说的文字内容，所以我们可以找一本小说进行分析。值得注意的是，甘薯中文网在小说正文页禁用了鼠标右键。检查页面元素（Ctrl+Shift+I）或查看网页源代码（Ctrl+U）我们可以使用Chrome浏览器的快捷键：
　　
　　在元素中呈现的页面
　　通过查看网页元素，我们可以发现浏览器渲染的数据没有出现乱码，说明没有我们上次讲的字体爬取。我们来看一下网页的源代码：
　　
　　网页源代码
　　我们可以发现网页的源代码中并没有我们想要的数据，如果我们学过Django和Flask，可以发现网页使用了类似Django和Flask的模板语言。其实这就是前端模板语言，这也说明页面数据可能是通过ajax请求的，然后通过前端模板语言渲染到网页上。因此，我们可以使用 F12 来抓取和分析网页，然后找到这个请求数据：
　　
　　Ajax 请求数据
　　我们找到了这个获取数据的请求，但是我们发现这个响应的json数据中加密了小说的内容。我们稍后会分析和处理这种加密。我们来分析一下获取这个Ajax请求所需的参数：
　　
　　Ajax 请求详细信息
　　我们发现这个请求没有任何加密参数。至于post提交的参数，我们可以在小说目录页面上获取，这里就不多说了，通过postman模拟请求，我们也可以发现headers里面的参数其实并不是全部必需的：
　　
　　邮递员模拟请求
　　既然拿到这个ajax请求是没有问题的，那我们就需要逆向破解小说的正文，因为这个请求是一个ajax请求，所以我们可以通过XHR/fetch Breakpoints进行调试，在XHR/fetch中添加断点名称断点并填写bookajax .do（加密文件名），然后刷新网页：
　　
　　调试 Ajax 请求
　　然后我们按F10一步步调试，直到找到解密的小说内容：
　　
　　解密前的代码
　　
　　解密前的数据内容
　　
　　解密后
　　
　　解密后的数据内容
　　可以发现 data.content = utf8to16(hs_decrypt(base64decode(data.content), key)); 这段代码是解密的关键，为了找到解密方法，我们按照前面的分析方法分析解密函数，我们发现解密依赖于utf8to16函数，hs_decrypt函数（注意里面还有str2long和long2str函数这个我们需要获取的函数）、base64decode函数和key：
　　
　　base64decode 函数.png
　　
　　hs_decrypt 函数.png
　　然后我们把key反了，发现重新调试的key是在我们生成小说内容之前生成的：
　　
　　反向键
　　我们还可以看到这个获取网络密钥的请求：
　　
　　抓包请求中的key
　　获取内容的ajax api接口和之前一样，只是formdata提交的参数不同。这里就不介绍了。你可以自己研究一下，找到所有的解密依赖。我们可以分析解密逻辑或者用python js运行。该库用于运行js。由于时间问题，我不会研究解密逻辑。我直接使用js运行库。解密
　　至于发送请求获取密钥和加密内容的请求代码，我就不写了。解密代码我直接贴出来。如果需要，可以自己完成其余代码：
<p>import execjs
utf_to_changes = r"""
function utf8to16(str) {
var out, i, len, c;
var char2, char3;
out = "";
len = str.length;
i = 0;
while (i < len) {
c = str.charCodeAt(i++);
switch (c >> 4) {
case 0:
case 1:
case 2:
case 3:
case 4:
case 5:
case 6:
case 7:
out += str.charAt(i - 1);
break;
case 12:
case 13:
char2 = str.charCodeAt(i++);
out += String.fromCharCode(((c & 0x1F) 0; p--) {
z = v[p - 1];
mx = (z >>> 5 ^ y >> 3 ^ z >> 5 ^ y >> 3 ^ z >> 8 & 0xff, v[i] >>> 16 & 0xff, v[i] >>> 24 & 0xff);
}
if (w) {
return v.join('').substring(0, sl);
} else {
return v.join('');
}
}
function str2long(s, w) {
var len = s.length;
var v = [];
for (var i = 0; i < len; i += 4) {
v[i >> 2] = s.charCodeAt(i) | s.charCodeAt(i + 1) 查看全部

　　在元素中呈现的页面
　　通过查看网页元素，我们可以发现浏览器渲染的数据没有出现乱码，说明没有我们上次讲的字体爬取。我们来看一下网页的源代码：
　　

　　网页源代码
　　我们可以发现网页的源代码中并没有我们想要的数据，如果我们学过Django和Flask，可以发现网页使用了类似Django和Flask的模板语言。其实这就是前端模板语言，这也说明页面数据可能是通过ajax请求的，然后通过前端模板语言渲染到网页上。因此，我们可以使用 F12 来抓取和分析网页，然后找到这个请求数据：
　　

　　Ajax 请求数据
　　我们找到了这个获取数据的请求，但是我们发现这个响应的json数据中加密了小说的内容。我们稍后会分析和处理这种加密。我们来分析一下获取这个Ajax请求所需的参数：
　　

　　Ajax 请求详细信息
　　我们发现这个请求没有任何加密参数。至于post提交的参数，我们可以在小说目录页面上获取，这里就不多说了，通过postman模拟请求，我们也可以发现headers里面的参数其实并不是全部必需的：
　　

　　邮递员模拟请求
　　既然拿到这个ajax请求是没有问题的，那我们就需要逆向破解小说的正文，因为这个请求是一个ajax请求，所以我们可以通过XHR/fetch Breakpoints进行调试，在XHR/fetch中添加断点名称断点并填写bookajax .do（加密文件名），然后刷新网页：
　　

　　调试 Ajax 请求
　　然后我们按F10一步步调试，直到找到解密的小说内容：
　　

　　解密前的代码
　　

　　解密前的数据内容
　　

　　解密后
　　

　　解密后的数据内容
　　可以发现 data.content = utf8to16(hs_decrypt(base64decode(data.content), key)); 这段代码是解密的关键，为了找到解密方法，我们按照前面的分析方法分析解密函数，我们发现解密依赖于utf8to16函数，hs_decrypt函数（注意里面还有str2long和long2str函数这个我们需要获取的函数）、base64decode函数和key：
　　

　　base64decode 函数.png
　　

　　hs_decrypt 函数.png
　　然后我们把key反了，发现重新调试的key是在我们生成小说内容之前生成的：
　　

　　反向键
　　我们还可以看到这个获取网络密钥的请求：
　　

　　抓包请求中的key
　　获取内容的ajax api接口和之前一样，只是formdata提交的参数不同。这里就不介绍了。你可以自己研究一下，找到所有的解密依赖。我们可以分析解密逻辑或者用python js运行。该库用于运行js。由于时间问题，我不会研究解密逻辑。我直接使用js运行库。解密
　　至于发送请求获取密钥和加密内容的请求代码，我就不写了。解密代码我直接贴出来。如果需要，可以自己完成其余代码：
<p>import execjs
utf_to_changes = r"""
function utf8to16(str) {
var out, i, len, c;
var char2, char3;
out = "";
len = str.length;
i = 0;
while (i < len) {
c = str.charCodeAt(i++);
switch (c >> 4) {
case 0:
case 1:
case 2:
case 3:
case 4:
case 5:
case 6:
case 7:
out += str.charAt(i - 1);
break;
case 12:
case 13:
char2 = str.charCodeAt(i++);
out += String.fromCharCode(((c & 0x1F) 0; p--) {
z = v[p - 1];
mx = (z >>> 5 ^ y >> 3 ^ z >> 5 ^ y >> 3 ^ z >> 8 & 0xff, v[i] >>> 16 & 0xff, v[i] >>> 24 & 0xff);
}
if (w) {
return v.join('').substring(0, sl);
} else {
return v.join('');
}
}
function str2long(s, w) {
var len = s.length;
var v = [];
for (var i = 0; i < len; i += 4) {
v[i >> 2] = s.charCodeAt(i) | s.charCodeAt(i + 1)

网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))

网站优化 • 优采云发表了文章 • 0 个评论 • 357 次浏览 • 2021-10-03 19:23 • 来自相关话题

　　网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))
　　本站提供绿色免费版山垦网页【小说抢下载工具】TXT采集器软件免费下载。
　　【软件截图】
　　
　　【基本介绍】
　　山垦网页TXT采集器采用全新正则表达式小说爬取下载必备工具，支持下载小说整章并存为txt文件程序，可实时预览内容，确保下载资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节，支持原创作者。
　　功能模块介绍
　　1、规则布局设置：
　　①在规则设置窗口，随便找一篇网站的文章，不写任何规则，先用鼠标点击实时预览，看看能不能拿到网页的源码，再写规则如果你可以的话。如果你不能得到它，就没有必要继续。
　　②规则设置使用正则表达式匹配内容。最好有一定的基础。如果你没有基础，你可以参考给出的例子。学习起来并不复杂，对规律性也没有深入研究的要求。
　　③设置规则时，目录页和内容页需要分开预览，也需要两个链接，一个目录页链接和一个内容页链接。
　　④ 与换货有关，有一般换货和定制换货之分。目前不需要正则化。普通更换就好了。一定要提醒的是，必须输入值，空格就OK了。删除：选择整行，然后按住删除键。当内置的\n 用作替换数据消息时，表示换行。
　　⑤编码（将信息从一种形式或格式转换成另一种形式或格式的过程），目前只设置了GBK和UFT-8，几乎大部分网站都是这两种编码中的一种。
　　2、解析下载
　　①要进行分析，请按“分析地址 2”按钮。按钮1目前是任性的，不想被删除，以后会开发其他功能。
　　②支持单章下载和全文下载。
　　③支持添加章节号【部分小说无章节号时可以查看】
　　④ 支持在线观看，但需要联网。该功能只是辅助（可以模拟人工手动操作，实现自动查杀、自动挂机等），并非专业的小说阅读软件。
　　⑤显示下载进度和总时间，内置多线程。
　　3、关于软件
　　①其实只要.exe就够了，规则都是我自己加的，commonrule.xml里面有通用的替换规则。网站规则在规则文件夹中。我在里面放了两条网站规则，主要是为了测试。其他网站规则，可以自己添加，或者支持开发者。
　　②软件未打包，c#开发，不含病毒。别担心，请不要使用它，我不会收回它。
　　③关于软件中跳转到论坛，我亲自测试跳转时，提示360，也可能是跳转到360浏览器的原因。不知道你会不会遇到这个问题。
　　④如果不知道xml中的内容，千万不要碰，以免软件识别失败报错。
　　山垦网页【小说爬取下载工具】TXT采集器特别说明：
　　山垦网页TXT采集器采用全新正则表达式小说抓取下载工具，支持将小说整章下载并保存为txt文件，并可实时预览内容，确保下载的资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节，支持原创作者。查看全部

　　网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))
　　本站提供绿色免费版山垦网页【小说抢下载工具】TXT采集器软件免费下载。
　　【软件截图】
　　

　　【基本介绍】
　　山垦网页TXT采集器采用全新正则表达式小说爬取下载必备工具，支持下载小说整章并存为txt文件程序，可实时预览内容，确保下载资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节，支持原创作者。
　　功能模块介绍
　　1、规则布局设置：
　　①在规则设置窗口，随便找一篇网站的文章，不写任何规则，先用鼠标点击实时预览，看看能不能拿到网页的源码，再写规则如果你可以的话。如果你不能得到它，就没有必要继续。
　　②规则设置使用正则表达式匹配内容。最好有一定的基础。如果你没有基础，你可以参考给出的例子。学习起来并不复杂，对规律性也没有深入研究的要求。
　　③设置规则时，目录页和内容页需要分开预览，也需要两个链接，一个目录页链接和一个内容页链接。
　　④ 与换货有关，有一般换货和定制换货之分。目前不需要正则化。普通更换就好了。一定要提醒的是，必须输入值，空格就OK了。删除：选择整行，然后按住删除键。当内置的\n 用作替换数据消息时，表示换行。
　　⑤编码（将信息从一种形式或格式转换成另一种形式或格式的过程），目前只设置了GBK和UFT-8，几乎大部分网站都是这两种编码中的一种。
　　2、解析下载
　　①要进行分析，请按“分析地址 2”按钮。按钮1目前是任性的，不想被删除，以后会开发其他功能。
　　②支持单章下载和全文下载。
　　③支持添加章节号【部分小说无章节号时可以查看】
　　④ 支持在线观看，但需要联网。该功能只是辅助（可以模拟人工手动操作，实现自动查杀、自动挂机等），并非专业的小说阅读软件。
　　⑤显示下载进度和总时间，内置多线程。
　　3、关于软件
　　①其实只要.exe就够了，规则都是我自己加的，commonrule.xml里面有通用的替换规则。网站规则在规则文件夹中。我在里面放了两条网站规则，主要是为了测试。其他网站规则，可以自己添加，或者支持开发者。
　　②软件未打包，c#开发，不含病毒。别担心，请不要使用它，我不会收回它。
　　③关于软件中跳转到论坛，我亲自测试跳转时，提示360，也可能是跳转到360浏览器的原因。不知道你会不会遇到这个问题。
　　④如果不知道xml中的内容，千万不要碰，以免软件识别失败报错。
　　山垦网页【小说爬取下载工具】TXT采集器特别说明：
　　山垦网页TXT采集器采用全新正则表达式小说抓取下载工具，支持将小说整章下载并保存为txt文件，并可实时预览内容，确保下载的资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节，支持原创作者。

网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))

网站优化 • 优采云发表了文章 • 0 个评论 • 179 次浏览 • 2021-09-24 23:09 • 来自相关话题

　　网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))
　　本站提供绿色免费版山垦网页【小说抢下载工具】TXT采集器软件免费下载。
　　【软件截图】
　　
　　【基本介绍】
　　山垦网页TXT采集器采用全新正则表达式小说爬取下载必备工具，支持下载小说整章并存为txt文件程序，可实时预览内容，确保下载资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节，支持原创作者。
　　功能模块介绍
　　1、规则布局设置：
　　①在规则设置窗口，随便找一篇网站的文章，不写任何规则，先用鼠标点击实时预览，看看能不能拿到网页的源码，再写规则如果你可以的话。如果你不能得到它，就没有必要继续。
　　②规则设置使用正则表达式匹配内容。最好有一定的基础。如果你没有基础，你可以参考给出的例子。在简单学习下，对规律性的深度学习没有要求。
　　③设置规则时，目录页和内容页需要分开预览，也需要两个链接，一个目录页链接和一个内容页链接。
　　④ 与换货有关，有一般换货和定制换货之分。目前不需要正则化。正常更换没问题。需要提醒的是，一定要输入一个值，一个空格也可以。删除：选择整行，然后按住删除键。当内置的\n 用作替换数据消息时，表示换行。
　　⑤编码（将信息从一种形式或格式转换为另一种形式或格式的过程），目前只设置了GBK和UFT-8，几乎大多数网站是这两种编码中的一种。
　　2、解析下载
　　①要进行分析，请按“分析地址 2”按钮。按钮1目前是任性的，不想被删除，以后会开发其他功能。
　　②支持单章下载和全文下载。
　　③支持添加章节号【部分小说无章节号时可以查看】
　　④ 支持在线观看，但需要联网。该功能只是辅助（可以模拟人工手动操作，实现自动杀怪、自动挂机等），并非专业的小说阅读软件。
　　⑤显示下载进度和总时间，内置多线程。
　　3、关于软件
　　①其实只要.exe就够了，规则都是我自己加的，commonrule.xml中收录了通用的替换规则。网站规则在规则文件夹中。我在里面放了两条网站规则，主要是为了测试。其他网站规则，可以自己添加，或者支持开发者。
　　②软件未打包，c#开发，不含病毒。别担心，请不要使用它，我不会收回它。
　　③关于软件中跳转到论坛，我亲自测试跳转时，提示360，也可能是跳转到360浏览器的原因。不知道你会不会遇到这个问题。
　　④如果不知道xml中的内容，千万不要碰，以免软件识别失败报错。
　　山垦网页【小说爬取下载工具】TXT采集器特别说明：
　　山垦网页TXT采集器采用全新正则表达式小说抓取下载工具，支持下载小说整章并保存为txt文件，并可实时预览内容，保证下载的资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节，支持原创作者。查看全部

　　【基本介绍】
　　山垦网页TXT采集器采用全新正则表达式小说爬取下载必备工具，支持下载小说整章并存为txt文件程序，可实时预览内容，确保下载资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节，支持原创作者。
　　功能模块介绍
　　1、规则布局设置：
　　①在规则设置窗口，随便找一篇网站的文章，不写任何规则，先用鼠标点击实时预览，看看能不能拿到网页的源码，再写规则如果你可以的话。如果你不能得到它，就没有必要继续。
　　②规则设置使用正则表达式匹配内容。最好有一定的基础。如果你没有基础，你可以参考给出的例子。在简单学习下，对规律性的深度学习没有要求。
　　③设置规则时，目录页和内容页需要分开预览，也需要两个链接，一个目录页链接和一个内容页链接。
　　④ 与换货有关，有一般换货和定制换货之分。目前不需要正则化。正常更换没问题。需要提醒的是，一定要输入一个值，一个空格也可以。删除：选择整行，然后按住删除键。当内置的\n 用作替换数据消息时，表示换行。
　　⑤编码（将信息从一种形式或格式转换为另一种形式或格式的过程），目前只设置了GBK和UFT-8，几乎大多数网站是这两种编码中的一种。
　　2、解析下载
　　①要进行分析，请按“分析地址 2”按钮。按钮1目前是任性的，不想被删除，以后会开发其他功能。
　　②支持单章下载和全文下载。
　　③支持添加章节号【部分小说无章节号时可以查看】
　　④ 支持在线观看，但需要联网。该功能只是辅助（可以模拟人工手动操作，实现自动杀怪、自动挂机等），并非专业的小说阅读软件。
　　⑤显示下载进度和总时间，内置多线程。
　　3、关于软件
　　①其实只要.exe就够了，规则都是我自己加的，commonrule.xml中收录了通用的替换规则。网站规则在规则文件夹中。我在里面放了两条网站规则，主要是为了测试。其他网站规则，可以自己添加，或者支持开发者。
　　②软件未打包，c#开发，不含病毒。别担心，请不要使用它，我不会收回它。
　　③关于软件中跳转到论坛，我亲自测试跳转时，提示360，也可能是跳转到360浏览器的原因。不知道你会不会遇到这个问题。
　　④如果不知道xml中的内容，千万不要碰，以免软件识别失败报错。
　　山垦网页【小说爬取下载工具】TXT采集器特别说明：
　　山垦网页TXT采集器采用全新正则表达式小说抓取下载工具，支持下载小说整章并保存为txt文件，并可实时预览内容，保证下载的资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节，支持原创作者。

网页小说抓取 ios(红薯中文网网页版存在CSS伪类样式反爬，怎么办？)

网站优化 • 优采云发表了文章 • 0 个评论 • 388 次浏览 • 2021-10-08 19:25 • 来自相关话题

　　调试 Ajax 请求
　　然后我们按F10一步步调试，直到找到解密的小说内容：
　　

　　解密前的代码
　　

　　解密前的数据内容
　　

　　解密后
　　

　　base64decode 函数.png
　　

　　hs_decrypt 函数.png
　　然后我们把key反了，发现重新调试的key是在我们生成小说内容之前生成的：
　　

　　反向键
　　我们还可以看到这个获取网络密钥的请求：
　　

网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))

网站优化 • 优采云发表了文章 • 0 个评论 • 357 次浏览 • 2021-10-03 19:23 • 来自相关话题

网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))

网站优化 • 优采云发表了文章 • 0 个评论 • 179 次浏览 • 2021-09-24 23:09 • 来自相关话题

　　网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))
　　本站提供绿色免费版山垦网页【小说抢下载工具】TXT采集器软件免费下载。
　　【软件截图】
　　
　　【基本介绍】
　　山垦网页TXT采集器采用全新正则表达式小说爬取下载必备工具，支持下载小说整章并存为txt文件程序，可实时预览内容，确保下载资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节，支持原创作者。
　　功能模块介绍
　　1、规则布局设置：
　　①在规则设置窗口，随便找一篇网站的文章，不写任何规则，先用鼠标点击实时预览，看看能不能拿到网页的源码，再写规则如果你可以的话。如果你不能得到它，就没有必要继续。
　　②规则设置使用正则表达式匹配内容。最好有一定的基础。如果你没有基础，你可以参考给出的例子。在简单学习下，对规律性的深度学习没有要求。
　　③设置规则时，目录页和内容页需要分开预览，也需要两个链接，一个目录页链接和一个内容页链接。
　　④ 与换货有关，有一般换货和定制换货之分。目前不需要正则化。正常更换没问题。需要提醒的是，一定要输入一个值，一个空格也可以。删除：选择整行，然后按住删除键。当内置的\n 用作替换数据消息时，表示换行。
　　⑤编码（将信息从一种形式或格式转换为另一种形式或格式的过程），目前只设置了GBK和UFT-8，几乎大多数网站是这两种编码中的一种。
　　2、解析下载
　　①要进行分析，请按“分析地址 2”按钮。按钮1目前是任性的，不想被删除，以后会开发其他功能。
　　②支持单章下载和全文下载。
　　③支持添加章节号【部分小说无章节号时可以查看】
　　④ 支持在线观看，但需要联网。该功能只是辅助（可以模拟人工手动操作，实现自动杀怪、自动挂机等），并非专业的小说阅读软件。
　　⑤显示下载进度和总时间，内置多线程。
　　3、关于软件
　　①其实只要.exe就够了，规则都是我自己加的，commonrule.xml中收录了通用的替换规则。网站规则在规则文件夹中。我在里面放了两条网站规则，主要是为了测试。其他网站规则，可以自己添加，或者支持开发者。
　　②软件未打包，c#开发，不含病毒。别担心，请不要使用它，我不会收回它。
　　③关于软件中跳转到论坛，我亲自测试跳转时，提示360，也可能是跳转到360浏览器的原因。不知道你会不会遇到这个问题。
　　④如果不知道xml中的内容，千万不要碰，以免软件识别失败报错。
　　山垦网页【小说爬取下载工具】TXT采集器特别说明：
　　山垦网页TXT采集器采用全新正则表达式小说抓取下载工具，支持下载小说整章并保存为txt文件，并可实时预览内容，保证下载的资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节，支持原创作者。查看全部

　　【基本介绍】
　　山垦网页TXT采集器采用全新正则表达式小说爬取下载必备工具，支持下载小说整章并存为txt文件程序，可实时预览内容，确保下载资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节，支持原创作者。
　　功能模块介绍
　　1、规则布局设置：
　　①在规则设置窗口，随便找一篇网站的文章，不写任何规则，先用鼠标点击实时预览，看看能不能拿到网页的源码，再写规则如果你可以的话。如果你不能得到它，就没有必要继续。
　　②规则设置使用正则表达式匹配内容。最好有一定的基础。如果你没有基础，你可以参考给出的例子。在简单学习下，对规律性的深度学习没有要求。
　　③设置规则时，目录页和内容页需要分开预览，也需要两个链接，一个目录页链接和一个内容页链接。
　　④ 与换货有关，有一般换货和定制换货之分。目前不需要正则化。正常更换没问题。需要提醒的是，一定要输入一个值，一个空格也可以。删除：选择整行，然后按住删除键。当内置的\n 用作替换数据消息时，表示换行。
　　⑤编码（将信息从一种形式或格式转换为另一种形式或格式的过程），目前只设置了GBK和UFT-8，几乎大多数网站是这两种编码中的一种。
　　2、解析下载
　　①要进行分析，请按“分析地址 2”按钮。按钮1目前是任性的，不想被删除，以后会开发其他功能。
　　②支持单章下载和全文下载。
　　③支持添加章节号【部分小说无章节号时可以查看】
　　④ 支持在线观看，但需要联网。该功能只是辅助（可以模拟人工手动操作，实现自动杀怪、自动挂机等），并非专业的小说阅读软件。
　　⑤显示下载进度和总时间，内置多线程。
　　3、关于软件
　　①其实只要.exe就够了，规则都是我自己加的，commonrule.xml中收录了通用的替换规则。网站规则在规则文件夹中。我在里面放了两条网站规则，主要是为了测试。其他网站规则，可以自己添加，或者支持开发者。
　　②软件未打包，c#开发，不含病毒。别担心，请不要使用它，我不会收回它。
　　③关于软件中跳转到论坛，我亲自测试跳转时，提示360，也可能是跳转到360浏览器的原因。不知道你会不会遇到这个问题。
　　④如果不知道xml中的内容，千万不要碰，以免软件识别失败报错。
　　山垦网页【小说爬取下载工具】TXT采集器特别说明：
　　山垦网页TXT采集器采用全新正则表达式小说抓取下载工具，支持下载小说整章并保存为txt文件，并可实时预览内容，保证下载的资源没有损坏或乱码。不过这个工具只支持下载小说网站的免费章节，支持原创作者。

更多...

AI时代内容工厂

网页小说抓取 ios

网页小说抓取 ios(红薯中文网网页版存在CSS伪类样式反爬，怎么办？)

网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))

网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))

网页小说抓取 ios(红薯中文网网页版存在CSS伪类样式反爬，怎么办？)

网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))

网页小说抓取 ios(善肯网页TXT采集器软件免费下载介绍说明(图))

话题描述

相关话题

2 人关注该话题

话题修改记录