网页文章采集工具(软件介绍善肯网页文字采集工具使用的方法和使用方法)
优采云 发布时间: 2022-03-05 02:29网页文章采集工具(软件介绍善肯网页文字采集工具使用的方法和使用方法)
Shanken Web Text采集工具是一个非常有用的文本采集工具。该软件也可以称为新颖的采集 工具。有了这个采集器,它可以帮你一键下载小说,把喜欢的小说下载到本地慢慢阅读。同时,它还具有专业的正则表达式过滤,可以去除网站中不必要的内容。一个很不错的软件,有需要可以在jz5u中下载这个山垦网文采集工具。
防范措施
其实只要.exe就够了,规则都是自己加的,commonrule.xml里面有通用的替换规则。网站规则在规则文件夹中。我这里放了两条 网站 规则,主要是为了测试。其他网站规则可以自行添加,也可以支持开发者。
变更日志
修复第一章无法点击的BUG。
新功能使其在提取网页链接的方式上更加灵活。
软件介绍
山垦网页TXT采集器是一款非常好用的网页文字提取器,可以帮你一键提取网页中的所有文字,同时还有专业的正则表达式过滤,可以去除网站@ >,软件还支持各大网站的网络小说采集,非常好用。欢迎有需要的用户下载使用。
指示
1、规则设置:
①在规则设置窗口中,在网站中随便找一篇文章,不写任何规则,先点击实时预览,看看能不能拿到网页的源代码,如果能拿到,那么写规则,如果看不懂,没必要继续。
②规则设置使用正则表达式匹配内容。最好有一定的基础。如果没有基础,可以参考给出的例子。简单易学,无需深入学习常规规则。
③设置规则时,目录页和内容页需要分别预览,所以需要两个链接,目录页链接和内容页链接。
④ 关于更换,有一般更换和定制更换。目前不需要正则化,普通替换即可。需要注意的是,值一定要输入,空格也可以。删除:选择整行,然后在该行上按住删除键。内置的 \n 在用作替换数据时表示换行符。
⑤编码,目前只设置了GBK和UFT-8,几乎大部分网站都是这两种编码之一。
2、分析下载
①解析请按解析地址的2键。1按钮是任性的,暂时不想删除,其他功能以后再开发。
②支持单章下载和全文下载。
③支持增加章节数【部分小说没有章节数时可以勾选】
④支持阅读,但需要联网。此功能只是辅助功能,不是专业的小说阅读软件。
⑤下载进度和总所需时间显示,内置多线程。