网页文章采集工具(善肯网页TXT采集器介绍及规则设置的介绍)

优采云 发布时间: 2022-01-28 13:00

  网页文章采集工具(善肯网页TXT采集器介绍及规则设置的介绍)

  山垦网页TXT采集器是一款绿色小、好用的网页文字抓取工具,部分网站不支持文字复制,但是借助这个工具,可以帮你复制指定网页的所有文字采集下,特别适合采集小说,软件可以帮你自动保存TXT格式的文件。

  

  功能模块介绍

  1、规则设置:

  ①在规则设置窗口中,在网站中随便找一篇文章,不写任何规则,先点击实时预览,看看能不能得到网页的源代码。如果你能得到它,然后写规则。继续。

  ②规则设置使用正则表达式匹配内容。最好有一定的基础。如果没有基础,可以参考给出的例子。简单易学,无需深入学习常规规则。

  ③设置规则时,目录页和内容页需要分别预览,所以需要两个链接,目录页链接和内容页链接。

  ④ 关于更换,有一般更换和定制更换。目前不需要正则化,普通替换即可。需要注意的是,值一定要输入,空格也可以。删除:选择整行,然后在该行上按住删除键。内置的 \n 在用作替换数据时表示换行符。

  ⑤编码,目前只设置了GBK和UFT-8,几乎大部分网站都是这两种编码之一。

  2、分析下载

  ①解析请按解析地址的2键。1按钮是任性的,暂时不想删除,其他功能以后再开发。

  ②支持单章下载和全文下载。

  ③支持增加章节数【部分小说没有章节数时可以勾选】

  ④支持在线阅读,但需要联网。此功能只是辅助功能,不是专业的小说阅读软件。

  ⑤下载进度和总所需时间显示,内置多线程。

  3、关于软件

  ①其实只要.exe就够了,规则都是自己加的,commonrule.xml里面有通用的替换规则。网站规则在规则文件夹中。我这里放了两条 网站 规则,主要是为了测试。其他网站规则可以自行添加,也可以支持开发者。

  ②软件非打包,c#开发,无病毒。别担心,请不要使用它,我不承担责任。

  ③关于软件,有跳转到论坛。亲自测试跳转的时候,是360提示的,也可能是因为跳转是360浏览器。不知道你会不会有这个问题。

  ④如果xml中的内容不清晰,请勿触摸,以免软件识别失败并报错。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线