无敌:五大免费采集器哪个好,优采云,海纳,ET,三人行,优采云采集
优采云 发布时间: 2022-11-07 17:51无敌:五大免费采集器哪个好,优采云,海纳,ET,三人行,优采云采集
在现在的站长圈里,有很多流行的采集工具,但是总结起来,只有几个比较出名的免费工具:优采云、海纳、ET、三星、优采云 .
下面我们对这些采集工具做一个简单的对比。
1.优采云基本上大家都知道,先放上来再说几句。
优采云应该是国内采集软件最成功的模型之一,从用户数来看应该是最大的,包括付费用户数
特点:简单、强大、快速、支持最多网站、支持丰富的扩展
优点:功能比较齐全,采集比较快,主要针对cms,短时间内可以采集很多,过滤,替换都不错,比较详细;很多人写接口,规则和发布模块和接口都比较齐全。其中,有一个叫陈元的人,几乎开发了当前PHP类cms的所有接口;支持的扩展非常好用,如果你是技术高手,可以用PHP或C#开发任何功能的扩展,真是过目不忘;附件采集 功能完善。
技术:技术以论坛支持为主,帮助文件多,上手容易。有付费版和免费版
缺点:功能比较多,软件越来越多,内存和CPU资源比较多,资源回收控制不好
2、三通(优采云)主要针对论坛的采集,功能比较齐全
首先我不知道三人组和优采云是什么关系,但是接口和功能都是基于同一个模型的。
特点:针对各大论坛,搬家,搬家,速度快,准确率高
优点:还是论坛用的,适合开论坛
技术:付费技术,免费有广告
缺点:超级复杂,上手难,对cms支持差
3. 外星人工具
特点:无人值守,稳定,资源占用最小,基本可以称为安静
优点:无人值守,自动更新,适合长期站,用户群主要集中在长期站潜水站主。软件一目了然,必要的功能也很齐全。关键是该软件是免费的。听说增加了采集中英文翻译功能。
技术:论坛支持,软件本身是免费的,也提供有偿服务。帮助文件少,上手不易
缺点:对论坛和 cms 的支持一般
4. 海纳
特点:海量,关键词抓取,预览采集内容无需写规则
优点:海量,可以捕获网站很多关键词文章,看来适合网站话题,尤其是文章类,博客类
技术:无论坛费用,免费但有功能限制
缺点:分类不方便,也就是说采集文章不方便分类,需要手动(自动容易混淆),具体接口,采集的内容是有限的
5. 优采云
特点:您可以在拥有大量成员的情况下开始您的新论坛。
优点:非常适合 采集discuz 论坛
缺点:过于具体,兼容性差。
总结:追求功能齐全,看来应该选择优采云,优采云号称“全能”,初始站,可以快速采集大量资源,充实网站 内容。如果你是论坛,那就选择三人行。没错,可以实现采集论坛、回复、搬家等论坛功能。长期站,当然选择ET,花点时间去了解,是长期受益。写规则,设置过滤替换,然后就可以像开QQ一样跑很久了,免内存,自动采集更新,分类清晰,采集内容完整,不过说一句站,一站Long+ET就够了。至于海纳,好像不用写规则也容易上手,但是文章的发布
解决方案:优采云/高铁采集器怎么使用,新手保姆级教程
”作为标识开头的代码。
同样的方法,我在列表页搜索最后一条数据的标题,找到了识别结束的代码。
无论是唯一且可识别的代码,我们也可以使用Ctrl+F来查找,只要搜索数据是唯一的即可。
填写起始码
填写好写好的开始和结束代码后,点击右下角的网页测试按钮,测试采集数据是否正常。
测试您是否可以 采集 到所需的 URL
让机器采集的一部分列表页数据停下来,然后看到采集的数据比较多,有些数据不是我们需要的数据页,所以需要排除掉。
内容页的地址是/n/(*).html,所以我们可以使用网页格式来锁定采集地址。
确定地址栏规则
在链接过滤器中,选择要收录的链接并填写刚才的格式
过滤不需要的链接
接下来发现内容页地址采集正常。
获取您需要的正确地址
2.获取内容页面数据
接下来,我们需要编写内容页面的采集规则。这个比较复杂,需要仔细阅读。在最近的测试中,发现对于新手来说并不难,因为逻辑都是一样的,多调试一下就够了。
进入内容采集规则页面,里面有标题和内容内置,这里我再添加两个数据“作者”和“日期”以便更好的理解。
内容采集规则
我们在采集过程中可能需要更多的数据,基本上我们可以按照我说的采集出来。
同理,在文章页面右击调出源码,我教你按标题、作者、时间、内容的顺序编写采集规则。
首先,我们找到 文章 标题的位置,并确保该位置在标签内。开头的页面大部分都是标签,但是里面的样式不一样。
找到标题位置
标题
复制
然后直接看后面的代码,通过一些标志看到作者和时间,然后确定时间和地址。
查找作者和日期位置
作者</a> • 2022年10月31日 08:17:06
复制
然后查看下一个内容,找到该内容的代码。
通过文章内容找到它旁边的div标签是唯一标识的标签(根据经验,内容一般收录在类中),我们可以确定内容的开始标签。
查找内容位置
复制
同样的方法,找到结束词旁边的标签为:
复制
这决定了标题、作者、时间和内容。接下来,您需要在软件中编写规则。
①标题
我们先提取标题,选择正则提取,将所有复制的变量替换为匹配内容中的【参数】,直接点击组合结果中的【参数1】。
设置标题提取规则
②作者
同样,我也选择使用正则提取。由于有些数据是变量,不需要,我们可以直接用(*)替换,需要的内容用【参数】替换,合并结果中选择【参数1】。
设置作者提取规则
③日期
因为要告诉大家为什么有【参数1】、【参数2】、【参数N】,所以我以多个参数为例。
这里,我把标签中的参数作为我的结果,直接将标签中的内容丢弃,但是得到的结果是一样的。
设置日期提取规则
所以在写规则的时候,你不必照着别人教你的,只要保证数据准确就行。
④这里的内容就不用多说了,因为我们之前已经分析过了,前后截取的代码都是已知的,所以直接填写。
设置内容提取规则
但是,我们必须考虑到不同页面的开头和结尾可能是变量,所以我们需要打开更多的文章来查看页面代码。毕竟,有些页面开头有介绍,有些页面末尾有版权声明。
3. 测试
现在规则写好了,我们需要找一个页面测试一下,发现数据采集是正确的,现在基本的采集就完成了。
找几页测试
对我来说,AI写作训练不需要标签,所以采集的时候需要直接过滤,所以我在content标签下的数据处理中选择html标签过滤,直接选择所有标签。为了阅读方便,我取消了换行符和所有标签。当然,我们也可以通过处理数据来输出我们需要的东西。
html标签过滤
html标签过滤
4. 输出
如果我们不设置内容发布规则,文章采集将无法输出。
由于我只需要将数据输出为文档用于AI学习,包括网上发布和导入数据库都收录比较复杂的对应关系,所以这里只讲保存本地文件。
内容发布规则
我们保存并打开本地文件,以txt文件格式的输出为例,我们选择txt,并将保存位置设置为自定义位置,我使用的文件模板是:
文章格式
保存为txt文件,选择文件模板作为这个文件,软件会按照这个格式输出文章。
完成所有设置后,直接保存退出,然后进入主页面,勾选任务右侧的“采集地址”、“采集内容”、“发布”复选框,右击任务,选择开始。如果在运行日志中看到它运行正常,可以让它静默采集。如果出现提示错误,分析错误原因,然后对症下药。
直接 采集 并发布
这是一个输出示例:
采集 到内容
五、注意事项
我们肯定不会像我在采集中说的那么简单,所以我会提前告知你遇到的坑,以免走弯路。
1.数据为空
采集的数据是空白的部分原因是原文是空白的,比如网页上的问答。如果没有答案,则其内容为空白。另外,采集规则并不适用于所有页面,制定了新的规则来保证所有数据都能输出。
有时我们的 采集 的数据是完全空的。这很可能是由于网络速度或 网站 的问题。只需重新采集,因为没有来自采集 的数据,未采摘和未发出将被标记。
2.输出数据相同
由于某个文章在不同的标签或段下,软件不会直接为你过滤,但我们可以过滤设置标签下的内容,勾选“采集内容不能为空且重复”。按钮。(勾选“采集内容不能为空”也可以解决问题1)
内容过滤
3.替换部分数据
在这里,在采集之后,我们会发现版权字很多或者有些字需要过滤。不需要重新设置采集规则,而是在本地数据中,选择所有数据,在特定标签中处理特定标签。内容可以直接替换或过滤。
替换内容
以上原创教程仅供学术交流,请勿挪用或用于非法用途,请直接关闭本文。