无敌:五大免费采集器哪个好,优采云,海纳,ET,三人行,优采云采集

优采云发布时间: 2022-11-07 17:51

　　在现在的站长圈里，有很多流行的采集工具，但是总结起来，只有几个比较出名的免费工具：优采云、海纳、ET、三星、优采云 .

　　下面我们对这些采集工具做一个简单的对比。

　　1.优采云基本上大家都知道，先放上来再说几句。

　　优采云应该是国内采集软件最成功的模型之一，从用户数来看应该是最大的，包括付费用户数

　　特点：简单、强大、快速、支持最多网站、支持丰富的扩展

　　优点：功能比较齐全，采集比较快，主要针对cms，短时间内可以采集很多，过滤，替换都不错，比较详细；很多人写接口，规则和发布模块和接口都比较齐全。其中，有一个叫陈元的人，几乎开发了当前PHP类cms的所有接口；支持的扩展非常好用，如果你是技术高手，可以用PHP或C#开发任何功能的扩展，真是过目不忘；附件采集功能完善。

　　技术：技术以论坛支持为主，帮助文件多，上手容易。有付费版和免费版

　　缺点：功能比较多，软件越来越多，内存和CPU资源比较多，资源回收控制不好

　　2、三通（优采云）主要针对论坛的采集，功能比较齐全

　　首先我不知道三人组和优采云是什么关系，但是接口和功能都是基于同一个模型的。

　　特点：针对各大论坛，搬家，搬家，速度快，准确率高

　　优点：还是论坛用的，适合开论坛

　　技术：付费技术，免费有广告

　　缺点：超级复杂，上手难，对cms支持差

　　3. 外星人工具

　　特点：无人值守，稳定，资源占用最小，基本可以称为安静

　　优点：无人值守，自动更新，适合长期站，用户群主要集中在长期站潜水站主。软件一目了然，必要的功能也很齐全。关键是该软件是免费的。听说增加了采集中英文翻译功能。

　　技术：论坛支持，软件本身是免费的，也提供有偿服务。帮助文件少，上手不易

　　缺点：对论坛和 cms 的支持一般

　　4. 海纳

　　特点：海量，关键词抓取，预览采集内容无需写规则

　　优点：海量，可以捕获网站很多关键词文章，看来适合网站话题，尤其是文章类，博客类

　　技术：无论坛费用，免费但有功能限制

　　缺点：分类不方便，也就是说采集文章不方便分类，需要手动（自动容易混淆），具体接口，采集的内容是有限的

　　5. 优采云

　　特点：您可以在拥有大量成员的情况下开始您的新论坛。

　　优点：非常适合采集discuz 论坛

　　缺点：过于具体，兼容性差。

　　总结：追求功能齐全，看来应该选择优采云，优采云号称“全能”，初始站，可以快速采集大量资源，充实网站内容。如果你是论坛，那就选择三人行。没错，可以实现采集论坛、回复、搬家等论坛功能。长期站，当然选择ET，花点时间去了解，是长期受益。写规则，设置过滤替换，然后就可以像开QQ一样跑很久了，免内存，自动采集更新，分类清晰，采集内容完整，不过说一句站，一站Long+ET就够了。至于海纳，好像不用写规则也容易上手，但是文章的发布

　　解决方案:优采云/高铁采集器怎么使用，新手保姆级教程

　　”作为标识开头的代码。

　　同样的方法，我在列表页搜索最后一条数据的标题，找到了识别结束的代码。

　　无论是唯一且可识别的代码，我们也可以使用Ctrl+F来查找，只要搜索数据是唯一的即可。

　　填写起始码

　　填写好写好的开始和结束代码后，点击右下角的网页测试按钮，测试采集数据是否正常。

　　测试您是否可以采集到所需的 URL

　　让机器采集的一部分列表页数据停下来，然后看到采集的数据比较多，有些数据不是我们需要的数据页，所以需要排除掉。

　　内容页的地址是/n/(*).html，所以我们可以使用网页格式来锁定采集地址。

　　确定地址栏规则

　　在链接过滤器中，选择要收录的链接并填写刚才的格式

　　过滤不需要的链接

　　接下来发现内容页地址采集正常。

　　获取您需要的正确地址

　　2.获取内容页面数据

　　接下来，我们需要编写内容页面的采集规则。这个比较复杂，需要仔细阅读。在最近的测试中，发现对于新手来说并不难，因为逻辑都是一样的，多调试一下就够了。

　　进入内容采集规则页面，里面有标题和内容内置，这里我再添加两个数据“作者”和“日期”以便更好的理解。

　　内容采集规则

　　我们在采集过程中可能需要更多的数据，基本上我们可以按照我说的采集出来。

　　同理，在文章页面右击调出源码，我教你按标题、作者、时间、内容的顺序编写采集规则。

　　首先，我们找到文章标题的位置，并确保该位置在标签内。开头的页面大部分都是标签，但是里面的样式不一样。

　　找到标题位置

　　标题

　　复制

　　然后直接看后面的代码，通过一些标志看到作者和时间，然后确定时间和地址。

　　查找作者和日期位置

　　作者</a> • 2022年10月31日 08:17:06

　　复制

　　然后查看下一个内容，找到该内容的代码。

　　通过文章内容找到它旁边的div标签是唯一标识的标签（根据经验，内容一般收录在类中），我们可以确定内容的开始标签。

　　查找内容位置

　　复制

　　同样的方法，找到结束词旁边的标签为：

　　复制

　　这决定了标题、作者、时间和内容。接下来，您需要在软件中编写规则。

　　①标题

　　我们先提取标题，选择正则提取，将所有复制的变量替换为匹配内容中的【参数】，直接点击组合结果中的【参数1】。

　　设置标题提取规则

　　②作者

　　同样，我也选择使用正则提取。由于有些数据是变量，不需要，我们可以直接用（*）替换，需要的内容用【参数】替换，合并结果中选择【参数1】。

　　设置作者提取规则

　　③日期

　　因为要告诉大家为什么有【参数1】、【参数2】、【参数N】，所以我以多个参数为例。

　　这里，我把标签中的参数作为我的结果，直接将标签中的内容丢弃，但是得到的结果是一样的。

　　设置日期提取规则

　　所以在写规则的时候，你不必照着别人教你的，只要保证数据准确就行。

　　④这里的内容就不用多说了，因为我们之前已经分析过了，前后截取的代码都是已知的，所以直接填写。

　　设置内容提取规则

　　3. 测试

　　现在规则写好了，我们需要找一个页面测试一下，发现数据采集是正确的，现在基本的采集就完成了。

　　找几页测试

　　对我来说，AI写作训练不需要标签，所以采集的时候需要直接过滤，所以我在content标签下的数据处理中选择html标签过滤，直接选择所有标签。为了阅读方便，我取消了换行符和所有标签。当然，我们也可以通过处理数据来输出我们需要的东西。

　　html标签过滤

　　4. 输出

　　如果我们不设置内容发布规则，文章采集将无法输出。

　　由于我只需要将数据输出为文档用于AI学习，包括网上发布和导入数据库都收录比较复杂的对应关系，所以这里只讲保存本地文件。

　　内容发布规则

　　我们保存并打开本地文件，以txt文件格式的输出为例，我们选择txt，并将保存位置设置为自定义位置，我使用的文件模板是：

　　文章格式

　　保存为txt文件，选择文件模板作为这个文件，软件会按照这个格式输出文章。

　　完成所有设置后，直接保存退出，然后进入主页面，勾选任务右侧的“采集地址”、“采集内容”、“发布”复选框，右击任务，选择开始。如果在运行日志中看到它运行正常，可以让它静默采集。如果出现提示错误，分析错误原因，然后对症下药。

　　直接采集并发布

　　这是一个输出示例：

　　采集到内容

　　五、注意事项

　　我们肯定不会像我在采集中说的那么简单，所以我会提前告知你遇到的坑，以免走弯路。

　　1.数据为空

　　采集的数据是空白的部分原因是原文是空白的，比如网页上的问答。如果没有答案，则其内容为空白。另外，采集规则并不适用于所有页面，制定了新的规则来保证所有数据都能输出。

　　有时我们的采集的数据是完全空的。这很可能是由于网络速度或网站的问题。只需重新采集，因为没有来自采集的数据，未采摘和未发出将被标记。

　　2.输出数据相同

　　由于某个文章在不同的标签或段下，软件不会直接为你过滤，但我们可以过滤设置标签下的内容，勾选“采集内容不能为空且重复”。按钮。（勾选“采集内容不能为空”也可以解决问题1）

　　内容过滤

　　3.替换部分数据

　　在这里，在采集之后，我们会发现版权字很多或者有些字需要过滤。不需要重新设置采集规则，而是在本地数据中，选择所有数据，在特定标签中处理特定标签。内容可以直接替换或过滤。

　　替换内容

　　以上原创教程仅供学术交流，请勿挪用或用于非法用途，请直接关闭本文。

0

2022-11-07

文章在线采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

无敌:五大免费采集器哪个好,优采云,海纳,ET,三人行,优采云采集

0 个评论

发起人

AI时代内容工厂

无敌:五大免费采集器哪个好,优采云,海纳,ET,三人行,优采云采集

0 个评论

发起人

相关问题