免规则采集器列表算法(如何让采集器学会这条规则？（附方法）！！)

优采云发布时间: 2021-12-15 23:33

　　DXC完全免费的云采集！具有自动学习功能。您也可以编写自己的规则采集。采集通过别人的服务器比市面上的更晕。操作更简单，使用更灵活！所有操作均在您自己的服务器上进行！最重要的是我们是完全免费的！！！

　　这不像其他人每月收费。. .

　　功能介绍单发采集开启该功能后，前台发帖页面会出现一个文本框和获取网址的按钮，输入任意一个文章、采集器会智能提取网页文章标题和内容，如下图

　　算法特点

　　市场上也有一些类似功能的插件，但是这个插件与其他插件的不同之处在于，

　　智能算法的局限性智能算法不是万能的。部分文章可能因内容中的短文而可能不准确。比如这个文章

　　文章的body只有一张图片，网页的另一个区域还有更多的文字。采集器误认为文本较多的部分是文章的内容，判断错误。测试如下图所示：

　　那么如何解决这个问题呢？解决办法是让采集器先学习这个规则。训练采集器学习规则我们说过，采集器有自动学习规则的能力，那么如何让采集器学习规则呢？答案是：训练他。

　　寻找两个具有相同结构的典型文章。所谓典型的文章是指文章的内容应该有更多的文字。这里引用的例子是百度空间的文章。这两个文章的地址是：

　　拿到第一篇文章文章，就可以正确获取标题和内容了。当你拿到第二篇文章时，情况就不一样了，如下图：

　　与第一篇文章文章不同，采集器提示：学习规则。这意味着采集器已经学会了规则。

　　这时候你肯定想问，学到的规则在哪里？学习到的规则可以在后台“单帖采集”-“学习规则”中看到，如下图：

　　测试结果

　　现在是测试结果的时候了。回到开头提到的问题，用刚才的文章地址再次测试。测试结果如下图所示。

　　这样，即使只有一张文章的图片，智能算法仍然可以准确提取文章的内容

　　这个实验是在关闭云采集功能的情况下完成的。目的是让采集器自己学习，不使用服务器端资源。在实际应用中，当采集器开云采集时，可以连接服务器从庞大的规则库中匹配规则，省去采集器的学习过程，直接使用现成的资源。

0

2021-12-15

免规则采集器列表算法

0 个评论

要回复文章请先登录或注册