免规则采集器列表算法(如何让采集器学会这条规则?(附方法)!!)
优采云 发布时间: 2021-12-15 23:33免规则采集器列表算法(如何让采集器学会这条规则?(附方法)!!)
DXC完全免费的云采集!具有自动学习功能。您也可以编写自己的规则采集。采集通过别人的服务器比市面上的更晕。操作更简单,使用更灵活!所有操作均在您自己的服务器上进行!最重要的是我们是完全免费的!!!
这不像其他人每月收费。. .
功能介绍单发采集 开启该功能后,前台发帖页面会出现一个文本框和获取网址的按钮,输入任意一个文章、采集器会智能提取网页文章标题和内容,如下图
算法特点
市场上也有一些类似功能的插件,但是这个插件与其他插件的不同之处在于,
智能算法的局限性 智能算法不是万能的。部分 文章 可能因内容中的短文而可能不准确。比如这个文章
文章的body只有一张图片,网页的另一个区域还有更多的文字。采集器误认为文本较多的部分是文章的内容,判断错误。测试如下图所示:
那么如何解决这个问题呢?解决办法是让采集器先学习这个规则。训练采集器学习规则 我们说过,采集器有自动学习规则的能力,那么如何让采集器学习规则呢?答案是:训练他。
寻找两个具有相同结构的典型文章。所谓典型的文章是指文章的内容应该有更多的文字。这里引用的例子是百度空间的文章。这两个文章的地址是:
拿到第一篇文章文章,就可以正确获取标题和内容了。当你拿到第二篇文章时,情况就不一样了,如下图:
与第一篇文章文章 不同,采集器 提示:学习规则。这意味着采集器 已经学会了规则。
这时候你肯定想问,学到的规则在哪里?学习到的规则可以在后台“单帖采集”-“学习规则”中看到,如下图:
测试结果
现在是测试结果的时候了。回到开头提到的问题,用刚才的文章地址再次测试。测试结果如下图所示。
这样,即使只有一张文章的图片,智能算法仍然可以准确提取文章的内容
这个实验是在关闭云采集功能的情况下完成的。目的是让采集器自己学习,不使用服务器端资源。在实际应用中,当采集器开云采集时,可以连接服务器从庞大的规则库中匹配规则,省去采集器的学习过程,直接使用现成的资源。