[] DXC采集3.0插件早已发布

优采云发布时间: 2020-08-12 00:13

　　DXC完全免费的云采集！带手动学习功能。也可以自己写规则采集。比市面上的通过他人的服务器那个晕采集。操作更简单，使用更灵活！所有操作都是在自己服务器上进行的！最主要的是我们这是完全免费的！！！

　　不象他人按月收费啥的。。。

　　功能简介单帖采集功能开启以后，在前台的回帖页面，将出现一个获取网址的文本框和按键，输入任意一篇文章，采集器将智能提取出网页的文章标题和内容,如右图

　　算法特性

　　目前市面上也有一些同类功能的插件，但本插件与其他插件不同的地方在于，

　　智能算法的局限智能算法不是万能的，有些文章由于内容中的文字太紧，就有可能估算不确切。比如这篇文章

　　文章正文只有一张图片，而网页中另外一个区域文字比较多，采集器误认为文字多的部份就是文章的内容，所以判定失误了。测试如下图所示：

　　那么怎么解决这些问题？解决的办法是是先使采集器学会这条规则。训练采集器学习规则我们说过，采集器拥有手动学习规则的能力，那么怎么使采集器学习规则？答案就是：训练他。

　　找两篇结构一样的典型文章，所谓典型文章，就是文章的内容最好文字比较多。这里举的反例是百度空间的文章。这两篇文章地址分别是：

　　当获取第一篇文章时，能正确获取到标题和内容。当获取第二篇文章时，情况就有所不同了，如下图：

　　跟第一篇文章不一样的是，采集器提示：学习到一条规则。说明采集器早已学习到规则啦。

　　这时候，你一定想问，学习到的规则放到那里了？学习到的规则可以在后台“单帖采集”-“学习规则”中见到，如下图：

　　检验结果

　　现在是该检验结果的时侯了，回到开头提及的问题，用昨天那篇文章地址再度测试,测试结果如下图所示

　　这样，即使文章只有一张图片，智能算法仍能确切的提取出文章的内容

　　这个实验是在关掉云采集功能的情况下做的，目的是不使用服务器端的资源，让采集器自己学习。在实际应用中，采集器开启云采集时，可以联接服务端从庞大规则库中匹配规则，免去采集器学习的过程，直接借助现成的资源。

0

2020-08-12

自动采集器怎么用

0 个评论

要回复文章请先登录或注册