DXC采集插件单帖采集学习规则

优采云发布时间: 2020-08-04 02:04

　　功能简介

　　单帖采集功能开启以后，在前台的回帖页面，将出现一个获取网址的文本框和按键，输入任意一篇文章，采集器将智能提取出网页的文章标题和内容,如右图

　　算法特性

　　目前市面上也有一些同类功能的插件，但本插件与其他插件不同的地方在于无规则采集器列表算法，

　　1、智能提取为主，自写规则为辅。目前一些插件大多预先人工添加一些站点规则，但互联网那么多网站，哪怕规则库多么建立都未能满足需求。所以此插件最大的特征是自主开发了一套网页正文智能抽取算法，无论哪些网页，不必用户写规则，程序都能确切估算出文章的标题和内容

　　2、单靠智能获取还不够，采集器还拥有手动学习的能力，能手动归纳产生规则，大大提高智能抽取的精度。当用户开启云采集，还可以使用服务器强悍的规则库资源

　　3、当然，无论智能算法多么确切完美，终究不能满足所有的需求，此时用户完全可以自定义自己的。

　　智能算法的局限

　　智能算法不是万能的，有些文章由于内容中的文字太紧，就有可能估算不确切。比如这篇文章

　　文章正文只有一张图片，而网页中另外一个区域文字比较多，采集器误认为文字多的部份就是文章的内容，所以判定失误了。测试如下图所示：

　　那么怎么解决这些问题？解决的办法是是先使采集器学会这条规则。

　　训练采集器学习规则

　　我们说过，采集器拥有手动学习规则的能力，那么怎么使采集器学习规则？答案就是：训练他。

　　找两篇结构一样的典型文章，所谓典型文章，就是文章的内容最好文字比较多。这里举的反例是百度空间的文章。这两篇文章地址分别是：

　　当获取第一篇文章时，能正确获取到标题和内容。当获取第二篇文章时，情况就有所不同了，如下图：

　　跟第一篇文章不一样的是，采集器提示：学习到一条规则。说明采集器早已学习到规则啦。

　　这时候无规则采集器列表算法，你一定想问，学习到的规则放到那里了？学习到的规则可以在后台“单帖采集”-“学习规则”中见到，如下图：

　　检验结果

　　现在是该检验结果的时侯了，回到开头提及的问题，用昨天那篇文章地址再度测试,测试结果如下图所示

　　这样，即使文章只有一张图片，智能算法仍能确切的提取出文章的内容

　　这个实验是在关掉云采集功能的情况下做的，目的是不使用服务器端的资源，让采集器自己学习。在实际应用中，采集器开启云采集时，可以联接服务端从庞大规则库中匹配规则，免去采集器学习的过程，直接借助现成的资源。

0

2020-08-04

无规则采集器列表算法

0 个评论

要回复文章请先登录或注册