DXC采集插件单帖采集学习规则
优采云 发布时间: 2020-08-04 02:04功能简介
单帖采集功能开启以后,在前台的回帖页面,将出现一个获取网址的文本框和按键,输入任意一篇文章,采集器将智能提取出网页的文章标题和内容,如右图
算法特性
目前市面上也有一些同类功能的插件,但本插件与其他插件不同的地方在于无规则采集器列表算法,
1、智能提取为主,自写规则为辅。目前一些插件大多预先人工添加一些站点规则,但互联网那么多网站,哪怕规则库多么建立都未能满足需求。所以此插件最大的特征是自主开发了一套网页正文智能抽取算法,无论哪些网页,不必用户写规则,程序都能确切估算出文章的标题和内容
2、单靠智能获取还不够,采集器还拥有手动学习的能力,能手动归纳产生规则,大大提高智能抽取的精度。当用户开启云采集,还可以使用服务器强悍的规则库资源
3、当然,无论智能算法多么确切完美,终究不能满足所有的需求,此时用户完全可以自定义自己的。
智能算法的局限
智能算法不是万能的,有些文章由于内容中的文字太紧,就有可能估算不确切。比如这篇文章
文章正文只有一张图片,而网页中另外一个区域文字比较多,采集器误认为文字多的部份就是文章的内容,所以判定失误了。测试如下图所示:
那么怎么解决这些问题?解决的办法是是先使采集器学会这条规则。
训练采集器学习规则
我们说过,采集器拥有手动学习规则的能力,那么怎么使采集器学习规则?答案就是:训练他。
找两篇结构一样的典型文章,所谓典型文章,就是文章的内容最好文字比较多。这里举的反例是百度空间的文章。这两篇文章地址分别是:
当获取第一篇文章时,能正确获取到标题和内容。当获取第二篇文章时,情况就有所不同了,如下图:
跟第一篇文章不一样的是,采集器提示:学习到一条规则。说明采集器早已学习到规则啦。
这时候无规则采集器列表算法,你一定想问,学习到的规则放到那里了?学习到的规则可以在后台“单帖采集”-“学习规则”中见到,如下图:
检验结果
现在是该检验结果的时侯了,回到开头提及的问题,用昨天那篇文章地址再度测试,测试结果如下图所示
这样,即使文章只有一张图片,智能算法仍能确切的提取出文章的内容
这个实验是在关掉云采集功能的情况下做的,目的是不使用服务器端的资源,让采集器自己学习。在实际应用中,采集器开启云采集时,可以联接服务端从庞大规则库中匹配规则,免去采集器学习的过程,直接借助现成的资源。