[] DXC采集3.0插件早已发布

优采云 发布时间: 2020-08-12 00:13

  DXC完全免费的云采集!带手动学习功能。也可以自己写规则采集。比市面上的通过他人的服务器那个晕采集。操作更简单,使用更灵活!所有操作都是在自己服务器上进行的!最主要的是我们这是完全免费的!!!

  不象他人按月收费啥的。。。

  功能简介单帖采集功能开启以后,在前台的回帖页面,将出现一个获取网址的文本框和按键,输入任意一篇文章,采集器将智能提取出网页的文章标题和内容,如右图

  

  算法特性

  目前市面上也有一些同类功能的插件,但本插件与其他插件不同的地方在于,

  智能算法的局限智能算法不是万能的,有些文章由于内容中的文字太紧,就有可能估算不确切。比如这篇文章

  文章正文只有一张图片,而网页中另外一个区域文字比较多,采集器误认为文字多的部份就是文章的内容,所以判定失误了。测试如下图所示:

  

  那么怎么解决这些问题?解决的办法是是先使采集器学会这条规则。训练采集器学习规则我们说过,采集器拥有手动学习规则的能力,那么怎么使采集器学习规则?答案就是:训练他。

  找两篇结构一样的典型文章,所谓典型文章,就是文章的内容最好文字比较多。这里举的反例是百度空间的文章。这两篇文章地址分别是:

  当获取第一篇文章时,能正确获取到标题和内容。当获取第二篇文章时,情况就有所不同了,如下图:

  

  跟第一篇文章不一样的是,采集器提示:学习到一条规则。说明采集器早已学习到规则啦。

  这时候,你一定想问,学习到的规则放到那里了?学习到的规则可以在后台“单帖采集”-“学习规则”中见到,如下图:

  

  检验结果

  现在是该检验结果的时侯了,回到开头提及的问题,用昨天那篇文章地址再度测试,测试结果如下图所示

  

  这样,即使文章只有一张图片,智能算法仍能确切的提取出文章的内容

  这个实验是在关掉云采集功能的情况下做的,目的是不使用服务器端的资源,让采集器自己学习。在实际应用中,采集器开启云采集时,可以联接服务端从庞大规则库中匹配规则,免去采集器学习的过程,直接借助现成的资源。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线