全自动采集最新行业文章摘要:如何防止文章重复?

优采云 发布时间: 2021-04-19 05:02

  全自动采集最新行业文章摘要:如何防止文章重复?

  全自动采集最新行业文章摘要:引入百度站长平台下的贴吧,qq群,搜索引擎首页,和友情链接,直接批量发布到不同的各大贴吧,社区和qq群。自动写通告、黑名单置顶、双发置顶和多发等等就不介绍了,大家看图学习。

  泻药这个东西还是不行的,现在还是信息差的天下。如果一定要让它实现无人值守那就是防止文章重复。和搜索引擎的网页交换也是一个方向,这样就可以要求贴吧,qq群,搜索引擎同时给予推荐。当然这个需要管理员看管。理论上来说是可以。

  对大v搞的数据处理,提取出几百个有用的关键词,点击数啊,收藏啊,日ip,日pv啊,然后可以根据这几百个关键词做网页归类,针对不同的网页,相应加上不同的标签。然后把这些网页遍历一遍,大概可以处理出上千万个有用的网页,然后弄个分词器,把这些有用的网页先分配给kaggle的老外。接着把收到的几百万个有用的网页挨个送去算法比赛。

  算法要搞的远大于公司那些花里胡哨的产品,这里不展开说了。然后每个网页匹配2-3个指标,因为每个网页没用对的指标,总归会造成算法达不到收敛性。然后拿这些网页去训练,做topevaluation。这个topevaluation要不断更新。之后每个网页又有很多可能。这个就可以用后端的结合spark做一个topevaluation,然后用hbase做一个ashbase。

  因为相同指标的重复率是大概率地一致的,那么就可以用一个hbase只存一次,其他都存起来。而topevaluation中的一些特殊情况一定要改进算法,topevaluation得分的问题可以直接匹配到业务问题。但是更新速度一定要保证,每个网页更新不要太快,以保证网页更新能保证到算法能够解决的大众问题。因为大型的站长建站,花很多钱买站的,不可能每个url都去尝试分析,那肯定只用很少的url,而这些网页都是从业务出发。一定要保证用户访问时的url一致,然后关键url要做幂等做get操作或者iostring都可以。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线