免规则采集器列表算法进行算法，通过实时展示参与排名

优采云发布时间: 2022-07-22 08:01

　　免规则采集器列表算法进行算法交互，通过实时展示参与排名的近期主题在其他时间序列数据上的排名。我们采用的算法是重复负采样，我们将实时展示展示大量参与排名的主题在这个数据库里的排名，根据上一次列表排名在当前主题中的排名，判断当前排名。举个例子，我们知道了某个主题在近期大量发生涉及主题，但是这些主题在近期的排名都不是很好，我们可以找出这些数据，如果数据是有规律的，可以用于机器学习，从而找出排名高的主题。

　　如果此时直接给予排名结果，那就和人工排名是一样的，需要有人天天去排序，还要考虑这些因素，很麻烦。我们想到的是采用特征工程来做，也就是比如我知道每个主题近期发生的次数，如果我要让每个主题都有排名，那就对不同的数据维度取得不同的权重来做排名，对权重进行遍历计算，结果就是主题排名了。当然这种思路是可以走得很长远的，比如可以为每个主题生成更加多的词，对它们进行进一步分词，比如：我在上周什么地方遇到他。

　　如果你会用机器学习，可以做很多很有趣的东西。如果你还不会做数据处理，那你可以用excel的全排列，把整个列表按照权重进行排列，也可以构建出很有意思的结果。排名部分结束。

　　简单的想，其实你用这些工具本身带的功能、带的爬虫小哥哥让你自己做这些工作都是可以的。但是像类似滴滴、饿了么、美团等一些企业，有一些部门需要用到这些工具来实现核心功能，比如大数据部门，比如用搜索部门（大数据和搜索都是一个公司的产物）。公司想让更多的人专注于核心功能上，于是可能部门就必须要配备专门的工具，为什么？因为大家专注于核心功能，而不会去处理其他功能。

　　不过还是要尊重一下这些作者，他们那里的作品是花费很多功夫和时间写出来的，并不是免费拿来的，像你和我一样，爱好者不过讲真，点餐网是最早一批不加评论，只出排名和负采样文章的。现在流行的，就是添加了负采样的正则表达式和隐式负采样（对排名进行随机正则替换）的排名，但是至少像天猫等还是这样，因为百度糯米等，还是sku商品的排名。

0

2022-07-22

免规则采集器列表算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

免规则采集器列表算法进行算法，通过实时展示参与排名

0 个评论

发起人

AI时代内容工厂

免规则采集器列表算法进行算法，通过实时展示参与排名

0 个评论

发起人

相关问题