无规则采集器列表算法(自动就是定时执行一组规则过滤用户封号规则(组图))
优采云 发布时间: 2021-12-10 03:18无规则采集器列表算法(自动就是定时执行一组规则过滤用户封号规则(组图))
PageRank 算法是网页排名。它是谷歌创始人拉里·佩奇和谢尔盖·布林为构建搜索引擎原型而提出的链接分析算法。谷歌的成功使该算法在搜索引擎界和学术界受到了前所未有的关注。很多后续的链接分析算法都是从PageRank算法派生出来的。搜索引擎首先根据相关性算法找到最相关的网页到关键词,然后使用PageRank算法调整排名,可以大大提高搜索质量。PagePank算法除了在网页排名中的重要应用外,还可用于类似的场景,如学术论文重要性排名、个人社会影响力排名等。
申请背景
为了“粘住”用户,游戏设计者通常会在游戏中设置各种道具奖励。玩家可以通过登录并保持在线的方式获得游戏道具。对于可以在玩家之间流通道具的手游*敏*感*词*类游戏,就会出现这样一个“购买物品”的问题:一个玩家创建多个账号(俗称“小号”),然后通过卡牌游戏等方式进行聚合把“小”的物品分成几个账户(俗称“大”),凑到一定数量后,再低价卖掉这个账户,以获得收益。“购买物品”的现象会极大地影响游戏经济系统的平衡,导致物品贬值,严重的甚至可能毁掉整个游戏。手动封禁不够全面,反应慢,往往道具已经调出,然后手动封禁不再有用。自动封禁就是周期性地执行一套封禁规则来过滤用户,然后将用户封禁,但是简单的条件组合很容易被“刷物品的专业用户”打破,例如:
玩家玩过50场以上,中奖率90%以上,90%的中奖者为新注册账号,被封号。
规则上线不到半天,“道具专业户主”就想出了多级“中”的策略,就是将5到10个“小”道具聚合成第一个“中”和 5 到 10 个头等舱。“中”会聚到次要“中”。. . ,终于收敛到了一些“大”,每一个关卡看起来都很正常,轻松绕过了封禁规则。当然,你可以定义更复杂的规则,但实现起来会相当困难,也很难维护。在这种情况下,基于PageRank思想的自动账号封禁策略应运而生。
PageRank算法的基本原理
在PageRank提出之前,有研究者将链接数作为评价网页重要性的唯一指标,即链接越多,网页的重要性越高。在此基础上,PageRank 算法还考虑了网页的质量。为了获得更好的网页重要性评价标准。因此,网页的重要表示基于以下两个假设:
PageRank 算法首先为每个网页节点分配相同的 PR 值,并通过多轮迭代进行迭代,直到稳定为止。PR值越大,网页越重要。由于PR值只与网页之间相互引用的链接结构有关,与用户输入无关,因此可以离线计算PR值,供用户实时查询。
PageRank的计算公式如下:
其中PR(A)为本轮迭代A网页的PR值,PR(B),PR(C),PR(D)...为上一轮B,C,D...的PR值,L(X)代表X的离开程度,q代表阻尼系数,代表冲浪者到达一个页面后继续向后浏览的概率,1-q代表冲浪者停止浏览并跳转到某个页面的概率新网页随机。大量统计的结果表明q一般取0.约85个。以下图为例:
下面是这个页面的链接关系前两次迭代的结果
经过多次迭代,直到结果收敛,收敛条件与设置精度有关。
自动标题PageRank算法的应用与调整
在*敏*感*词*游戏中,每个玩家的道具之间的关系是一个巨大的有向图。图中的节点代表个体玩家,边代表输赢的结果。这对应于 PageRank 的两个假设。满足以下两个假设:
考虑到实际情况,在使用PageRank算法进行自动封禁时做了以下3点调整:
根据以上三个方面进行调整后,我们可以以10分钟的频率执行这个策略,运行过去12小时的数据,然后将PR值大于给定阈值的玩家视为可疑用户,并将其交给封禁模块。
标题效果及后续改进
在基于PageRank思路的自动封禁策略推出一周后,游戏的激活终于稳定下来。这期间,“道具的专业使用者”也经历了多次尝试,但努力的道具总能在某个时刻被截获。所以最后放弃了抵抗。后续改进主要有两个方面:实时性和结果评估。在实时性方面,10分钟一次的频率,或许还是能让“专业用户刷物品”钻空子的。可以考虑使用流式计算和滑动窗口;结果评价,目前对该策略效果的评价是通过人工查询来完成的。它只能检查准确率,而不能验证召回率。有没有“失踪的鱼”?因此,需要一种机制来评估禁令对整体的影响。
参考