采集内容插入词库(8000万页游词库噪筛选分类见解)

优采云 发布时间: 2021-08-30 21:09

  采集内容插入词库(8000万页游词库噪筛选分类见解)

  经过8000万页游词数据库的去重去噪、过滤和分类,我们终于得到了超过100万的数据量。剩下的700万条数据可以调整,方便后期维护。

  我们马上开始着手做手游词库,这个时候写点词库维护的心得。

  我们为页面游戏词库、游戏库、平台库等提供了 3 个库。游戏库和平台库按照页面游戏策略、装备、套餐、开通服务等维度进行分类,其中“其他”。 txt”可以补充其他维度的数据。这里我们在做网页游戏词库的时候做过一次。

  页游词库后期,我们要整合数据库。我们的目标很简单,得到一个游戏词,找出他游戏的维度。至少可以覆盖90%的页面游戏词。

  怎么做?关键是要构造文件数据!每个词都是词根,用逗号隔开游戏和策略组合,形成行数据。

  页游戏数据库需要6个表:页游戏表、维度表、词库表、敏感词库表、词库与维度的关系表、词库与页游词库的关系表。

  然后进行数据导入,因为我们将之前的文件数据进行了结构化,所以我们可以根据行数据中的页面游戏词与维度和游戏的关系将数据导入到数据库表中。

  这对词库维护有何帮助?

  我们将来会做基于网络的 seo 项目。我们有大量现成的数据,覆盖率在90%左右,可以立即使用。之后我们还可以通过其他渠道补充数据:数据挖掘、流量统计软件等,大大节省了我们的时间。数据采集,过滤等大量耗时中间环节!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线