采集内容插入词库(8000万页游词库噪筛选分类见解)
优采云 发布时间: 2021-10-28 04:00采集内容插入词库(8000万页游词库噪筛选分类见解)
经过对8000万页游戏词库的去重、去噪、筛选和分类,我们最终得到了超过100万的数据量。剩余的 700 万条数据可以进行调整,以便后期维护。
马上就要开始着手做手游的词库了,在这个时间点,写一些词库维护的心得。
我们有 3 个用于页面游戏词库、游戏库、平台库等的库。游戏库和平台库按页面游戏策略、装备、礼包、开服等维度分类。其中,可以对“other.txt”进行分类。为了补充其他维度的数据,这里我们在做翻页词库的时候做了一次。
网页游戏词库后期,我们要结合数据库。我们的目标很简单,得到一个游戏词,找出他游戏的维度。至少可以覆盖90%的页面游戏词。
怎么做 关键是文件数据的结构化!每个词都是词根,用逗号隔开游戏和策略组合,形成行数据。
页面游戏数据库,需要制作6个表:页面游戏表、维度表、词库表、敏感词库表和词库与维度的关系表、词库与页面游戏词库的关系表。
然后进行数据导入,因为我们把之前的文件数据结构化了,所以我们可以根据行数据中的页游词、维度、游戏的关系将数据导入到数据库表中。
这对词库的维护有什么帮助?
以后我们会做网页游戏的seo项目。我们有大量现成的数据,覆盖率在90%左右,可以立即使用。之后我们可以通过其他渠道补充数据:数据挖掘、流量统计软件等,大大节省了我们的数据采集、筛选等大量耗时的中间环节!