采集内容插入词库(8000万数据量的游戏行业词库,需要整理的流程)

优采云 发布时间: 2022-03-21 15:47

  采集内容插入词库(8000万数据量的游戏行业词库,需要整理的流程)

  首先,在构建行业词库之前我们先想一想:为什么要构建行业词库?

  从搜索引擎的性质思考,不管是今天的百度、谷歌、雅虎等,说白了都是做关键词搜索的,而关键词就是网站@的频道> 内容。一个网站@>应用得好关键词就像建立了一个强大的排水通道,这将使它在后期的施工过程中越来越有能力吸引交通。

  那么,如何构建行业词库呢?

  在这里,我得到了一个8000万数据的游戏行业词库,需要整理一下。排序过程如下:去重、去噪、筛选、敏感词筛选、重复去噪、正则化、去重、产品划分、产品属性维度分割。

  1 次重复数据删除

  8000万数据量去重,集中到1500万数据,占比近20%。第一次看到这个数据我并不感到惊讶。网站@>很多,整个行业的布局中出现很多重复的词,尤其是首页那些高流量的词,很正常。

  2 去噪

  初步去噪,直接删除识别ip段等数据,直接替换一些特殊符号。

  3 过滤器

  根据游戏词库,将1500万词库分为2个,得到1200万词库和300万页游戏词库。游戏部负责人的意思是,我们先从高级的300万词库开始,然后反复去噪,在短时间内使用这个库。

  4 筛选敏感词,反复去噪

  其实花费时间的过程就是这一步。你需要每天做一件事来找到敏感词。游戏行业的敏感词有哪些。较短的单词风险更大,应该谨慎,而较长的单词风险相对较小。词根是品牌词,比较直白,不是我们要找的词。比如《三国志·赵云》和《三国志无双页游》,这两个词的词根就是三国志。其实你觉得《三国志·赵云》需要删。确实和页游没有关系,但和三国志有关。这种词能吸引流量,其定位是吸引潜在的游戏用户群。但是,如果词根是形容词,

  去噪不仅仅是一项简单的任务,也是一项体力任务,但为什么不同的人效率不同,即使是最简单的事情也有它的本质。

  5 常规

  在词库筛选的过程中,你会发现很多游戏词都有一些脏词,比如后缀加三个零等,需要对数据进行整体调整,保证数据的准确性。

  6 再次去重

  数据正则化后,词库中会出现很多重复,需要进行两次去重。300万词库浓缩为->120万,1200万词库浓缩为->750万。

  7 产品事业部

  300万词库分为三类:页游、平台、其他。为什么要这样划分?首先,300万词库的词根属于页游品牌或平台业务或其他品类。300 万条去噪数据可以根据这 3 个标准库重新分类。在分类的过程中,有一点需要注意:26.5g血海贼王,不仅要出现在页游库中的“血海贼王”文件中,还应该出现在文件中平台库的名称“26.5g”出现在文件中。

  8 产品属性维度分解

  从第 7 步,我们得到了词库的文件。每个产品生成页面首先必须具有一定的维度。这里我主要关注:攻略,装备,礼包,辅助,开服表。

  这些维度也是我们以后想要采集文章的维度。120万的词库虽然很大,但实际上发现这些维度是划分的,还是有数据缺口的。在后期,这些数据可能会暂时采集来弥补。

  页游行业词库的构建帮助我们在后期生成大量的文章页面。通过强大的内部链结构,一方面增加了网站@>的体量和收录的规模。支持商品聚合页和商品页,同时通过词库的构建计算词与词的关系,然后用程序生成大量的标签页,支持文章 pages,这样的网站@>结构,网站上的资源极其丰富。如果在站外添加一定数量的资源,按照排名=内部因素+外部因素,网站@>的整体排名会有所提升。点击率=排名*文案,如果文案优化好,点击率会很高。有了排名和点击率,流量就OK了。由此可见,我们先做一个行业词库,而不是直接写文章,发外链。我们正在煞费苦心地磨刀。古语有云:磨刀不误砍柴。人生是事半功倍,何况这辈子还在seo世界!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线