技巧:实例解析关键词聚类的方法策略

优采云 发布时间: 2020-09-03 19:41

  示例分析关键词聚类方法和策略

  最近,马海翔接手了*敏*感*词*的网站。首先要做的是分析此网站的流量来源。其中,最麻烦的是源关键词的聚类和集成。

  所谓的关键词聚类是将具有明显领域特征的单词和短语用作聚类对象。在分类系统的*敏*感*词*分层分类语料库中,使用原创文本分类特征提取算法对领域中的单词进行聚类。通过控制词频的影响,分别获得领域专用词和领域专用词。

  

  因此,如果要进行这种关键词聚类,则必须具有一些基本信息和基本数据作为背景。在这里,我将使用马海翔博客的平台与您一起分析关键词聚类的方法和策略:

  1、百度商业词聚类模型

  对于某些医疗SEO,在查看行业新闻时,我们经常讨论一个话题,即百度医疗行业的收入贡献率是多少? ,实际上是每个人的轶事,在2005年甚至2006年之前,百度本身都没有这样的数据。

  当时,百度有一个简单的客户分类,由客户服务部门提交。然后,我们查看了消费的行业分布,结果显示超过50%属于其他类别。该结果基本上是不可读的。

  然后,我想知道商业术语是否可以直接组合到各个行业中。当时我在产品部门,与反欺诈点击合作的工程师是张怀廷。这是算法大师。那年他的毕业论文是协会规则和聚类。算法,我去问他,他说了很多,我大部分都不懂,但是我可能知道一点,然后我问他一份论文,看了一下,但是我听不懂太好了,依靠我的肤浅理解。只要做到这一点,然后就真的完成了。

  我的出发点是假设客户本身具有行业属性(如果不存在此假设,那将是一无所有),我认为每个客户提交的关键词都是相互关联的。如果两个关键词由不同的客户同时提交,则它们的相关性将相应提高。这是最基本的定义,称为通用推荐号,也是最容易计算的值。

  但是,存在一个问题,仅依赖于常见建议的数量,即它将导致许多单词与流行单词相关联。这是不合理的。我记得当时它似乎是在线书店的推荐购买专栏。显然很受欢迎。书籍,似乎也基于共同的推荐。

  问题1:A和B具有50个联合推荐,A和C具有30个联合推荐,但是B单词是一个受欢迎的单词,总共有2000个客户提交的内容; C是一个不受欢迎的词,只有50个客户提交。 A和B之间的相关性高还是A和C之间的相关性高?

  问题2:客户1提交了10,000个单词(与Ali真正提交的单词相似);客户2提交了20个单词,客户1提交的10,000个单词与客户2之间的提交之间的相关性是否一致?

  考虑到这两个问题,我们需要调整权重,然后计算单词之间的相关值。那么,应该如何确定重量?

  我制作了一个设置重量的程序。实施该程序只花了不到一个下午的时间,然后我将程序运行了大约1到2个小时(当时,百度的业务术语还不多,客户也不多,现在我的程序实际上还不够高效)。

<p>然后,我创建了一个Web显示界面,该界面可以任意输入一个单词,列出其相关单词和相关值,目视检查不良情况,分析参数问题,修改参数,然后再次运行。在运行了大约两到三天的n次之后,我感觉结果几乎是相同的,并且单词与单词之间的关系已经建立。考虑第二步,聚类。 (那时,我知道很多奇怪的商务词汇,睁开了眼睛,完全改变了我对互联网行业的理解,例如白*敏*感*词*,黄大仙……,我不再谈论这个领域了。)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线