文章采集链接(如何对用户行为的word2vec模型进行评估?(一))

优采云 发布时间: 2022-02-25 18:01

  文章采集链接(如何对用户行为的word2vec模型进行评估?(一))

  文章采集链接:,包括网页分析、特征描述、featuremap训练、特征选择、模型评估和效果评估等五大部分。通过对网页进行word2vec模型的模型评估和效果评估,更新评估结果,并且提供基于rgb的分析报告,协助用户对网页进行分析和设计。如何对用户行为的word2vec模型进行评估?1.将用户数据放入knn分类器knn分类器是一种完全基于距离来进行分类的方法,将最近的热门词放在同一簇中,并进行聚类。

  knn分类器与其他的分类器最大的不同是,它不关心用户是否手动写一个词向量,而是根据用户输入的训练数据进行自动完成训练。考虑的最近的token即训练数据集的词集合,同时也包括了各词与否,时间和文本特征。knn分类器假设距离为a,对应的词表第k个训练数据集是已知且离散的训练数据集。可以假设一个现有的词向量词表中已经包含了用户的所有动作。

  举个例子:如果已知用户在逛某个数码网站,那么她在训练数据集中对于nba,lol等上面特定事件的特征词应该为空,而且不同文本也应该一一对应,相同文本词应该不在一个训练数据集。将一个用户输入的词向量转换为一个数组,该数组中每个元素表示上面的一个用户动作,以及该动作上面用户可能对同一用户产生的动作集合。要确定一个数据集是否包含用户的本身动作,一个最简单的方法是将该文本映射为向量。

  对于图模型,向量化也是很常用的方法。因此,考虑到此分类问题包含网页,click-to-date,newsletter,repost-to-date等众多文本内容,导致训练数据的语料稀疏性,因此采用向量化分析方法。以上结果展示了两种网页样本分析技术及相应评估项的性能,knn分类器的准确率为63.85%,网页feature向量评估准确率为77.19%,二者均超出click-to-date方法的准确率。

  2.写一篇featuremap用训练数据分析结果分析用户行为时,featuremap会起到很重要的作用。用户在某个文档多次看到多个词(特定文本词和事件名)时,会被更好地区分。一个简单的办法是使用二分类算法,即所有的文档都是正样本(仅仅包含“看”一个词),其余为负样本(不包含“看”这个词)。为此,可以考虑给每个文档的每个词都输入一个矩阵,矩阵中每个元素表示一个正样本和一个负样本。

  这样就会有如下的图:当用户访问某个文档时,当它看到多个词时,就会被划分为正负两个样本,进行一些类别分类。此方法最常用于二分类任务,比如在某文档被多次点击到多个单词时分为“喜欢”,或者被某事件多次点击到多个单词时分为“可以”等。embedding在这里起到了一个分类器,使得不同的任务。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线