根据关键词文章采集系统(埋点埋点日志(2):文章画像存储结构(图))

优采云 发布时间: 2021-10-23 09:04

  根据关键词文章采集系统(埋点埋点日志(2):文章画像存储结构(图))

  分享

  埋点日志的数据结构如下:

  {

"actionTime":"2019-04-10 18:15:35",

"readTime":"",

"channelId":0,

"param":{

"action":"exposure",

"userId":"2",

"articleId":"[18577, 14299]",

"algorithmCombine":"C2"

}

}

  (2) ETL

  使用 Flume 定期和增量地采集日志并将其构建到 Hive 中

  3. 建立线下文章人像

  文章头像就是为每个文章定义一些词。主要包括关键词和主题词。

  关键词:文章中一些权重较高的词。

  主题词:标准化处理、文章中出现的同义词、计算结果中出现频率高的词。

  (1) 构造方法

  关键词:TEXTRANK计算的TOPK词和权重

  主题词:TEXTRANK的TOPK词与ITFDF计算的TOPK词的交集

  (2) 文章肖像存储结构

  hive> desc article_profile;

OK

article_id int article_id

channel_id int channel_id

keywords map keywords

topics array topics

hive> select * from article_profile limit 1;

OK

26 17 {"策略":0.3973770571351729,"jpg":0.9806348975390871,"用户":1.2794959063944176,"strong":1.6488457985625076,"文件":0.28144603583387057,"逻辑":0.45256526469610714,"形式":0.4123994242601279,"全自":0.9594604850547191,"h2":0.6244481634710125,"版本":0.44280276959510817,"Adobe":0.8553618185108718,"安装":0.8305037437573172,"检查更新":1.8088946300014435,"产品":0.774842382276899,"下载页":1.4256311032544344,"过程":0.19827163395829256,"json":0.6423301791599972,"方式":0.582762869780791,"退出应用":1.2338671268242603,"Setup":1.004399549339134} ["Electron","全自动","产品","版本号","安装包","检查更新","方案","版本","退出应用","逻辑","安装过程","方式","定性","新版本","Setup","静默","用户"]

Time taken: 0.322 seconds, Fetched: 1 row(s)

  (3) 实现步骤

  hive> select * from textrank_keywords_values limit 10;

OK

98319 17 var 20.6079

98323 17 var 7.4938

98326 17 var 104.9128

98344 17 var 5.6203

98359 17 var 69.3174

98360 17 var 9.3672

98392 17 var 14.9875

98393 17 var 155.4958

98406 17 var 11.2407

98419 17 var 59.9502

Time taken: 0.344 seconds, Fetched: 10 row(s)

hive> desc textrank_keywords_values;

OK

article_id int article_id

channel_id int channel_id

keyword string keyword

textrank double textrank

  hive> select * from article_profile limit 1;

OK

26 17 {"策略":0.3973770571351729,"jpg":0.9806348975390871,"用户":1.2794959063944176,"strong":1.6488457985625076,"文件":0.28144603583387057,"逻辑":0.45256526469610714,"形式":0.4123994242601279,"全自":0.9594604850547191,"h2":0.6244481634710125,"版本":0.44280276959510817,"Adobe":0.8553618185108718,"安装":0.8305037437573172,"检查更新":1.8088946300014435,"产品":0.774842382276899,"下载页":1.4256311032544344,"过程":0.19827163395829256,"json":0.6423301791599972,"方式":0.582762869780791,"退出应用":1.2338671268242603,"Setup":1.004399549339134} ["Electron","全自动","产品","版本号","安装包","检查更新","方案","版本","退出应用","逻辑","安装过程","方式","定性","新版本","Setup","静默","用户"]

Time taken: 0.322 seconds, Fetched: 1 row(s)

  4. 建立线下用户画像

  业界对用户画像有两种截然不同的解读:

  User Persona,用户角色:Persona 是真实用户的虚拟代表,是基于一系列真实数据的目标用户模型。通过调查和问卷了解用户,根据目标、行为、观点的差异将其区分为不同类型,并从中提取典型特征,并对其进行姓名、照片、人口统计元素、场景等描述。一个Persona就形成了。用户角色是用户群体属性的集合,不需要指代特定的人,而是目标群体“特征”的组合。用户配置文件:用于描述用户数据的标签变量的集合。User Profile主要用于描述单个用户不同维度的属性,也可以用于描述一个用户群体。

  用户画像的核心工作是给用户贴标签。标签通常是人为指定的高度精炼的特征,例如年龄、地区、兴趣等。通过从不同维度对用户进行标注,我们得到了对用户整体的完整描述。如下图所示,一般用户画像的维度主要包括:

  (1) 基本属性:指长期不变化(如性别)或变化不频繁(如年龄增加1年)的属性。标签的有效期超过一年月 。

  (1) 用户兴趣:指用户在一段时间内的行为偏好;例如,在过去一周内,用户频繁搜索手机相关信息、查看手机价格等,则为推断用户有“手机”兴趣,兴趣随时间变化迅速,标签具有很强的时效性,我们一般称之为短期兴趣或商业即时兴趣;如果用户长期关注宠物,时间(如连续一年或更长时间)等相关信息,推断用户对“宠物”有长期兴趣。

  

  不同的业务场景对用户画像有不同的要求。我们需要根据我们的实际业务需求,构建一个符合我们自己业务场景的用户画像系统。但是对于年龄、性别、*敏*感*词*、婚姻等基本属性这样的数据,没有必要为每个业务都投入重复的人力。

  (1) 构建方法5. 离线构建文章 功能

  文章特征包括文章关键词权重、文章通道和文章向量。我们先看文章头像

  文章关键词 和它的权重是通过“文章Portrait”中的TEXTRANK 获得的。本节首先通过word2vec找到文章向量,文章向量可用于计算文章的相似度。

  6. 建立线下用户特征 7. 多渠道召回

  Recall层:负责从数百万个item中快速找到匹配用户兴趣的成百上千个item

  排序层:负责对召回的物品进行评分和排序,从而选出用户最感兴趣的前K个物品

  (1) 不同场景下的常见召回方案

  召回层在缩小排序层的排序范围的同时,也决定了推荐效果的上限。如果召回的内容不够准确,再强大的排名模型,也无法向用户返回准确的推荐列表。因此,召回层非常重要。常用的召回方法可分为基于内容的召回和基于行为的召回。两种召回方式各有优缺点,相辅相成,共同提高召回质量。

  目前,不同的召回方法可以用于不同的场景:

  个性化推荐后线下部分(更多用户点击行为,完善用户画像)建立长期用户兴趣档案(详解):包括线下部分召回用户兴趣特征训练和各维度排名模型(2)基于模型的离线召回:ALS(3)基于内容的召回8.排序

  排序主要分为两个阶段,细排序和粗排序。两者的主要区别在于候选集的大小不同。粗排序的输入候选集在1000级,精细排序只有100级。候选集数量的不同决定了粗排序会有更高的性能要求。因此,在特征中只能选择少量粗粒度、高辨别力的特征,在模型端只能选择线性模型,或者复杂度低的深度模型。其他部分粗编的工作与精编类似。在这里,我们将重点介绍精细安排。

  在精细排序阶段,需要对粗排序候选池中的ItemList进行打分。这个分数是针对每个用户对候选文章的点击概率的预测,即Ctr估计。该业务每天有数千万活跃用户。这些用户的每一次刷新、点击、转发、点赞,都会带来海量的真实数据。我们需要使用这些海量日志进行模型训练,对用户偏好进行建模。

  (1)CTR预估-行业主流排名模型宽模型+深度模型深度模型(2)CTR预估点击率预测结果模型评估通过LR(逻辑回归)模型-Accuracy和AUC9.推荐中心推荐数据多级缓冲补底(超时截断)综合资料10.参考文献

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线