根据关键词文章采集系统(埋点埋点日志(2):文章画像存储结构(图))
优采云 发布时间: 2022-02-20 11:02根据关键词文章采集系统(埋点埋点日志(2):文章画像存储结构(图))
分享
埋藏日志数据结构如下:
{
"actionTime":"2019-04-10 18:15:35",
"readTime":"",
"channelId":0,
"param":{
"action":"exposure",
"userId":"2",
"articleId":"[18577, 14299]",
"algorithmCombine":"C2"
}
}
(2) ETL
通过 Flume 将日志定时和增量采集和结构化存储到 Hive
3. 离线构建文章 肖像
文章Portrait 就是为每个文章定义一些词。主要包括关键词和主题词。
关键词:文章 中权重较高的一些词。
主题词:归一化,出现在文章中的同义词,计算结果中出现频率高的词。
(1) 构建方法
关键词:TEXTRANK 计算的 TOPK 词和权重
主题词:TEXTRANK 的 TOPK 词与 ITFDF 计算的 TOPK 词的交集
(2) 文章图像存储结构
hive> desc article_profile;
OK
article_id int article_id
channel_id int channel_id
keywords map keywords
topics array topics
hive> select * from article_profile limit 1;
OK
26 17 {
"策略":0.3973770571351729,"jpg":0.9806348975390871,"用户":1.2794959063944176,"strong":1.6488457985625076,"文件":0.28144603583387057,"逻辑":0.45256526469610714,"形式":0.4123994242601279,"全自":0.9594604850547191,"h2":0.6244481634710125,"版本":0.44280276959510817,"Adobe":0.8553618185108718,"安装":0.8305037437573172,"检查更新":1.8088946300014435,"产品":0.774842382276899,"下载页":1.4256311032544344,"过程":0.19827163395829256,"json":0.6423301791599972,"方式":0.582762869780791,"退出应用":1.2338671268242603,"Setup":1.004399549339134} ["Electron","全自动","产品","版本号","安装包","检查更新","方案","版本","退出应用","逻辑","安装过程","方式","定性","新版本","Setup","静默","用户"]
Time taken: 0.322 seconds, Fetched: 1 row(s)
(3) 实施步骤
hive> select * from textrank_keywords_values limit 10;
OK
98319 17 var 20.6079
98323 17 var 7.4938
98326 17 var 104.9128
98344 17 var 5.6203
98359 17 var 69.3174
98360 17 var 9.3672
98392 17 var 14.9875
98393 17 var 155.4958
98406 17 var 11.2407
98419 17 var 59.9502
Time taken: 0.344 seconds, Fetched: 10 row(s)
hive> desc textrank_keywords_values;
OK
article_id int article_id
channel_id int channel_id
keyword string keyword
textrank double textrank
hive> select * from article_profile limit 1;
OK
26 17 {
"策略":0.3973770571351729,"jpg":0.9806348975390871,"用户":1.2794959063944176,"strong":1.6488457985625076,"文件":0.28144603583387057,"逻辑":0.45256526469610714,"形式":0.4123994242601279,"全自":0.9594604850547191,"h2":0.6244481634710125,"版本":0.44280276959510817,"Adobe":0.8553618185108718,"安装":0.8305037437573172,"检查更新":1.8088946300014435,"产品":0.774842382276899,"下载页":1.4256311032544344,"过程":0.19827163395829256,"json":0.6423301791599972,"方式":0.582762869780791,"退出应用":1.2338671268242603,"Setup":1.004399549339134} ["Electron","全自动","产品","版本号","安装包","检查更新","方案","版本","退出应用","逻辑","安装过程","方式","定性","新版本","Setup","静默","用户"]
Time taken: 0.322 seconds, Fetched: 1 row(s)
4. 建立线下用户画像
业内对用户画像有两种截然不同的解读:
用户角色:角色是真实用户的虚拟表示,是基于一系列真实数据的目标用户模型。通过问卷调查了解用户,根据目标、行为和观点的差异,将用户分为不同类型,从中提取典型特征,并对其进行姓名、照片、人口统计因素、场景等描述。形成了一个角色。用户角色是用户群体属性的集合,它不需要指代特定的人,而是目标群体的“特征”的组合。用户配置文件:用于描述用户数据的标签变量的集合。User Profile主要用来描述单个用户不同维度的属性,也可以用来描述一个用户组。
用户画像的核心工作是给用户打标签。标签通常是人为指定的高度精细化特征的标识符,例如年龄、地区、兴趣等。通过从不同维度对用户进行标记,我们可以得到用户的整体情况。如下图所示,一般用户画像的维度主要包括:
(1) 基本属性:指在很长一段时间内不发生变化(如性别)或不经常变化(如年龄每年增加1岁)的属性。标签的有效期更长超过一个月。
(1) 用户兴趣:指用户在一段时间内的行为倾向;例如,如果用户在过去一周内频繁搜索手机相关信息、查看手机价格对比等,假设用户有“手机”兴趣,兴趣随时间快速变化,标签时效性强,我们一般称之为短期兴趣或商业即时兴趣;如果用户长期关注宠物较多过去一段时间(比如一年以上)的相关信息,推断用户对“宠物”的喜欢有长期的兴趣。
不同的业务场景对用户画像有不同的需求。我们需要根据我们的实际业务需求,构建一个适合我们业务场景的用户画像系统。但对于年龄、性别、*敏*感*词*、婚姻等基础属性数据,无需为每个业务投入人力重复建设。
(1) 构建方法5. 离线构建文章功能
文章 特征包括 文章关键词 权重、文章 通道和 文章 向量,我们首先阅读 文章 肖像
文章关键词 及其权重是通过“文章 肖像”中的 TEXTRANK 获得的。本节首先通过word2vec得到文章向量,文章向量可用于计算文章相似度。
6. 构建离线用户功能7. 多次召回
召回层:负责从数百万个物品中快速找到成百上千个匹配用户兴趣的物品
排序层:负责对召回的物品进行评分和排序,从而选出用户最感兴趣的前K个物品
(1) 不同场景下常见的召回方案
召回层在缩小排序层的排序范围的同时,也决定了推荐效果的上限。如果召回的内容不够准确,即使是最强大的排名模型也无法将准确的推荐列表返回给用户。所以召回层很重要。常见的召回方法可以分为基于内容的召回和基于行为的召回。两种召回方式各有优缺点,相辅相成,提高召回质量。
目前在不同的场景下可以使用不同的召回方式:
个性化推荐离线部分(更多用户点击行为,完善用户画像)建立用户长期兴趣画像(详细):包括用户兴趣特征各维度训练排序模型离线部分召回(2)模型-基于离线召回:ALS (3) Content-Based Recall8. Sorting
分选主要分为精分选和粗分选两个阶段。两者的主要区别在于候选集的大小不同。粗排序输入候选集在1000级,细排序只有100级。候选集数量的不同决定了粗排序会有更高的性能要求。因此,特征只能选择少量粗粒度和高判别力的特征,而模型侧只能选择线性模型,或者复杂度低。深度模型。粗分选其他部分的工作与精分选类似。在这里,我们专注于精细排序。
在细排序阶段,需要对粗排序候选池中的ItemList进行评分。这个分数是针对每个用户对候选文章的点击概率的预测,即Ctr预测。每天有数千万的活跃用户在业务中。这些用户的每一次刷新、点击、转发等,都会带来海量的真实数据。我们需要使用这些海量日志进行模型训练,从而对用户偏好进行建模。
(1) CTR预测-行业主流排名模型wide模型+deep模型deep模型(2)CTR预测通过LR(逻辑回归)模型CTR预测结果模型评估-准确率和AUC9.推荐中心推荐数据补充多级缓冲(超时截断)合并信息10.参考资料