免规则采集器列表算法(今日头条算法原理曹欢欢:本次推动行业问诊算法)
优采云 发布时间: 2022-01-12 08:14免规则采集器列表算法(今日头条算法原理曹欢欢:本次推动行业问诊算法)
本文主要分享今日头条推荐系统的概述以及内容分析、用户标签、评价分析、内容安全的原理。
如今,算法分发已经成为信息平台、搜索引擎、浏览器、社交软件等几乎所有软件的标准功能,但与此同时,算法也开始面临质疑、挑战和误解。今日头条的推荐算法自2012年9月第一版开发并运行以来,经历了四次重大调整和修订。
今天今日头条委托资深算法架构师曹欢欢博士为大家揭秘今日头条的算法原理,以推动全行业的咨询算法和建议算法;通过让算法透明化,消除社会各界对算法的误解,逐步推动整个行业让算法变得更好,造福社会。
以下为《今日头条算法原理》全文:
今日头条高级算法架构师曹欢欢:
本次分享将主要介绍今日头条推荐系统的概述以及内容分析、用户标签、评价分析、内容安全等原理。
一、系统概述
如果用正式的方式描述推荐系统,它实际上是一个拟合用户对内容的满意度的功能。该函数需要输入三个维度的变量。
第一个维度是内容。今日头条现在是一个综合性的内容平台。图文、视频、UGC短视频、问答、微头条。每个内容都有自己的特点。需要考虑如何提取不同内容类型的特征进行推荐。
第二个维度是用户特征。它包括各种兴趣标签、职业、年龄、性别等,以及许多模型描绘的隐性用户兴趣。
第三个维度是环境特征。这是移动互联网时代的推荐功能。用户随时随地移动,信息偏好在工作场所、通勤、出行等不同场景发生变化。
结合这三个维度,模型会给出一个估计,即推荐内容是否适合这个场景下的这个用户。
这里还有一个问题,如何引入无法直接衡量的目标?
在推荐模型中,点击率、阅读时间、点赞、评论、转发、点赞都是可以量化的目标。模型可以直接拟合做预测,看线上的改进就知道做的好不好。然而,一个服务于众多用户的*敏*感*词*推荐系统,并不能完全用指标来评价,引入数据指标以外的元素也很重要。
例如广告和特殊内容频率控制。问答卡是一种特殊形式的内容。推荐的目标不是让用户浏览,而是吸引用户回答并为社区贡献内容。需要考虑如何将这些内容与普通内容混合,以及如何控制频率控制。
此外,出于内容生态和社会责任的考虑,打压低俗内容、打压头条方和低质量内容、置顶、加权、侵入重要新闻、降低低级权利等平台。账号内容都是自己无法完成的算法。,需要对内容进行进一步干预。
下面我将根据上述算法目标简单介绍如何实现。
前面提到的公式 y = F(Xi , Xu , Xc) 是一个非常经典的监督学习问题。可实现的方法有很多,如传统的协同过滤模型、监督学习算法Logistic Regression模型、基于深度学习的模型、Factorization Machine和GBDT等。
一个优秀的工业级推荐系统需要一个非常灵活的算法实验平台,可以支持多种算法组合,包括模型结构调整。因为很难有一个适用于所有推荐场景的通用模型架构。结合LR和DNN现在很流行,Facebook几年前也结合了LR和GBDT算法。今日头条旗下的几款产品都使用了同样强大的算法推荐系统,但模型架构会根据不同的业务场景进行调整。
模型结束后,再来看看典型的推荐特征。主要有四种类型的特征将在推荐中发挥重要作用。
第一类是相关性特征,它评估内容的属性以及它是否与用户匹配。显式匹配包括关键词匹配、类别匹配、来源匹配、主题匹配等。和FM模型一样,也有一些隐式匹配,可以从用户向量和内容向量的距离推导出来。
第二类是环境特征,包括地理位置和时间。这些都是偏置特征,也可以用来构建一些匹配特征。