核心方法:推荐算法Rerank二次重排序 - LR、GBDT、随机森林、神经网络、L2R
优采云 发布时间: 2022-12-19 20:09核心方法:推荐算法Rerank二次重排序 - LR、GBDT、随机森林、神经网络、L2R
课程介绍
推荐的 Rerank 排序有几种应用场景。 一种是在离线计算时使用Rerank排序算法预先为每个用户计算推荐结果,另一种是在实时在线的网页推荐引擎中进行二次融合排序。 但是不管用哪一个,算法都是一样的。 比如用逻辑回归、GBDT、随机森林、神经网络等来预测这个商品被点击或购买的可能性的概率。 使用的模型是一样的,预测的时候也是一样的进行特征转换。 一般会封装一个通用的方法,用于离线和在线场景调用。
推荐的 Rerank 排序有以下三种思路:
1. 基于逻辑回归、GBDT、随机森林、神经网络的分类思想进行二次排序
2. Secondary sorting based Learning to rank排序学习思路
3、基于加权组合公式规则的二次排序
我们的系列课程将全面深入地讲解这三种实现方式:
1. 基于逻辑回归、GBDT、随机森林、神经网络的分类思想进行二次排序
在进行二次排序之前,首先要有一组候选结果。 简单地说,预测用户最有可能购买哪种产品并不能预测所有产品,除非你的数据库中有成千上万的产品。 事实上,电商网站上的商品一般都是几万,甚至几百万SKU量级。 如果你预测一次,你可能不知道运行何时结束。 因此,一般的处理方法是在一个小的候选集上生成的。 你可以把这个候选集想象成一个粗略的过滤器。 当然,这个粗略的筛选并没有你想的那么粗,其实是通过算法得到的,准确率也很好。 只有通过Rerank二次重排序算法,才能将准确率提升到一个更高的水平。 至于推荐效果能提高多少,就看你在特征工程和调参方面做得好不好。 但一般来说,如果推荐效果能提升10%以上,就认为优化效果非常显着。 当然最高涨几倍也是可以的。
更多内容和源代码...
2. Secondary sorting based Learning to rank排序学习思路
Learning to Rank 排名学习是推荐、搜索、广告的核心方法。 排序结果的好坏极大地影响着用户体验、广告收入等。排序学习可以理解为机器学习中对用户进行排序的一种方法。 这是一个受监督的机器学习过程。 对于每个给定的查询-文档对,提取特征,并通过日志挖掘或人工标注获得真实的数据标注。 然后对模型进行排序,使输入可以与实际数据相似。
常用的排序学习分为三种:PointWise、PairWise和ListWise。
1)逐点
单文档方式的处理对象是单个文档。 将文档转换为特征向量后,机器学习系统根据从训练数据中学习到的分类或回归函数对文档进行评分。 评分结果为搜索结果或推荐结果。
2)配对
对于搜索或推荐系统,在收到用户查询后,系统会返回一个相关文档的列表,因此问题的关键是确定文档之间的顺序关系。 单文档法完全根据单个文档的分类分数计算,没有考虑文档之间的顺序关系。 文档对法会着重于向量来判断文档的顺序关系是否合理。 之所以叫文档对法,是因为这种机器学习方法的训练过程和训练目标是判断任意两篇文档组成的文档对是否满足顺序关系,即判断D0C1是否应该排序在 DOC2 前面。 常用的 PairWise 实现包括 SVM Rank、RankNet 和 RankBoost。
3)列表
单文档方法将训练集中的每个文档作为一个训练实例,文档对方法将同一查询的搜索结果中的任意两个文档对作为一个训练实例。 文件列表法不同于上述两种方法。 ListWise方法直接考虑整体序列,针对Ranking评价指标进行优化。 比如常用的MAP、NDCG。 常用的ListWise方法有:LambdaRank、AdaRank、SoftRank、LambdaMART。
4)Learning to rank indicators简介
(1) MAP(平均精度):
假设有两个话题,话题1有4个相关网页,话题2有5个相关网页。 系统检索到主题1的4个相关网页,排名分别为1、2、4、7; 对于主题2,它检索了3个相关网页,它们的排名分别为1、3和5。 对于主题 1,平均准确率为 (1/1+2/2+3/4+4/7)/4=0.83。 对于题目2,平均准确率为(1/1+2/3+3/5+0+0)/5=0.45。 那么MAP=(0.83+0.45)/2=0.64。
(2) NDCG(Normalized Discounted Cumulative Gain):
推荐系统返回一些项目并形成一个列表,我们想计算这个列表有多好。 每个项目都有一个关联的分值,通常是一个非负数。 这就是增益(gain)。 此外,对于这些没有用户反馈的项目,我们通常将它们的增益设置为 0。现在,我们将这些分数相加,即 Cumulative Gain。 我们更喜欢查看位于列表前面的最相关的项目,因此在将分数相加之前,我们将每个项目除以递增的数字(通常是项目位置的对数),即折扣值,并且得到DCG。
DCG 不能直接在用户之间进行比较,因此我们将它们归一化。 当使用非负相关分数时,最坏的情况是 DCG 为 0。 为了得到最好的,我们将测试集中的所有项目按理想顺序排列,取前 K 个项目并计算它们的 DCG。 然后将原创DCG除以理想DCG得到NDCG@K,它是0到1之间的一个数。你可能已经注意到我们用K来表示推荐列表的长度。 这个数字是由专业人士指定的。 您可以将其视为对用户可能注意到的项目数量的估计,例如 10 或 50,这是更常见的值。
对于MAP和NDCG这两个指标,NDCG是比较常用的。 基于监督分类思想的 Learning to Rank 和 Rerank 二级排序整体效果相差不大,关键还是要看特征工程和调参。
更多内容和源代码...
3、基于加权组合公式规则的二次排序
上课以获得...
课程链接
知名互联网一线达人陈静蕾全程亲自为老师授课:
陈静蕾是创始人、CEO兼CTO。
北京充电我科技*敏*感*词*创始人、CEO*敏*感*词*场社交招聘、内容娱乐等,在市场营销领域拥有丰富的经验。 在技术领域,尤其是在大数据和人工智能领域,具有丰富的算法工程实施实践经验。 其中,他在猎聘网任职期间领导的推荐算法系统项目获得了公司优秀项目奖,推荐效果提升了5倍。
目前专注于大数据和人工智能驱动的上班族在线教育行业。 开发了充值APP和网站,利用深度学习算法、NLP、推荐引擎等技术,高效提升在线学习效率。
App公司品牌介绍:
带电? APP是专注于上班族职业培训收费学习的在线教育平台。
特点如下:
【各行业岗位】-专注提升上班族职业技能
课程资料涵盖所有行业和岗位,无论你是上班族、高管,还是创业者,都有免费的视频和文章供你学习。 其中大数据人工智能AI、区块链、深度学习是互联网一线工业级的实战经验。 除了学习专业技能外,还有通用的职场技能,如企业管理、股权激励与设计、职业生涯规划、社交礼仪、沟通技巧、演讲技巧、会议技巧、发邮件技巧、如何缓解工作压力、人际关系等,全面提升你的专业水平和综合素质。
【大课堂】-学习大人物的工作经验
1、智能个性化推荐引擎:海量免费视频课程,覆盖全行业全岗位,通过对不同行业岗位技能词偏好的挖掘分析,智能推荐最适合你当前岗位最感兴趣技能的技能学习课程.
2.在线搜索讲座:输入关键词搜索海量视频课程,你需要的应有尽有,总有适合你的免费课程。
3.讲座回放详情:视频回放详情,除了播放当前视频外,还有相关视频课程和文章阅读推荐,强化某项技能的知识点,让你轻松成为某领域资深专家.
【优质阅读】——技能文章趣味阅读
1、个性化阅读推荐引擎:千万文章免费阅读,覆盖全行业、全岗位,通过对不同行业岗位技能词偏好的挖掘分析,智能推荐匹配最感兴趣技能的技能学习文章你现在的位置。
2.阅读全网搜索:输入关键词搜索海量文章阅读,你需要的应有尽有,总有你感兴趣的技能学习文章。
【机器人老师】- 趣味学习提升个人
基于搜索引擎和人工智能深度学习训练,打造更懂你的机器人老师,用自然语言与机器人老师聊天学习,寓教于乐,高效学习,快乐生活。
【短期课程】——高效学习知识
海量短期课程,满足你时间碎片化的学习,快速提升某个技能知识点。
解决方案:如何快速诊断一个网站的SEO现状
1、如果网站已经在百度站长平台提交过,那么您会看到网站排序后提供给您的信息,包括网站的连接率,是否机器人被ban了,网站重要页面有没有404等等。同时Site会让大家看到哪些页面比较重要。网站的每一个收录下面都可以看到一个重要的页面内容:Snapshots。点击“百度快照”链接,可以看到网页的快照信息。快照信息将帮助您了解百度更新网站的频率。
2.如果您对网站的收录已经有了基本的了解,可以咨询网站的业内人士了解网站相关的比赛网站 > business Which ones,然后得到这些在业务上有竞争力的网站域名,按照上面的方法快速分析出竞争对手的收录情况,通过页数收录 、网站快照时间等,可以对网站的比赛情况做出初步判断。在理解收录的基础上,进入网站关键词的分析。使用搜索的方式快速了解关键词情况并参考对方定义的关键词网站,使用这些关键词在百度上搜索,通过搜索结果, 您可以找到以下信息。(1) 网站 目前有排名吗?如果网站排在搜索结果的第1页到第3页,证明网站目前的SEO情况还是不错的;如果这些关键词,搜索10页都找不到网站的链接,这就证明网站的SEO情况确实不容乐观。(2) 通过搜索结果页面,您可以查看当前排名第一的网站。这些比赛也是关键词潜在的竞争对手。通过对排名的分析,可以知道在竞争对手中的大概位置,或者行业或领域的SEO排名。(3) 通过搜索结果页面,可以分析排名靠前的网站的标题和描述是如何设置的,并且你可以从这些内容中找到很多有用的信息,比如每个网站的定位,服务覆盖范围,网站的关键词定位等等可用的和正在服务的网站 通过对比,你可以找出不同的地方,也许你可以借鉴别人的词汇、描述等。 (4) 通过搜索结果页面,可以看到是否有商家投放广告。如果你发现很多宣传信息,说明这个关键词或者这个行业的竞争比较激烈。你可以找出不同的地方,也许你可以从别人的词汇、描述等方面学习。 (4) 通过搜索结果页面,你可以看到是否有商家投放了广告。如果你发现很多宣传信息,说明这个关键词或者这个行业的竞争比较激烈。你可以找出不同的地方,也许你可以从别人的词汇、描述等方面学习。 (4) 通过搜索结果页面,你可以看到是否有商家投放了广告。如果你发现很多宣传信息,说明这个关键词或者这个行业的竞争比较激烈。
3、使用Mexa工具快速了解综合排名和流量状况完成收录和关键词的基本分析后,就可以使用了。Alexa工具的数据可以用来做很多有用的分析,获取Alexa数据的便捷方式是直接登录。Alexa 官方 网站。1.查看网站2的全球排名和国内排名。分析网站的流量趋势 查看网站的长期流量趋势、搜索流量趋势、搜索流量占比等,可以分析网站的竞争趋势。
3. 网站基础子域名及各子域名导流率分析 通过分析网站基础子域名及各子域名导流率,我们可以知道网站的主营业务或者流量来源可能依赖于哪些业务模块。如果当前吸引流量的重要域名或渠道与公司定义的业务重点不同,那么SEO的方向可能会出现偏差。这种偏差可能是SEO的失误,也可能是SEO的刻意引导,即完全从引流的角度进行设计,如图5.8所示。在完整分析了收录、关键词和Alexa数据之后,可以说对网站有了一个基本的判断 从外部的角度来看。接下来,我们可以从网站内部管理的角度分析一下网站的基本情况。打开网站主页,快速查看以下信息。・网站的介绍,包括网站的定位和主营业务。・网站的渠道,快速分析网站的渠道划分和业务差异,从网站获取业务推广要点。・打开首页源代码,查看是否设置了首页的Meta、H1~H6等基本SEO参数。这是判断网站SEO程度的基本参考。・采样2~3个频道页面的源代码,同时检查是否设置了Meta、H1~H6等基本SEO参数,目的如上所述。・采样几个底层内容页面,打开页面源码,同时查看是否设置了Meta、H1~H6等基本SEO参数,目的同上。・快速打开网站robots文件,可以知道网站哪些页面不允许被搜索引擎抓取,里面写了哪些具体的网站规则,有助于对SEO人员快速了解网站的运营方向很有帮助。比如在Robots中禁止抓取所有动态页面,那么我们可以知道网站可能有两套页面系统。专业SEO人员通过以上分析,其实对于网站的整体情况有了初步的判断,但是在提出问题和优化建议之前,需要一些数据辅助,包括网站页数、网站关键词排名数据、网站的真实流量数据等。如果网站已经采集这些数据,将非常方便,可以直接用于分析;如果没有,只能要求公司开始做一些数据采集的工作,然后继续跟踪数据的反馈结果。
4. 2.利用数据有效判断网站的整体SEO状况 如何利用数据是另一个很重要的问题。首先,得到网站页数数据后,需要先进行收录分析。如果网站pages收录的比例很低,证明网站pages收录可能存在比较大的问题。一个网站页面有收录问题一般如下。1、网页内容质量不好。例如,网站 的大部分内容是否来自 采集?内容完全取决于采集。这个问题在很多知识型网站中都会存在。一些网站利用技术手段设计大量结构化问答,提前抛出大量问题,然后使用 采集 方法匹配答案。医学 网站 可以通过以下方式产生问题。×××怎么办?(适用于疾病,比如感冒了怎么办?发烧了怎么办?肺炎了怎么办?得了脑瘤怎么办?)×××怎么办?(适用于特殊情况,比如怀孕感冒了怎么办?做?)通过这种结构化的方法,让网站在短时间内生成大量问题,然后匹配大量通过问题匹配等方式从网上搜集答案,将答案采集带过来,形成网站内容。这种方法实质上会在 Internet 上创建大量重复内容,这会对 收录 产生非常糟糕的影响。此外,即使是 网站 的内容 生成本身有可能是低质量的。比如论坛网站有大量的海报和广告,或者对于一个好问题,大量的回复都是“点赞”,使得页面内容比较空洞,也会影响网站收录造成比较大的影响。通过这种分析,我们可以很快知道网站运营中的一些不足,而不仅仅是SEO的问题。2、内链问题和sitemap问题网站网页收录比例低也可能是因为网站内链设置不好,导致大量历史页面有成为蜘蛛无法到达的“孤岛”。如果 网站 站点地图不能同时正常运行,则有一个 收录 页面有问题。这时候可以从网站的层级设计、网站的目录页、网站在文中的内链等多角度分析。获取到关键词数据后,可以更准确的了解网站 关键词的实际情况,哪些词已经排名,大概位置,哪些关键词还没有排名, 以及目标位置 How many wait. 网站的业务优先级可以通过关键词的分析看出。网站 关键词 更准确地说,哪些词已经排名,大概位置,哪些关键词还没有排名,目标位置多少等等。网站的业务优先级可以通过关键词的分析看出。网站 关键词 更准确地说,哪些词已经排名,大概位置,哪些关键词还没有排名,目标位置多少等等。网站的业务优先级可以通过关键词的分析看出。
5、获取流量数据后,可以分析网站的流量构成是否合理。一般来说,大型门户网站的搜索引擎引流比例占整个网站流量比例的30%到50%。如果低于这个比例,证明SEO的空间很大。如果高于50%,是否证明优化空间不大?不能贸然下结论,需要结合网站所在行业进行分析。有些行业SEO引流高,比如知识型网站。此外,还需要确认网站是否进行了SEM推广,因为在大多数网站统计系统中,技术人员没有办法区分纯自然搜索流量和SEM流量,所以如果只是为了分析搜索流量数据,可能会出现较大偏差。比如一个网站的搜索流量每天可能有2500个IP,整个网站有5000个IP。从比例上来说,搜索流量占比50%,看似是一个健康的数字,但是如果2500个引流IP中有2000个是通过SEM点击的,那么问题就比较大了,就是SEO流量占比其实是只有10%,远非正常状态,这也意味着如果网站突然停止SEM推广,那么流量会有很大的波动,来自搜索引擎的流量会急剧下降,影响会比较大关于业务的正常运作。所以如果仅仅针对搜索流量数据进行分析时,可能会出现较大的偏差。比如一个网站的搜索流量每天可能有2500个IP,整个网站有5000个IP。从比例上来说,搜索流量占比50%,看似是一个健康的数字,但是如果2500个引流IP中有2000个是通过SEM点击的,那么问题就比较大了,就是SEO流量占比其实是只有10%,远非正常状态,这也意味着如果网站突然停止SEM推广,那么流量会有很大的波动,来自搜索引擎的流量会急剧下降,影响会比较大关于业务的正常运作。所以如果仅仅针对搜索流量数据进行分析时,可能会出现较大的偏差。比如一个网站的搜索流量每天可能有2500个IP,整个网站有5000个IP。从比例上来说,搜索流量占比50%,看似是一个健康的数字,但是如果2500个引流IP中有2000个是通过SEM点击的,那么问题就比较大了,就是SEO流量占比其实是只有10%,远非正常状态,这也意味着如果网站突然停止SEM推广,那么流量会有很大的波动,来自搜索引擎的流量会急剧下降,影响会比较大关于业务的正常运作。每天500个IP,整个网站有5000个IP。从比例上来说,搜索流量占比50%,看似是一个健康的数字,但是如果2500个引流IP中有2000个是通过SEM点击的,那么问题就比较大了,就是SEO流量占比其实是只有10%,远非正常状态,这也意味着如果网站突然停止SEM推广,那么流量会有很大的波动,来自搜索引擎的流量会急剧下降,影响会比较大关于业务的正常运作。每天500个IP,整个网站有5000个IP。从比例上来说,搜索流量占比50%,看似是一个健康的数字,但是如果2500个引流IP中有2000个是通过SEM点击的,那么问题就比较大了,就是SEO流量占比其实是只有10%,远非正常状态,这也意味着如果网站突然停止SEM推广,那么流量会有很大的波动,来自搜索引擎的流量会急剧下降,影响会比较大关于业务的正常运作。