网站内容营销(机器帮忙-最简单的机器方式则是“热门推荐”)

　　互联网商业化以来，无论是新闻客户端、视频网站还是电商平台……所有平台都默认自己是优秀的饲养员。(feed) 推送 (feed) 给用户。

　　这些育种者是训练有素的专业人士，用行话来说，网站编辑为用户设定议程，挑选符合大多数用户口味的内容。

　　后来，编辑们忙着用机器帮忙。最简单的机器方法是“热推荐”，比如根据点击次数或其他数据排序。

　　饲养员模式最大的问题是不了解食客的胃口，这会导致两个重大后果：一是食客不满意，不能满足用户的个性化需求；二是浪费了自己的资源，大量的长尾资源长期得不到。暴露，增加沉没成本。

　　有人发现了机器的好处。机器可以根据用户特征推荐内容。正如智能厨师可以根据每个用餐者的口味提供餐点一样，如果机器足够智能，它可以在一定程度上满足所有用户的个性化需求。这不就是内容行业的C2M吗？

　　准确地说，这就是内容分发的C2M。它与单个用户进行通信，跳出大众传播/焦点传播的刻板印象。是否足以彻底改变所有搜索引擎和门户网站网站的生活？

　　这种智能化的内容C2M有着深厚的时代背景。今天，你已经站在时代的边缘，看着AI技术引爆物联网，势不可挡的进入下一个信息核爆炸时代：信息终端爆炸、信息规模爆炸、信息平台爆炸…… …

　　信息高速公路上，你开过的车，走过的路都改变了规则，你熟悉的基于饲养员模型的知识框架面临颠覆。

　　在这个时代，饲养员模式已经崩溃，智能机器将是最大的变数。

　　出现的第一个场景是人类生产内容，机器分发内容。

　　出现的下一个场景是机器产生内容，机器分发内容。

　　内容产业正面临C2M革命，它会奏效吗？

　　“当然不是，机器很笨。” 如果你这么认为，那么不幸的是，你注定明天见不到太阳。

　　“当然。” 如果你这么认为，那么恭喜你掉进坑里。

　　真实的情况，你可能想不到。

　　一、内容C2M之路的本质是走向个性化传播

　　作为一个独立的研究方向，推荐系统的源头可以追溯到1990年代初期的协同过滤算法，中期的代表就是传统的机器学习算法，比如Netflix推广的潜在语义模型竞争，现在是更复杂的深度学习模型。

　　近年来，深度学习突飞猛进，让机器推荐成为整个互联网的太阳。在新技术的推动下，个性化通信也变得更加可行，更接近单用户通信。

　　(一）协同过滤失败

　　根据百科词条，协同过滤就是利用用户群体的偏好，向你推荐你感兴趣的信息。这些用户要么有相似的兴趣，要么有共同的经历，然后网站结合你的反馈（比如评分）进行过滤分析，帮助他人过滤信息。

　　当然，用户的偏好并不一定局限于特别感兴趣的信息，特别感兴趣的信息的记录也是相当重要的。协同过滤显示出极好的效果，开始称霸互联网行业。

　　最初，协同过滤被应用于邮件过滤。

　　1992 年，施乐公司的科学家提出了 Tapestry 系统。这是协同过滤系统设计最早的应用，主要是为了解决帕洛阿尔托研究中心的信息过载问题。该研究中心的员工每天都会收到大量的电子邮件，无法对其进行过滤和分类，因此研究中心开发了这个实验性邮件系统来帮助员工解决这个问题。

　　于是，协同过滤的思想开始应用于内容推荐。

　　1994年，美国明尼苏达州的GroupLens项目组建立了新闻筛选系统，可以帮助新闻读者过滤自己感兴趣的新闻内容。阅读内容后，读者会给出一个评分，系统会给分数。记录下来以备日后参考，前提是读者过去感兴趣的东西，将来也会对阅读感兴趣。如果读者不想透露自己的身份，也可以匿名评价。作为历史最悠久的内容推荐研究团队，GroupLens 于 1997 年创建了电影推荐系统 MovieLens，以及类似的音乐推荐系统 Ringo、音视频推荐系统 Video Recommender 等。

　　后来，又出现了另一个里程碑——电子商务推荐系统。

　　1998 年，亚马逊的 Linden 和他的同事申请了 item-to-item 技术的专利。

　　协同过滤算不算人工智能？从技术角度来看，它也属于人工智能的范畴。但必须指出，协同过滤算法相对弱智。无论是基于用户的协同过滤还是基于物品的协同过滤，推荐效果总是不尽如人意。

　　如何通过系统的方法论来指导推荐系统的持续优化？我们如何将复杂的现实世界因素纳入推荐结果？攻城狮曾经很大很大，重赏之下必有勇者。后来，终于有人发现了一种更灵活的思维方式。

　　（二）传统机器学习开始加速

　　2006 年，Netflix 宣布了 Netflix Prize。Netflix，一家老牌在线电影租赁公司网站，举办了一场竞赛，以解决电影评分预测问题的机器学习和数据挖掘问题。主办方为此投入巨资，声称能够将Netflix推荐系统Cinematch的准确率提高10%的个人或团队将获得100万美元的奖励！

　　Netflix在自己的博客上披露了很多海量数据，例如：

　　显然，面对这些海量数据，我们已经不能再依靠纯手工或小系统建立的分类标准来规范整个平台的用户偏好。

　　比赛开始一年后，Korbell 的团队以 8.43% 的进步赢得了第一阶段的奖项。他们投入了 2000 多个小时的努力，融合了 107 种算法。两种最有效的算法是：矩阵分解（通常称为 SVD，奇异值分解）和受限玻尔兹曼机 (RBM)。

　　矩阵分解作为协同过滤的补充，其核心是将一个非常稀疏的用户评分矩阵 R 分解为两个矩阵：User 特征矩阵 P 和 Item 特征矩阵 Q，并用已知数据构建这些向量并用于预测未知项目。该算法在有效提高计算精度的同时，还可以添加各种建模元素，整合更多样化的信息，更好地利用大量数据。

　　然而，矩阵分解也有其缺点。缺点是矩阵分解和协同过滤算法一样，属于监督学习的范畴，粗糙简单，适用于小型系统。互联网巨头面临的问题是，如果需要构建*敏*感*词*的推荐系统，协同过滤和矩阵分解需要很长时间。怎么做？

　　结果，一些攻城狮将注意力转向了无监督学习。无监督学习中聚类算法的本质是识别用户组，并向该组内的用户推荐相同的内容。当我们有足够的数据时，最好使用聚类作为第一步来缩小协同过滤算法中相关邻居的选择范围。

　　潜在语义模型使用聚类分析方法。它的一大优点是不仅可以做评分预测，还可以同时对文本内容进行建模，从而通过内容进行推荐的效果大大提升。

　　传统的分析方法在标记用户和根据标签映射到结果这两个步骤中都不是很准确。比如用户填写的年龄不一定是真的，或者不是所有的青少年都喜欢*敏*感*词*。潜在语义模型的核心是超越这些表面语义标签的维度，利用机器学习技术挖掘用户行为中更深层次的潜在相关性，从而使推荐准确率更高。

　　在Netflix Prize百万美元武术大赛的指挥下，世界人才频频亮相。2009年达到顶峰，成为推荐系统领域最具标志性的事件。本次比赛吸引了众多专业人士投身于推荐系统领域的研究，也让这项技术从专业圈渗透到商业领域，激起了热烈的热情。讨论逐渐引起了主流网站的觊觎，基于内容的推荐、基于知识的推荐、混合推荐、基于信任网络的推荐等都走上了快速发展的通道。

　　这些推荐引擎不同于协同过滤。例如，基于内容的推荐是基于物品的内容信息进行推荐，而不是依赖于用户对物品的评价，更需要从内容的特点上使用机器学习的方法。在所描述的情况下，获得了用户的兴趣信息。内容过滤主要利用自然语言处理、人工智能、概率统计、机器学习等技术进行过滤。

　　一百万美元值得吗？根据 2016 年 Netflix 用户数据：6500 万注册会员每天观看 1 亿小时的视频。Netflix 表示，该系统每年可节省 10 亿美元。

　　（三）深度学习带来“无人驾驶”

　　近年来，用户的主要痛点已经出现。智能手机的普及，让海量的信息和小巧的阅读屏幕成为一对难以化解的矛盾。用户的阅读场景不再卡在电脑屏幕上，而是变成了移动和碎片化，搜索引擎出现故障，人工推荐太忙，机器推荐不够用。这种转变是对大内容平台的生死考验。如果你能满足你的需要，你就会活下去，如果你不能满足你的需要，你就会死去。

　　面对这个问题，YouTube 和 Facebook 提出了一个新的解决方案：利用深度学习创造智能机器。在过去的十年里，深度学习取得了巨大的飞跃，在解决大数据量方面更有优势。

　　如果说人工内容推荐就像司机开车，那么深度学习带来的内容推荐就像无人驾驶汽车。在这项利用用户数据“感知”用户偏好的技术中，其推荐系统基本可以分为数据层、触发层、融合过滤层和排序层。当数据层生成并存储的数据进入候选层时，触发核心推荐任务。

　　以 YouTube 为例，其最新的公共推荐系统算法由两个神经网络组成，一个用于候选生成，一个用于排名。首先，以用户的浏览历史为输入，候选生成网络可以显着减少可以推荐的视频数量，从庞大的库中选择最相关的视频集。

　　这样生成的候选视频与用户的相关性最高，进一步预测用户评分。该网络的目标只是通过协同过滤提供更广泛的个性化。排名网络的任务是仔细分析候选者并选择少量最优选择。具体操作是利用设计好的目标函数，根据视频描述数据和用户行为信息对每个视频进行评分，将评分最高的视频呈现给用户。

　　在这种模式下，机器完全接管平台。在深度学习的不断训练下，机器会越来越聪明，与人打交道的智商会逐渐提高，从某种意义上说，它会逐渐承担起看门狗的责任。

　　二、内容产业是否即将被C2M颠覆

　　世界充满了奇迹。美国德克萨斯州科珀斯克里斯蒂市一家银行的自动柜员机（ATM）11日吐出一张写着“救救我”的字条，消息迅速传遍了中国互联网。，成为许多网站的头条新闻。

　　您是否需要从 N 个网站中看到完全相同的文章？

　　这些多余的信息会消耗你的精力和流量，就像你打开任何一个电视频道都能看到很多泡面广告一样，很难从大量的信息中快速找到你想要的东西。

　　如何解决用户信息冗余的尴尬？

　　过去有很多不成功的技术方案，个人门户昙花一现，RSS 订阅不可行，跨站跟踪不在讨论之列。只有C2M才能引领未来。

　　C2M模式可以像今日头条一样应用到全网，也可以像Facebook这样的巨头平台。其核心在于根据用户的行为习惯、特征和需求，将海量的信息提取、整理、传递给用户。这就是克服痛点的秘诀。

　　但也有很多质疑的声音。比如有观点认为，协同过滤等推荐容易使用户形成信息茧，无法识别阅读场景，即时性差，耗时长。而今日头条等模式经常被诟病，要应对难以捕捉用户兴趣的问题。、用户数据的隐私和管理等诸多挑战。

　　支持和质疑线的每一边，这是对与错？未来虽然有两大机遇，但目前要跨越三座大山。

　　1.支持的理由如下：

　　①千人千面，全口可调。

　　个性化内容推荐机制可以根据用户的喜好为用户推荐信息。通过各种算法，通过分析用户的历史行为，对比相关用户和相关物品，猜测用户可能喜欢的内容，列出候选集并进行验证，用户可以获得更准确的内容，从而将信息分发给成千上万的人。，实现内容与用户的精准连接，而不是传统的千人投放。

　　②大海捞针提高效率

　　个性化推荐消除了用户从海量信息中提取和搜索的需要。用户无需在海量信息中触针，在一定程度上为用户去除了一些无用的信息，缩小了用户的信息搜索范围，提高了用户的阅读效率。

　　③ 做自己喜欢做的事，增强粘性

　　不断为用户推荐合适的内容，可以增加用户粘性。个性化推荐技术通过算法精准推荐用户感兴趣的内容，帮助用户快速发现自己感兴趣的内容。当你观看一个内容时，它会立即向你推荐相关的东西，可以增加用户粘性，提升用户体验. .

　　④ 挖长尾，断竿

　　个性化推荐可以帮助用户通过相关算法挖掘长尾内容，避免两极分化的马太效应。当用户A喜欢冷门长尾内容，而用户B与用户A有相同或相似的兴趣和行为习惯时，系统可以将用户A喜欢的冷门内容推荐给用户B，从而使冷门内容获得更多曝光，帮助用户发现更多长尾内容，避免内容生产的生态两极分化。

　　⑤双向沟通，深度优化

　　基于用户的个性化推荐是深入分析和与用户交流的结果，提高了用户的交互体验。传统的人工推荐是到处撒网，没有对用户进行详细的划分和筛选。机器推荐基于用户特征和习惯。用户可以得到双向沟通交流，用户行为也可以决定下一步。推荐是有影响的，在一定程度上得到了反馈，提高了用户的交互体验。

　　⑥分类细化操作

　　个性化推荐还有助于平台对内容进行分类，有利于平台的精细化管理和运营。信息时代使得平台不断涌现，各种形式的内容越来越丰富，而用户手机上显示的区域有限。个性化推荐可以让商家更好地为不同的客户分类内容，有利于精细化运营。

　　2.主要观点有：

　　①画地是牢狱，思维是有限的

　　个性化的新闻体验往往会阻碍思想。个性化推荐的结果是基于用户的历史数据和历史行为，基于相似用户或相似物品的推荐。在一定程度上，将用户感兴趣的内容固定在一个特定的闭环中，同时为用户过滤信息。它还为用户屏蔽了很多信息。个性化推荐内容采集取决于你的兴趣，决定你的兴趣。所以，如果接触不到“新”事物，就培养不了新的兴趣，很容易让用户变得越来越狭隘。

　　②人心变，机器有什么办法

　　机器推荐无法识别阅读场景变化带来的需求变化，无法感知用户为什么需要阅读，难以匹配人类情感的复杂性。例如，在某个阶段，我们关注某件事，因为每个人都在谈论它，但这并不意味着我们对类似的事情感兴趣。

　　③审美线下，好坏难分

　　个性化推荐的难度给推荐内容的质量带来了挑战。过去，编辑评价文章的质量并不是那么容易。如今，机器推荐中的质量维度很容易被忽略。不准确的机器算法会使标题党内容混淆。机器推荐可能会高度推荐一个毫无价值的文章，也可能会埋没一个真正有价值的文章。您可以从外部数据中衡量文章的价值。目前还没有办法从内容的本质来分析它是否有价值。

　　④需要很长时间，总是半拍

　　基于海量数据的个性化推荐行为耗时长且不那么直接。比如新闻推荐存在时效问题，需要不断更新。分析用户历史行为、比较相似用户等数据分析工作耗时较长，不易在第一时间形成推荐结果。此外，协同过滤等方法也存在冷启动的问题，即在用户体验之初，尚未形成成熟的历史数据时，需要较长时间采集用户点击日志数据生成推荐。

　　⑤ 热点普遍，个体趋同

　　并不是所有的用户都是平等的，但是协同过滤方法没有考虑用户之间的个体差异。例如，我们观察到娱乐新闻始终被推荐给大多数用户，即使用户没有点击娱乐故事。原因是娱乐新闻普遍很受欢迎，所以总是有足够多的来自用户“社区”娱乐故事的点击量可以推荐。

　　3.未来的机会在哪里？

　　未来的机会在于两大驱动力：行业对长尾金矿的商业动力；促进用户强烈的个性化需求。

　　① 长尾金矿

　　个性化推荐可以帮助用户发现更多优质的长尾内容，提升平台的商业价值。一般来说，平台用户只访问约 10% 的热门内容。许多小众和不受欢迎的内容在数据库中不容易找到。我们称之为长尾内容。

　　根据长尾理论，由于成本和效率等因素，当商品储存、流通和展示的场所和渠道足够宽广时，商品的生产成本就会急剧下降，个人可以生产，而商品销量锐减，几乎任何以往的观点看来，需求极低的产品，只要卖掉就会被买走。个性化推荐可以通过协同过滤中基于用户的推荐技术传播小众喜欢的长尾内容，充分挖掘长尾内容，生成长尾金矿。

　　②时代刚需

　　我们生活的时代已经改变。经过20年的发展，互联网已经成为移动互联网。现在即将融合AI，进入IOT时代。终端和信息在核爆炸中迅速扩大。用户将越来越难以在海量数据中找到自己需要的信息。越来越难了。在这种情况下，传统的搜索引擎已经无法做到这一点。早期最有代表性的是雅虎，它被归类为目录，谷歌，它是一个搜索引擎。他们已经进入了死胡同。使用搜索引擎学习陌生领域的知识，效率极低！

　　适应时代的刚性需求，希望在于个性化推荐。机器需要尽可能的了解用户，根据用户的数据，主动推荐用户感兴趣和需要的信息。近20年多来，虽然取得了一些成绩，但唐僧学经只是第一步，还有很长的路要走。

　　4.现在需要跨越的三座山

　　在个性化推荐的发展过程中，存在用户兴趣预测困难、用户相关数据隐私、数据处理困难等诸多问题，都给个性化推荐带来了极大的威胁和挑战。

　　确切地说，是第一座山。

　　用户的兴趣容易受到多种因素的影响，并且在不断变化，这是个性化推荐不可避免的挑战。个性化推荐系统的基础部分是用户兴趣建模，用户兴趣建模的好坏直接决定个性化推荐的好坏。然而，用户的兴趣在任何时候都受到社交、场景、环境等多重因素的影响。用户兴趣的不断变化使得根据过去的数据很难预测用户未来的趋势，也影响了推荐结果的准确性。

　　第二座山，隐私。

　　对于基于用户数据的个性化推荐，如何保护用户隐私是个大问题。传统的内容推荐系统对用户的页面访问记录进行数据挖掘，找出用户的访问习惯，然后根据用户的需求在服务器端进行信息筛选，试图为用户提供信息推荐服务和垃圾邮件过滤服务。然而，如何在保护用户隐私的同时，为用户提供更精准的内容推荐服务是一个挑战。

　　第三座山，价值观。

　　除了三座山，还有一个问题值得关注。目前的机器推荐等于“没有三观”和“没有审美”。由于众所周知的原因，在华语圈的经营肯定会遇到相当大的挑战。

　　交通欺诈和作弊就是明显的例子。比如，有网友告诉笔者：我经常在网上看到一些有几万、几十万学生的视频。数字如此之大，以至于我们怀疑自己的生活。结果，我们对其进行了测试。页面一刷新，人数增加三人，新课程增加几十人。瞬间清晰。半夜，我测试了一些视频直播，靠墙拍摄。从直播开始十分钟后，直播的粉丝还是可以增加的，而真正的粉丝却是一而再再而三的增加。作弊有一段时间是好的，但我并不放心。

　　已经有公司在智能推荐客户端上投放了一些非常垂直和*敏*感*词*的广告。其中一些非常好，而其中一些太明显而无法伪造。瞬间阅读量超过10000时带来的流量还不如自己。读破一千的数字很好。各种数据都是认真的，就看用的人认真不认真。

　　未来，如何在个性化推荐的技术和管理上不断创新，人工智能因素的参与能否改善存在的问题，为用户产生更好的推荐结果，将成为重要的课题。

　　三、巨头正在开发的技术路线

　　事实上，无论支持或质疑有多大，个性化推荐已经吸引了无数巨头。

　　目前，在市场上，新技术和旧技术仍然占据着各自的领地。新的深度学习技术正在迅速而积极地兴起；老式技术也在不断优化以防止事故发生。新旧技术之争是当前的热门话题，也是决定未来发展的两大路线。

　　（一）老派技术认为传统推荐技术可以自我提升

　　1.谷歌新闻的套路，不断优化

　　Google 新闻是一个在线信息门户，它汇总了来自数千个来源的新闻故事（在对类似故事进行分组之后），并以个性化的方式将它们呈现给登录用户。由于文章和用户众多，并且给定响应时间要求，纯基于内存的方法不适用，需要可扩展的算法，因此 Google 新闻采用了基于模型和基于内存的组合技术。

　　Google 新闻例程仍然是协同过滤的基础。它采用协同过滤技术，将基于模型和基于记忆的技术结合起来进行个性化推荐。根据《推荐系统》一书，基于模型的部分依赖于两种聚类技术：

　　① Probabilistic Latent Semantic Indexing (PLSI)：协同过滤的“第二代”概率技术，为了识别具有相似想法和相关项目的用户的聚类，引入了一个隐藏变量，对应每个用户的有限状态——项目对集合，可以适应用户可能同时对多个主题感兴趣的情况。

　　②MinHash：根据两个用户查看的项目的交集，将两个用户放入同一个集群（哈希桶）。为了使这个散列过程具有可扩展性，使用了一种特殊的方法来寻找最近的邻居，并且使用谷歌自己的 MapReduce 技术在几个集群之间分配计算任务。

　　基于记忆的方法主要分析“伴随浏览量”。“共同查看”是指同一用户在预定义的时间段内查看了一篇文章文章。在进行预测时，需要遍历活跃用户最近的历史数据，从内存中获取相邻的文章。在运行时，预设集合中的候选项目的综合推荐分数是这三种方法（MinHash、PLSI和同伴浏览）得到的分数的线性组合的计算值，然后根据推荐值输出推荐结果。计算值的水平。

　　2.Linkedin针对四种场景开发系统

　　Linkedin主要通过自主研发设计的协同过滤推荐平台Browsemap实现个性化推荐。Browsemap是Linkedin开发的一个泛化平台，实现了物品的协同过滤推荐算法。该平台可以支持Linkedin中所有实体的推荐，包括求职者、职位发布、企业、社会团体（如学校等）、搜索词等。通过该平台实现一种新的实体协同过滤推荐，开发者只需要做访问相关行为日志、编写Browsemap DSL配置文件、调整相关过期参数等简单任务。

　　论文指出，Browsemap平台在Linkedin中有四种最常用的推荐场景：向求职者推荐公司、推荐相似公司、推荐相似简历、推荐搜索词。

　　①向求职者推荐公司：通过Browsemap实现基于item的协同过滤，计算用户与潜在公司的相似度，获取相关公司特征；结合相关公司特征和用户/公司内容特征（包括用户位置、*敏*感*词*；企业产品、相关描述）一起分析得出最终的偏好分数。

　　②相似公司推荐：向求职者推荐公司有两个区别：一是内容特征的相似性变成了公司画像的相似性；二是根据用户的各种行为构建浏览地图。

　　③相似简历（用户）推荐：这部分推荐是通过公司详情页的浏览行为和用户画像特征来实现的。同时，利用相似简历的属性补充简历缺失的属性，得到用户的虚拟简历。

　　④搜索词推荐提供四种关联方式：一是协同过滤：计算搜索词相关性时加入时间和空间因素；第二，基于推荐搜索词的搜索结果点击率；重叠程度；第四是基于推荐搜索词的点击率。然而，实验结果表明协同过滤的结果是最好的，甚至比这四种方法结合的结果还要好。

　　3.今日头条的三个阶段

　　作为国内流行的个性化推荐产品，今日头条技术经历了三个阶段：

AI时代内容工厂

网站内容营销(机器帮忙-最简单的机器方式则是“热门推荐”)

0 个评论

发起人

AI时代内容工厂

网站内容营销(机器帮忙-最简单的机器方式则是“热门推荐”)

0 个评论

发起人

相关问题