干货:【新传考研丨论文解读】重新定义智能媒体
优采云 发布时间: 2022-11-30 03:13干货:【新传考研丨论文解读】重新定义智能媒体
重新定义智能媒体
“人工智能”已经成为社会热词。它不仅是众多行业的竞争领域,更是国家发展的战略重点。一般而言,人工智能对媒体的应用所带来的变化统称为“媒体智能”,“媒体智能”用来描述智能化程度不断提高的过程。在这个过程中,出现了“智能媒体”的概念。想必,波尔对此并不陌生。也是近年来比较热门的考点。今天,小鱼就带博儿,看看如何通过一篇论文重新定义智能。媒体。该论文发表于核心期刊《现代传播:中国传媒大学学报》。详细梳理了智能媒体的基础,着重分析了智能媒体的进步与突破。对考查智能媒体真题答案很有帮助!
“媒体智能”的发展目标是“媒体智能”,“媒体智能”的实现过程是“媒体智能”。从“理解力”到“决策力”,最终实现从“决策力”到“创造力”的突破。在理解内容、理解用户、理解场景的基础上,人工智能需要依靠无限网络+无限数据,实现从单一理解到关系理解;需要通过无限剧情+无限场景来实现对时空的理解;需要用无限链接+无限交互来完成从理解到决策的推进。
【点评分析】自2017年以来,人工智能连续三年被列入我国《政府工作报告》。同年7月,国务院正式发布《新一代人工智能发展规划》,将发展人工智能技术和产业上升为国家重大发展战略。然而,目前学术界和业界对智能媒体的定义偏向于对其功能的解读,却无法解释智能媒体的“智能”是什么,也缺乏对智能化实现路径的系统解读,因此,不能给行业带来。相应的理论指导和参考。
课题研究电话:
作为新闻传播领域的一个重要概念,“智能媒体”理论近年来的出席率非常高。可以应用于很多时事热点的分析。它还具有多种角度。可以参考以下真题。
1.术语解释:智能媒体(华东师范大学2022年)
2. 简答题:智能媒体的特点及其对新闻生产的影响。(华南理工大学2022)
3.简答题:简述智能媒体在新闻制作和传播过程中的应用。(同济大学2020年)
4.简答题:简述智能媒体的特点及未来发展方向。(北京交通大学2020年)
5.征文题目:探讨智能媒体在乡村治理中的作用。(山东大学2022)
6.征文题目:探讨智能通讯时代*敏*感*词*如何实现信息无障碍。(暨南大学2022)
回答思路:
1、首先,有必要对“智能媒体”的理论给出一个准确的定义,也就是本文作者总结的定义。智能媒体具有较高的认知和理解能力,可以在营销传播场景中做出最优决策,具有普遍性的进化媒体和自我创造潜能。
2、阐释“智能媒体”未来的发展路径。(1) 智能触点媒体。从功能上看,智能催化剂中互联的触点不仅可以实现全面的数据采集,还可以基于采集到的数据实现智能信息分发。(2)信息生产协同创造智能催化剂时代,信息生产流程重构,机器人和算法在信息生产(尤其是新闻写作)中的比重不断提升。通过对互联网中信息内容的广泛识别和学习,人工智能可以根据用户的阅读习惯和所处的场景,完成智能化的信息内容生产。
" />
3.结合题目,结合实例详细讨论。
一、智能媒体的基础:从“认知”到“理解”
(1) 认识和理解内容
首先,从信息传播的编码和解码的角度来看,信息传播的本质是一个编码和解码的过程,媒体在信息传播中需要完成图形、声音、视频的制作和加工。因此,我们对智能媒体的基本要求是准确的“识别”、合理的“还原”、适度的“处理”。其次,从媒体传播的导向和价值观来看,采用主流价值导向的控制算法已成为行业发展的必然和必要。但与此同时,新技术手段所蕴含的一些结构性问题正在动摇主流价值观的根基,成为我们不得不面对的挑战。
(2) 认识和理解用户
首先是了解用户“是谁”。目前,新媒体机构普遍将用户画像作为一项基础技术,并且在不断细化画像的粒度。超大型互联网媒体机构更可能完成精细化程度更高的用户画像。二是了解用户需求。目前,在人工智能技术的支持下,我们基本实现了对用户当前需求和远期需求、显性需求和潜在需求的精准划分和动态描述。例如,阿里妈妈再次升级达摩板,将模型与消费者的情感因素相结合,从需求和价值的角度对消费者需求进行重新分类,从而帮助品牌商找到最有价值的“超级用户”,即高净值用户、高价值用户、高传播用户。同时,达摩盘还支持“超级用户”Lookalike人群投放。系统自动识别*敏*感*词*人群的显着特征和显着的产品偏好,并在投放时增加扩展人群中选择的“超级用户”特征的权重,寻找真正的高价值。人群。找到真正的高价值。人群。找到真正的高价值。人群。
(3) 对场景的认知和理解
首先是从信息传播的角度理解场景,关键词就是“还原”。媒体智能带来的认知升级,可以有效帮助我们还原信息传播的场景,为用户带来更真实、更沉浸的信息交互。比如在新闻内容领域,从精准新闻、众包新闻发展到数据新闻、人工智能新闻,实际上反映了技术与信息传播相结合所带来的巨大变化。尤其是自2013年《纽约时报》的数据新闻作品《雪崩》以来,大数据技术应用于新闻内容的生产和传播逐渐成为媒体智能化的主流趋势。
2020年12月30日,由新华社全媒体编辑中心与知乎联合推出的创意视频《2020,36亿数据画这条线》上线。视频以上述问答开头。分析了2020年全网36亿条新闻、1.8万条热搜榜单、全年近1000万条问答的基础数据。情感曲线完美融合了新闻图片、视频和数据可视化效果。截至2021年1月1日,该视频全网播放量已突破2.7亿,并在多家电视台卫视频道新闻栏目播出。
二是从信息需求的角度理解场景,关键词是“契合”的。结合用户画像,人工智能帮助我们更好地理解用户在不同场景下的差异化需求。》情境匹配判断用户场景中的行为特征和外部环境,采用符合用户生活方式的设计,将产品服务方案与用户潜在需求相匹配,实*敏*感*词*德草以电子双屏为内容载体,在援鄂医生所在医院附近的地铁站投放分屏广告。左屏显示“最美逆行者”的照片和介绍,右屏为旅客提供附近发热门诊位置等便捷信息。另一个典型案例是某防晒产品客户的广告投放:结合防晒产品的特殊性,触发广告投放机制,只有当地面温度达到较高水平时才会显示广告。对这三个层次的认知理解,让媒体智能更上一层楼,为下一步的决策和创作打下坚实的基础。
【点评与分析】这一部分梳理了智能媒体的基础,即从“认知力”到“理解力”。宝儿可以结合案例加深对这部分的理解。比如关于认识和理解内容,用主流价值取向来控制算法问题。此前,今日头条创始人张一鸣表示“算法没有价值”,将利用算法进行内容推荐和分发的互联网平台推向了舆论的风口浪尖。此后,在优化算法价值的规划中,字节跳动公共政策研究院表示,将解决低质量内容生产问题,实现将社会价值融入算法设计。现在,利用人工智能提高内容审核的效率和效果,在*敏*感*词*互联网平台的实践中已初见成效。字节跳动发布反低俗工具,提升相关文字识别和图片识别能力。同时,基于字节的内容平台可以通过人工标注和模型训练,以93%的准确率识别主流价值内容,并在此基础上优化内容推荐。
2、智能媒体的进步:从“理解力”到“决策力”
(1) 无限网络+无限数据,从事实分析到关系理解
目前,互联网的发展已经从“网页链接”阶段过渡到“数据链接”阶段,并正在向“语义网络”阶段发展。在这个过程中,从海量数据中提取有用的知识,不仅是大数据分析的关键,也是人工智能获取知识、构建理解的关键。知识图谱技术的出现帮助我们从原创
数据出发,利用一系列自动或*敏*感*词*的技术手段,从原创
数据中抽取知识元素,存储在知识库的数据层和模型层。
但是,仅仅判别事实的真伪是不够的,还需要进一步了解事实之间的关系。虽然知识图谱的来源是谷歌对自身搜索引擎技术的优化,但它肯定反映了计算机了解搜索需求并检索数据库中所有数据的能力。于是,无限的网络产生了无限的数据,这些数据连接在各个交互平台中,同时在交互过程中产生、凋零、重生、替换、融合,提供了一个点对点线,从线到面的演变过程。在如此庞大的关系数据网络中,标记、识别、比较、认知都具有更丰富的价值和意义,
(2)无限剧情+无限场景,实现时空动态理解
" />
“情节”在时间维度上形成,“场景”在空间维度上形成。只有在场景中用时间线进行独特的匹配和校正,才能根据理解进行预测。更重要的是,预测趋势是数据挖掘和分析的意义所在,也是人工智能能力的体*敏*感*词*融、医疗和媒体等众多领域。数据挖掘和趋势分析并不是新概念。时间序列分析研究也是统计学中的经典问题。它配备了机器学习和深度学习。时序数据挖掘,尤其是融合场景的时序数据挖掘的预测能力正在得到极大提升。它得到了极大的改进,并广泛应用于零售、金融、医疗和媒体等众多领域。数据挖掘和趋势分析并不是新概念。时间序列分析研究也是统计学中的经典问题。它配备了机器学习和深度学习。时序数据挖掘,尤其是融合场景的时序数据挖掘的预测能力正在得到极大提升。它得到了极大的改进,并广泛应用于零售、金融、医疗和媒体等众多领域。
(3)无限链接+无限互动,从理解到高级决策
无限网络带来无限数据,形成无限关系,在无限时空场景中相互交织,形成无限链接和无限交互,从而帮助计算机实时调整和不断迭代,无限接近人类的决策过程,但它的智能潜力比人类更大,所以它很有可能做出相对“最优”的决定。在传媒行业,从内容规划、推荐分发、流量分配等“算法”层面,到产品研发、业务变现、战略制定等“战略”层面,其实都是“决策”。所以,人工智能在媒体领域的探索与应用,总是与最优解判断和智能决策相联系。至此,媒体的智能化发展可以说已经基本成功。它具有更深更广的理解,具有基于理解和知识的判断和预测能力,从而帮助人类在多样化和复杂的环境中找到最好的。实现智能决策的最优解。但决策权的下一步是真正智慧皇冠上的明珠——创造力。并具有基于理解和知识的判断和预测能力,从而帮助人类在多样化和复杂的环境中找到最好的。实现智能决策的最优解。但决策权的下一步是真正智慧皇冠上的明珠——创造力。并具有基于理解和知识的判断和预测能力,从而帮助人类在多样化和复杂的环境中找到最好的。实现智能决策的最优解。但决策权的下一步是真正智慧皇冠上的明珠——创造力。
【点评分析】本节分析智能媒体的进步,即从“理解力”到“决策力”。在知识图谱论坛上,来自百度、阿里巴巴、美团等机构的行业专家分享了他们对知识图谱技术及其应用的理解,让我们看到了行业组织对该技术的实际应用。与谷歌一样,百度的知识图谱技术也是从搜索引擎业务起家,但如今已经广泛赋能搜索以外的业务和产品线。近两年,百度知识图谱技术建设的重点一直放在多图的异构互联上;图的主动采集
和自学习;多媒体知识、复杂知识和行业知识的理解和建构。从数据量级来看,百度的知识图谱覆盖了数十亿实体、千亿事实,涉及40多个类别,形成了最大的中文知识图谱,涵盖人物、电影、音乐、文学、商品、餐饮、旅游、旅游等垂直领域。对于媒体机构而言,涵盖“亿级实体、千亿级事实”的知识图谱是判别事实真伪的基本工具,海量标题为“新闻”的报道蜂拥而至。经过严格的数据比对和筛选。百度知识图谱涵盖数十亿实体、千亿事实,涉及40多个类别,形成了最大的中文知识图谱,涵盖人物、电影、音乐、文学、商品、餐饮、旅游、旅行等多个垂直领域。对于媒体机构而言,涵盖“亿级实体、千亿级事实”的知识图谱是判别事实真伪的基本工具,海量标题为“新闻”的报道蜂拥而至。经过严格的数据比对和筛选。百度知识图谱涵盖数十亿实体、千亿事实,涉及40多个类别,形成了最大的中文知识图谱,涵盖人物、电影、音乐、文学、商品、餐饮、旅游、旅行等多个垂直领域。对于媒体机构而言,涵盖“亿级实体、千亿级事实”的知识图谱是判别事实真伪的基本工具,海量标题为“新闻”的报道蜂拥而至。经过严格的数据比对和筛选。对于媒体机构而言,涵盖“亿级实体、千亿级事实”的知识图谱是判别事实真伪的基本工具,海量标题为“新闻”的报道蜂拥而至。经过严格的数据比对和筛选。对于媒体机构而言,涵盖“亿级实体、千亿级事实”的知识图谱是判别事实真伪的基本工具,海量标题为“新闻”的报道蜂拥而至。经过严格的数据比对和筛选。
三、智能媒体的突破口:从“决策力”到“创意力”
(一)从“专用”到“通用”的突破
目前还没有接近人类水平的通用智能系统:具有协调多种不同认知能力的能力;对复杂环境有很强的适应能力;它具有独立学习新事物和新环境的能力。因此,人工智能领域的一个重要分支就是“类脑智能研究”,即通过借鉴大脑神经机制和认知行为机制来发展人工智能。从1960年cyborg概念的诞生,到今天metaverse概念的流行,超身临其境、高度交互的数字虚拟现实从未远离人类的想象和探索。一旦人工智能从专用进入通用阶段,
(二)从“学”到“创”的突破
机器可以学习。机器学习的发展史其实就是人工智能的发展史。长期以来,我们希望计算机能够模拟或实现人类的学习行为,以获取新的知识或技能,重组已有的知识结构,不断提高自身的性能。然而,学习并不等同于创造。系统越聪明,实现目标的路径就越新颖,系统就越超出我们的知识范围。在弱人工智能阶段,计算机似乎也可以具有一定的创造力。
事实上,按照目前人工智能研究的思路,机器其实很难具备真正“创造”的能力。人们常常希望人工智能是“最优的”,希望人工智能不会“犯错误”,但我们认为的“错误”可能反而是一条创造之路。人工智能真正的突破,恐怕不是追求永恒的“正确”,而是在混乱中寻找机遇,在错误中创新。这就是创造。那么,按照目前人工智能发展的资源配置,媒体领域恰好是混合数据量最大、网络连接最先进、算力支持最强的板块,从而成为最有可能促进创造性进化的领域之一。学习中的认知与理解、理解与决策、创造是智能媒体实现的三大底层逻辑。基于这三个逻辑,我们才能够厘清智能媒体的真正内涵,探索其未来的发展方向。
【点评与分析】这一部分分析了智能媒体的突破,即从“决策力”到“创造力”。宝儿最好能举例分析。例如,2021年9月22日,微软旗下小冰召开了第九代“小冰”发布会,宣布了多项框架升级,并介绍了AR内容生成领域的最新进展。其中包括社交APP小冰岛、第三版诗画创作模型、AI歌唱合成技术XStudio2.0、艺术家创作激励辅助技术和Ar“人类观察者”Merror等。设计师、画家、主持人、歌手、诗人,这些就是微软小冰的身份。每个身份都与人类最具创造性的工作有关。在文艺创作上,人工智能做了一些很好的尝试。但这些创作实际上是基于其编程背后的算法。
推荐论文:
[1] 方兴东,钟向明.区分智能媒体与智能传播的概念——路径依赖与技术神话双重困境下传播学研究的范式转换[J].现代出版, 2022(03): 42-56.
[2] 卢尚斌,黄蓉.论智能媒体演化的复杂性维度[J].山东社会科学, 2022(02): 125-133. DOI:10.14112/ki.37-1053/c.2022.02.007。
[3]罗子文,熊宇彤,马亚萌.智能媒体的概念、特征、发展阶段及未来趋势:一个媒体分析的视角[J]. 新闻与传播研究, 2021, 28(S1): 59-75+ 127.
爆文助手伪原创软件 解决方案:规范业务流程的近义词
标准化业务流程的同义词?如果你不知道这个,检查一下!
推荐策略产品经理实操(三):推荐系统与搜索系统的区别——整体逻辑流程对比。一起来看看本站小编产品经理精心整理的答案吧。希望对您有所帮助 help
标准化业务流程的同义词 1
小编导读:推荐的目的主要是根据用户的行为偏好,推荐用户可能喜欢的东西;而搜索是让用户为了某种目的进行搜索。前者是被动获取,后者是主动获取。具体来说,推荐系统与搜索系统有何不同?在这篇文章中,作者从整体逻辑层面总结了推荐系统和搜索系统的区别,一起来看看吧。
根据我平时接触的推荐和搜索业务,简单梳理一下这两个业务的流程,扩展知识点,让有需要的同学能够快速了解这两个系统的基本逻辑。
1.推荐系统逻辑
推荐的本质是解决信息过载带来的“选择难”,让用户在选择自己的商品之前,先筛选出自己最想要的信息。
下面是推荐系统在用户打开APP进入推荐页面时,将推荐列表返回给用户的整体流程:
整个过程的关键逻辑主要在召回、排序、重排三个层次。本节专门介绍这一节。至于AB实验平台上的逻辑,后面会有专门的章节详细讲解AB实验。
1.召回
什么是召回?大部分人会很快解释:Recall就是从素材库中获取一小部分素材,这小部分素材会被模型用于后续环节的打分和排序。
在这里,让我们更直接地理解它。召回就是钓鱼。在给用户推荐的时候,不可能把平台上所有的东西都拿出来,按照型号排序。这样的话,计算时间会很长,资源消耗很大,不合理。. 这时候就需要去平台内容库中为用户捞出最合适的商品。这就是我们所说的召回。
通常,从数亿或数千万数据中提取数千项。recall step主要是处理大量数据,需要step speed足够快,模型不要太复杂,使用的feature数量比较少。
当然,召回率也是决定个性化推荐的依据。目前大部分召回都是多渠道召回(这里可以理解为通过不同的限制条件钓鱼)。
多次召回的好处:
常见的回忆路径(策略需要数据支持,与场景强相关):
1)协同过滤
基于用户的协同过滤和基于物品的协同过滤;简单来说,喜欢内容A的用户也喜欢游戏B(这种召回方式比较老,现在很少有公司使用)。
协同过滤与用户和游戏有关。玩过矩阵为1,没玩过为0。有很多游戏你没玩过,很多都是0,所以你会做矩阵分解:用户矩阵和产品矩阵,每一列是一个用户向量或者一个物品向量。
2)word2vec(词向量)
(最早用在NLP)需要获取用户的游戏顺序,每个游戏都是one-hot coded,会有一个神经网络模型,输入是A→B→?→D→E,输出为C,或者A→B→C→D来预测E。
模型中间隐藏层称为词向量,与游戏相关,与用户无关,取数据时与用户相关(向量用法:用户和游戏计算相似度:用户A和用于相似度计算的游戏 B 向量;用户和游戏 B 向量用户、游戏和游戏)。
3) 内容匹配召回
这部分主要与标签(类别)召回有关。比如用户玩过王者荣耀,你可以尝试回忆推荐类似王者荣耀的吃鸡游戏。这是基于内容标签的召回;或者如果用户玩的是植物大战僵尸1,那你也可以尝试推荐植物大战僵尸2/3等,这是基于知识储备的搭配。
4)高烧召回(hot recall)
此次召回的主要原因是新用户大量使用该应用程序。新用户只是来到应用,无法获取过多的用户信息,没有任何行为。开始; 用户冷启动这里就不多说了,后面会有专门的章节介绍。
5)基于上下文的回忆
这与用户在APP中进行行为的时间和地点有关。例如,游戏推荐在白天的休息时间推荐小游戏,在晚上的休息时间推荐大游戏和游戏时间长的游戏;它反映在其他垂直类别中。也就是说,就像打车对用户位置信息的敏感度,用户浏览新闻的时间等等。
6)级联召回
一般的recall是用户点击做正样本,cascade是用排名第一的游戏做正样本,后面的游戏做负样本做recall的正负样本模型。
7) 其他召回
根据业务需要,还会有其他的召回,每个渠道召回的次数也不一样。例如,为了快速留住新用户,新用户高调召回的比例很大,但对于老用户来说,为了挖掘用户兴趣的多元化,高调召回的比例会相对较小。
召回层也有模型,尤其是电商业务,召回模型会比较复杂。
2.分选——粗选/精选
粗排序和细排序都是排序。一种要求快速排序,尽可能去除错误召回,另一种要求精细、准确的排序,以满足用户和业务需求。
粗排序介于召回和细排序之间。一般需要从数万/千的召回物品集合中,挑选出更符合业务需求的千/百级物品送至精分层。当平台上的内容较少时,很少做粗排序这一步,因为粗排序最大的作用就是快速计算并剔除召回量,使召回数据更准确,适合推送到用户。一般粗排序需要在20ms以内打分。
如果没有粗排模型,也可以在recall层和fine sorting层使用一些策略将数量截断为fine sorting,这也是一种粗排的方式,比如跟点击转化率截断。
精细排序需要的数据量小,需要更精确的模型。通常,使用一些复杂的模型并使用更多的特征。
粗排序和精排序层可以由一个模型打分,也可以由多个模型打分再排序。大多数业务需求是多个模型。根据业务需要,模型的目标不同,但基本上都会有点击模型(ctr)。
下面说一下单点模型是如何对模型进行评分和排序的。在说排序之前,需要知道两个概念——label和features。这两个数据是ctr模型的主要训练数据。
label:以ctr模型为例。每个模型都有一个标签(模型的预测目标)。ctr模型的标签是用户是否点击了当前暴露的item。如果有曝光点击,就是正样本。label=1,有曝光没有点击为负样本,label=0。
特征:是特征。特征主要分为三类:用户特征、物品特征、用户和物品的交叉特征。
可以看出,特征是我们在推荐系统中可以采集
到的数据,包括离散特征(如男女、类别、整数等)和连续特征(如点击率、自然数)。
在计算机只能处理数字代码的前提下,对信息进行编码和转换。大多数推荐系统对离散特征使用one-hot或embedding,不需要处理连续特征,或者先分段离散化,再使用one-hot encoding。
(大多数公司使用更多的离散特征,较少使用连续特征,有时连续特征也分桶处理——分割,实际上是变相处理成离散数据。)
*注意,one-hot encoding会将特征处理为[0 0 0 0 1],embedding会将特征处理为[0.2 0.4 0.6 0.8]
定义好特征和标签后,就会构建相应的训练样本:
因此,CTR模型在训练时的输入是:特征向量及其对应的0、1标签。
预测时,输入只是特征向量,模型输出一个0到1之间的数字,代表预估的CTR值,可用于排序。因此,经过建模,CTR预估问题本质上是一个二分类问题。
这是其中一个模型的评分逻辑。多模型打分融合的细排序层会对多个模型的分数进行打分。每个模型的重要性不同,所以分数会有权重。每个模型的分数将经过权重计算相乘后,就是该item的排序分数。每个项目根据得分从高到低排序,将得到一个精细排序的得分列表。
3.重新排列(洗牌/重新排序)
这一步是推荐的最后一步。每个公司的名称可能不同。有的叫rearrangement,有的叫mixed ranking,学术上叫rerank;虽然也是排序,但是重排和粗排序或者细排序是最大的。不同的是,这一步更贴近业务需求,产品经理的发挥空间相对更大。
在做一些强制插入的业务时,需要召回并配合重排层。比如在做新内容的冷启动时,需要给没有数据的内容一个暴露的机会。这时候就需要使用重排和强制插入;或者做一些打散逻辑的时候,比如连续7个内容不能有相似内容,或者连续10个内容最多不能有2个相似内容等等。
2.搜索系统逻辑
当你在搜索框中输入一串搜索词时,页面会显示你想要的结果,但逻辑非常复杂。这里我觉得搜索是一个比推荐相对复杂的业务:
整个过程的关键逻辑还包括召回、排序、重排,但更重要的是查询处理部分,因为召回-排序-重排部分在上面有详细介绍,这里就不过多解释了,只专注于查询处理。
查询主要由四部分组成:查询预*敏*感*词*”,点击搜索,则用户查询为“秋冬装女”)。
1)查询预处理
" />
这一步主要是对用户在搜索框中输入的搜索词进行数据清洗。
搜索词基本上有长度限制。一是限制输入框中搜索词的长度,二是在查询预处理时截断搜索词。例如,对于长度超过 20 个字符的搜索词,只会截断前 20 个字符。
由于用户输入的搜索词不规范,不同用户在表达相同诉求时往往存在地域、文化水平、清晰度等差异,所以搜索词会进行转换:大小写转换,如“太空狼人3D版”到“太空狼人3D版”;简繁体转换,如“太空狼人”转“太空狼人”;和全角转换,这里就不多解释了。
查询预处理步骤是根据用户主动输入的搜索词,高频查询查询检索到的常见问题,针对问题解决问题的本质。
2)意图识别
意图识别的本质是分类问题。主要是根据业务需求对用户意图进行分类,分为几类。采集
每个意图类别下的常用词用于模型训练。模型准确率越高,意图识别效果越好。意图识别在搜索系统中必不可少,而意图识别在很大程度上决定了用户搜索的质量。
* 意图识别难点:
输入不规范;如上所述,不同的用户对同一内容的认知不同,输入的搜索词也存在较大差异;数据冷启动,用户行为少,数据少,意图获取会困难。相对不准确;多意图识别使得无法定位精确的意图。例如,当用户搜索“汽车”时,无法知道他想要的是玩具车、真四轮车还是*敏*感*词*;业界没有固定的评价标准,只有不同业务直接基于自分分类的模型分类准确率计算,以及一些业务指标如ctr、cvr、pv等指标来评价整个搜索系统,
3)查询分词
query分词主要是对用户的搜索词进行分词,根据分词重写和后续的召回逻辑。不同的业务有不同的分词方法和免费的分词数据库。
4)查询重写
这一步主要是针对用户搜索词的纠错,以及同义词的扩展召回。需要做一个纠错词汇或者纠错模型,比如把“fire talent”改成“stickman”,把“Super Cat Leo”改成“Super Mario”,把“campus”改成“school”,“teacher” ”、“教室”、“同桌”等,同义词扩展中会出现一些干扰词,需要根据实际业务。
3、推荐和搜索的区别
从上面对推荐系统和搜索系统的整体流程的描述可以看出,推荐和搜索是密切相关的,但也有不小的区别。
1. 主动或被动行为
解决本质问题的本质。搜索和推荐都是为了解决信息过载的问题。它们都是获取信息的途径之一。一种是主动获取-搜索,一种是被动获取-推荐:推荐行为是被动的,需求不是很明确。会有更多的个性化和多样性,而搜索需求主动且相对明确,查询范围相对较小。
2.使用场景目的
推荐的本质是把用户留在APP里,让用户使用更久,第二天留住用户,逐渐产生广告收入等收入,让用户消费更多,需要分析用户的历史行为和当前实时行为场景等,推荐系统自发生成查询条件,快速提供推荐列表,属于静默搜索。
而搜索更像是早期张小龙所说的微信。它需要用完并离开。搜索的本质是帮助用户快速找到自己需要的结果并完成转换离开。我理解一个好的搜索算法需要做的是让用户快速使用,高效查询,停留时间更短。
3.相互成就
从流程上看,搜索是有条件限制的推荐,推荐是一种自发的、主动的搜索;可以从用户查询中采集
到大量的个性化推荐需求,推荐数据可以推荐与用户搜索内容相似的内容进行数据融合。当用户的搜索目的不明确时,利用好的推荐,结合意图识别和推荐模型,实现更精准的分类下推荐,是提升用户体验的一种手段。
以上是我在实际项目中对推荐和搜索场景的逻辑分析。如果您有兴趣,欢迎私聊。
来吧,打工人!
本文首发于@王九蛋 人人都是产品经理。未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议。
标准化业务流程的同义词 2
最近,一种新的抄袭手段——“洗稿”开始在网络上兴起,甚至有人说“自媒体时代”即将到来。所谓“洗稿”,就是把别人原创的内容篡改删除,变得面目全非,但实际上最有价值的部分被抄袭了。通过“洗稿”,可以在短时间内生产出所谓的“热点文章”,并从中获利。
炮制爆文换汤不换药
今年1月,有自媒体人发文指出数个自媒体账号为“洗稿”,随后又一位天后出面否认。两方找*敏*感*词*来引起巨大争议的同时,也将“洗稿”行为搬上了舞台。向前。洗稿人通过重写标题、改变段落顺序和替换个别句子来清洗和出版原作。他会抄袭和洗白整篇文章的经验和观点,用原文的同义词替换文章的词汇。
据业内人士介绍,在网络媒体兴起之初,大量人直接复制他人的报道、评论、文学作品。如今,网络平台的版权保护措施初见成效,这种低水平的全面抄袭已经难以过关。于是,有人想出了“移花接木”的办法,调整别人原作的字序,标注自己的“原创”,俗称“洗稿”。这些换汤不换药的表面功夫,真的很难“洗”掉抄袭的本质。可以看出,与波特式抄袭相比,
利润动机,转移利润
对于自媒体人来说,他们的盈利主要靠广告流量的分成。随着各大平台加大对原创内容的扶持力度,也会对原创作者有更多的资源和政策优惠。对于优质的原创内容,他们会给予更多的推荐权重、流量曝光,甚至直接打赏。所以洗稿的驱动力是因为有利可图。
软件商卖洗稿工具——写手洗稿——工作室收稿,可见洗稿已经工业化。这种流水线操作侵犯了原创者的合法权益。
自媒体从业者毛浩:
一篇刷屏文章可能需要七八年的积累,但是这些编辑10分钟就抢走了我的作品,洗掉了我80%的流量和收入,非常伤害我们原创者的创作热情.
在QQ、微信、*敏*感*词*等平台上,搜索关键词即可轻松找到“伪原创”、“洗稿”等多个“洗稿”群,里面有对稿件的完整介绍洗涤过程。打开专业稿件编辑网站,您可以根据关键词搜索您要编辑的素材,选择好素材后,点击“一键伪原创”,即可生成焕然一新的稿件。
与此同时,在这些QQ群和微信群里,几乎都有人在发信息。只要注明字数、题材、原创性,写手自然会认领。作家的上级是工作室或公司。他们往往经营多个自媒体账号,有的一个月甚至可以赚几十万。
“洗稿”花式翻新不局限于图文
在巨大利益的驱使下,“洗稿”现象已经不仅仅局限于图文领域,而是扩展到了很多方面。多个网络平台从创建自媒体账号到实现创收,大致分为三个阶段:新手期、原创期、创收期。账号盈利一般需要过原创期,但过原创期难度相对较大,平台对发布内容的原创审核也比较严格。
“微客学院”直播平台培训老师:
想要快速过原期,最方便的方法就是从直播平台上撕下来,加个片头片尾,简单打包。不仅可以带视频,还可以带时下非常流行的“知识付费课程”。一般都是盗用明星头像和素材来做海报,课程内容也是混合拼接。
“洗稿”难管三方面
可见,如今“洗稿”的方式多种多样。不仅创作者怨声载道,还危害了整个网络空间的创作氛围和环境。那么“洗稿”现象的治理难点在哪里?
难点一、“洗稿”技术丰富、成本低
“洗稿”的软件比比皆是,从伪原创到录制影音再到去水印等等。一些软件被封后,没过多久又冒出一个马甲,而且一直在不断更新。
难点二:改变外观后的内容“洗”很难识别
洗稿行为在法律上难以认定。大段的抄袭可以被机器发现,但是洗稿就是把别人好的有创意的作品换个样子。侵权认定流程长,技术要求高,维权成本较高。
难点三:平台态度暧昧;创作者维权难
以微信平台为例,个别文字和海报不能直接举报,微信群页面也没有盗版侵权举报入口。部分文章被举报已被删除,但仍可正常访问。
专家表示,大量的人在平台上洗稿,直接给平台带来了热闹、人气、流量。将受益。
反“洗稿”需多方合作任重而道远
今年7月,国家版权局、国家互联网信息办公室、工业和信息化部、*敏*感*词*部联合启动“剑网2018”专项行动,首次提出重点关注打击通过自媒体“洗”的方式抄袭、篡改、删除原创作品。行为,规范搜索引擎、浏览器、应用商店、微博、微信等涉及的互联网转载行为。
同时,专家建议,知识产权保护的相关法律应明确原作者的著作权和网络传播权,让作者在维权时有更明确的出发点,更重要的是,创作者必须拥有足够的版权意识;司法部门,在处理类似*敏*感*词*时,还要加大对违法者的处罚力度,建立平台间信息互通、相互纠错、举报机制,建立该领域的黑名单制度。
标准化业务流程的同义词 3
来源:央视
近日,网络上开始兴起一种新的抄袭手法“洗稿”,甚至有人说自媒体“洗稿”时代即将到来。所谓“洗稿”,就是把别人原创的内容篡改删除,变得面目全非,但实际上最有价值的部分被抄袭了。通过“洗稿”,可以在短时间内生产出所谓的“热点文章”,并从中获利。
今年1月,有自媒体人发文指出数个自媒体账号为“洗稿”,随后又一位天后出面否认。两方找*敏*感*词*来引起巨大争议的同时,也将“洗稿”行为搬上了舞台。向前。洗稿人通过重写标题、改变段落顺序和替换个别句子来清洗和出版原作。自媒体从业者王先生的原稿,前段时间被“洗白”了。
" />
自媒体从业者王振光:左边一张是我的,右边一张是编辑过的。比如我的文章中有一句话:“事发原因,另一个项目组长...”,他会变成“工作原因,另一个项目组组长...”,他就会变成这样的结构。但是如果从头看,就是一篇文章,他会抄袭整篇文章的经验和观点,也就是洗白。也就是说,他会把整篇文章中的词汇换成它的近义词。
据业内人士介绍,在网络媒体兴起之初,大量人直接复制他人的报道、评论、文学作品。如今,网络平台的版权保护措施初见成效,这种低水平的全面抄袭已经难以过关。于是有人想出了“移花接木”的办法,把别人原作的词序调整一下,改几个近义词,草草改一下,标上自己的“原创”,俗称“洗稿”。这些换汤不换药的表面功夫,真的很难“洗”掉抄袭的本质。
版权服务机构“维权骑士团”负责人陈炼:编辑稿件的驱动力是利益。对于自媒体人来说,他们的盈利主要靠广告流量的分成。随着各大平台加大对原创内容的扶持力度,也会对原创作者有更多的资源和政策优惠。对于优质的原创内容,他们也会给予更多的推荐权重、流量曝光,甚至直接打赏。
本来是对原作者的奖励,被洗稿人钻了空子。记者在QQ、微信、*敏*感*词*等平台搜索关键词“伪原创”“洗稿”,不难发现不少“洗稿”群。记者随机加入了几个群,发现这些群对洗稿流程都有完整的介绍。记者根据介绍打开专业洗稿网站,可以看到,在这里可以根据关键词搜索想要洗稿的素材,并展示各平台的实时热门文章。选择素材后,点击“一键伪原创”。片刻之间,
伪原创软件《纸牌屋》工具客服:198(元)/年,包括本站所有伪原创工具,以及原创性测试工具等工具,不限次数,无需验证码.
记者将生成的稿件复制粘贴到可以进行原创性检测的网页上,可以快速检测出稿件的原创性,然后只需要根据提示重复的部分进行修改,调整一些不符合要求的句子即可。不光滑。不到 10 分钟。一份“水洗稿”完成。不仅不用费劲去找资料,而且一篇文章已经成为爆款的几率会高很多。
在这些QQ群和微信群里,几乎都有人在发信息。只要注明字数、题材、原创性,作者自然会认领。由于作家数量众多,价格保持在很低的水平。
编剧组组长梦想火箭:编辑100字的稿件1元,要价更高,最高1000字30元左右。有个客户一天投稿100多篇。
作家的上级是工作室或公司,往往会经营多个自媒体账号。
自媒体运营培训老师应田:这个行业最牛的都是做批量运营,不是玩一个账号,而是几十个、几百个账号。自媒体做的好的不是一个月一万到两万,而是八万到九万,还有几十万。
软件开发商出售稿件清洗工具——作家清洗稿件——工作室接收稿件。可见,洗稿已经产业化。但是,这种流水线操作侵犯了原创者的合法权益。
自媒体从业者 毛浩:我花了三四天时间写了一篇有深度的文稿,很快就在朋友圈被转发了,还没高兴起来,突然发现有风险。创建了二十、三十个账号,我的文章就写成了他们的文章,甚至有人申请了原创
标记,他们的账号很快,(阅读量)达到了10万以上。最终,我的文章在微信上获得了120万的阅读量。但后续的行业数据盘点告诉我们,这篇文章一共获得了500万的阅读量,也就是说80%的流量和收入都被这些洗稿人拿走了。而这只是在微信一个平台上的效果。如果我想写一篇令人耳目一新的文章,这可能需要我七八年的积累,而且我可能一年只有一次这样的机会。然而,这些洗稿人却在10分钟内抢走了我的工作,洗掉了我80%的流量和收入。对于像我们这样的原创者来说,它伤害了我们的创作热情。的。
“洗稿”层出不穷,不断翻新
在巨大利益面前,洗稿方式也在不断更新换代。记者进一步调查发现,“洗稿”现象并不局限于图文领域,而是扩展到很多方面。
记者分析多个网络平台后发现,从创建自媒体账号到实现创收,大致可以分为三个阶段:新手期、原创期、创收期。账号盈利一般需要过原创期,但过原创期难度相对较大,平台对发布内容的原创审核也比较严格。不过,“洗稿人”还是想出了破解的办法。
在这个名为“微客学院”的直播平台上,每天晚上8点,都会有老师进行自媒体创业培训,每天上课人数达数百人。
“唯客学院”自媒体培训老师小希:同学们,你们想学吗,想学就送一朵花(表情包)。
为了吸引学生报名交费,公开课的老师们每天都会教给学生一些小“套路”,而这些小“套路”之一就是快速、经济地度过原来的时期。你可以在现场视频中看到它。比如想要快速度过原期,最方便的方式就是直播视频:即从直播平台上翻录直播视频,然后去掉音频,加上片头和片尾字幕,并简单地打包它。
“唯客学院”自媒体培训老师小希:原创的定义是什么?这个平台或互联网上什么都没有。直播内容每天都在不断更新和创造。如果你在网上找到(已有的)视频,并把它们搬过来,你在网上总能找到踪迹,但直播的内容你在网上几乎找不到。找直播内容的时候,千万不要选择粉丝超过10万的大主播,因为你可能会被他的粉丝喷,甚至可能会收到版权投诉。*敏*感*词*主播,没人关注,就是玩玩,根本不关注这些东西。
而一旦“携带者”过了原来的时期,就可以继续“套路”,继续携带视频。老师还晒出了自己学生的账号。可以看出,该账号发布的内容实际上是从电视剧中截取的。
“微客学院”自媒体培训老师 肖曦:都是,你简直不敢相信。我们只是找到一个视频并将其分成几个部分。大多数自媒体平台都没有广告,现在人们更喜欢通过自媒体平台看剧。为什么要拍电视剧?因为内容可以不断更新,这也是为什么做视频阅读量比做图文阅读量高的原因。看完这篇文章不可能再看另一篇文章,但制作视频有80个读者。有90%的概率,看完第一部想看第二部,看完第二部又想看第三部。
光是把电视剧“搬”过来,学生的账号收入就非常可观,老师也表示不用担心可能出现的侵权问题。
“微客学院”自媒体培训老师小希:因为发的内容大部分是优酷和土豆的版权内容,世界杯的版权可以拿下,但两部电视剧的版权拿不到赢了?
在网上,这样的自媒体培训班比比皆是。不仅可以带视频,现在很火的“知识付费课程”也被盯上了。这段国语在线录制教程是盗版者直接录制的,并转入他的公众号,加上海报和标语,一门盗版付费知识课程被“洗白”,方法与视频一模一样。
版权服务机构“维权骑士”负责人陈联:他们炮制盗版课程的方式一般是盗取明星肖像和素材制作海报。诱导学生加入盗版群,课程内容也被混编,正反面减去版权声明的内容进行拼接。
稿件清洗管理难度大,需要多方合作
可见,如今“洗稿”的方式多种多样。不仅创作者怨声载道,还危害了整个网络空间的创作氛围和环境。那么“洗稿”现象的治理难点在哪里?我们如何才能遏制这种现象?
难点一:“洗稿”技术丰富成本低
在这些QQ洗稿群里,可以发现有很多用来“洗稿”的软件,从伪原创到录制视频、音频到去水印等等,有些软件被封后,时间不会太长前。换好马甲后,又蹦了出来。
伪原创软件《纸牌屋》工具客服:可以看到网上有很多伪原创或原创测试工具,而且他们的软件是不更新的。我们的软件一直在不断更新。提供了多种型号。
难点二:内容变化“洗”难以识别
中国传媒大学政法学院副院长王思新:洗稿在法律上很难认定,大段文字抄袭可以被机器发现。但它(“洗稿”)改变了别人好的思想和好的文艺作品。真正从法律上认定为侵权需要很长时间,技术要求相对较高,维权成本也相对较高。
难点三:平台态度暧昧,创作者维权难
以微信平台为例,这个名叫“M”的盗版者在朋友圈发布了大量盗版课程广告,也有线下开发的广告。记者试图投诉,但根据微信提示发现,个人短信和海报无法直接举报,微信群页面也没有举报盗版侵权的入口。至于7月30日被投诉的另一篇盗版资源宣传文章,当时的回复是该文章已被删除,但现在仍然可以正常访问。
版权服务机构“维权骑士”负责人陈联:有些内容平台维权态度还是比较暧昧,有的处理时间比较长,可能一周后回复你,但实际上,在互联网时代,不用说一个星期,也就是人气居然三天就过去了,该赚的收入和流量都赚到了。
中国传媒大学政法学院副院长王思新:大量的人在你的平台上编辑稿件,或者发表编辑稿件的文章,动不动就有10万以上的浏览量。对于平台来说,这直接带来的是热闹、人气、流量。这是互联网平台的核心诉求。如果有一个核心诉求,就会动摇其打假的决心。不打假不严格反洗稿他也会受益,因为平台之间存在竞争问题,水清则无鱼。一方面,我要加大人力物力的投入。另一方面,如果我赶走了很多凑热闹的人,
今年7月,国家版权局、国家互联网信息办公室、工业和信息化部、*敏*感*词*部联合启动“剑网2018”专项行动,首次提出重点关注打击通过自媒体“洗”的方式抄袭、篡改、删除原创作品。行为,规范搜索引擎、浏览器、应用商店、微博、微信等涉及的互联网转载行为。
版权服务机构“维权骑士”负责人陈炼:中国版权环境的进一步改善,其实最重要的是创作者。版权所有者自己可以真正关心自己的版权,他们可以意识到内容版权是他们自己的内容。创业者,核心资产。这为广大群众进一步改善我国版权环境奠定了基础。
中国传媒大学政法学院副院长王思新:这个领域要有专业的打假团队和机构,依靠比较先进的技术和一些大数据,及时跟进研判,及时向有关部门或相关平台提供这方面的前沿报道,监管部门应加强处罚。就是给他建立这样一条高压线,建立平台之间的信息互通和相互纠错,以及举报机制,让这些小编无处可洗。这个平台出了问题之后,其他平台就很难再动了,建立这个领域的黑名单制度。(记者高磊韩文洋)