超强:拨开「短视频第一股」的外表,我们看见了一家强悍的「科技公司」
优采云 发布时间: 2022-11-26 04:30超强:拨开「短视频第一股」的外表,我们看见了一家强悍的「科技公司」
从音视频制作、传输到内容、用户、技术基础设施建设的理解和个性化推荐,快手的布局无愧于“科技公司”的称号
11月6日,全国短视频社区快手公布招股书。
一个令人惊讶的数字是,快手在2020年上半年的研发投入为23亿元,占同期总营收的8.9%。
我们一般不会把短视频归类为高科技产业,但仔细想想,短视频中其实有很多技术应用场景。例如,视频拍摄特效、千人推荐算法、高速低延迟的网络基础设施等。
快手几乎从成立之初就做了这些技术布局,从生产消费的体验,到对音视频内容的理解和对用户的个性化推送,再到技术基础设施的建设,布局超乎想象。
现在,抛开“短视频第一股”的出现,是时候重新评价快手作为“科技公司”了。
1、内容制作:自研深度学习推理引擎,AI“飞入寻常百姓家”
用快手拍摄短视频的一大乐趣就是能够实现各种梦幻般的AI效果。
快手基于强大的图像AI技术,在移动端实现自动人像识别、分割、背景生成相结合的实时隐身效果,让用户在移动端创作出各种有趣的作品。
比如快手新推出的《变身童话公主》系列的魔幻表情符号。
再比如,“隐形魔法”从天而降,是短视频行业首次应用将单幅图像修复与帧间图像对齐相结合的视频修复算法。
基于
手机上的*敏*感*词*和传感器,快手的移动混合现实技术几乎可以将每部手机变成可以实时感知空间信息的设备,实现虚拟元素与真实环境的自然交互和呈现。
这项技术使快手用户无需复杂的设备即可在手机上实现基于太空的创意和身临其境的互动体验。
基于深度学习GAN技术,快手于2019年在国内发布了《娃娃脸》特效,用这个表情让脸一键回归幼儿。在此基础上,有“变性”、“变手绘”、即将上映的“变童话”等多种应用。
以上是快手在短视频行业的首次应用,技术先进。
为了保持应用的创新,快手在2018年成立了AI实验室Y-tech,聘请了多位技术大师负责前沿算法研究,并加入魔幻表达部特效团队加入产品经理,让技术研究和产品落地无缝对接。
在实践中,为了克服手机上技术实时处理的障碍,Y-tech还开发了一套算法压缩模型,可以在计算和内存资源有限的情况下,在不影响算法效果的情况下,最大限度地减少模型的计算量。
而且,为了让特效在所有手机上都能运行,Y-tech还自主研发了深度学习推理引擎YCNN。
YCNN可以支持CPU、GPU和NPU等多种型号的底层硬件,可以根据不同的手机算力提供不同尺寸的特定型号,并通过模型交付将设备上的最佳算力与相应的型号相匹配。
YCNN整体架构。
在推理引擎优化方面,工程师还将针对不同设备优化算子,以最大限度地提高设备性能。
此外,YCNN
引擎还拥有完整的AI工具链,支持PyTorch,TF/TFlite模型直接转换为YCNN模型,并支持训练时模型量化和基于硬件的模型结构搜索。整体性能比行业引擎具有约10%的优势。
2、音视频传输:自主研发传输协议KTP,与直播延迟竞争
快手以“拥抱每一个生命”为口号,用户遍布全球。打开APP,你经常会发现,“老铁”在沟壑、田野甚至荒野中开直播,但网络滞后很少。
这就涉及到快手以“专用传输协议KTP和流媒体多码率标准LAS”为代表的核心音视频传输技术。
该技术不仅可以保证弱网络下作品的发布成功率、直播的稳定性和流畅性,以及视频会议等RTC应用的低延迟和流畅性,还可以支持端到端高清1080P视频的拍摄、制作、上传和播放,并根据不同用户的网络状态和设备性能动态选择最佳清晰度, 在观看体验的流畅性、清晰度和低延迟之间取得平衡。
具体来说,媒体内容从制作到被看到,必须经过网络分发的过程。手机对音视频内容进行采集、编码、处理后,传输到媒体服务器,媒体服务器与CDN网络互联,再由CDN分发给快手用户消费。
整个网络传输过程分为上游(媒体内容从主播/创作者到媒体服务器)和下游(媒体内容从CDN到受众),针对上下游,快手开发了传输协议KTP和多码率标准LAS,以优化端到端的用户体验。
快手传输协议 KTP
快手的业务复杂,包括工作发布、直播、PK/麦克风、视频会议、多人互动等,不同的业务对传输性能有不同的要求。
例如,作品的发布需要高吞吐量、高可靠、低时间消耗,而直播需要低延迟和高稳定性。目前,未来的协议和算法只关注某一点,难以满足快手的需求。为此,快手设计了私有传输协议KTP,其架构如下图所示:
KTP基于UDP,这使得它非常灵活,快手工程师和算法专家可以在它上面设计各种各样的传输算法。
" />
KTP分为服务器层和客户端,每一端分为传输控制层和服务感知层,在传输控制层,收录
大量的传输算法,可以适应各种网络状态和需求,传输控制层之上是服务感知层,该层是业务与网络之间的桥梁,
通过感知业务和网络特征的结合,实现跨层源渠道联合优化。
目前,KTP已在快手的各项业务中得到充分应用,并取得了非常显著的效益,其业绩也处于行业领先水平。例如,与 QUIC\SRT 相比,KTP 可以显著减少发布作品所需的时间,减少直播延迟,提高清晰度。与业界常见的RTC产品相比,KTP可以获得更多的延迟和更强的弱网络抵抗力。KTP
采用可插拔设计方式,所有算法和功能块相互解耦,大大提高了KTP的灵活性和可扩展性。同时结合快手强大的A/B测试系统,任何算法和变化都能快速在线获得最真实的反馈,让KTP保持领先地位和实用性。
LAS:实时自适应流媒体
复杂的网络环境使得单一定义难以满足不同用户的需求。为了改善所有用户的体验,快手制定了多码率自适应策略,让不同的用户在当前网络条件下获得最佳体验。
对于直播
快手研发了基于流媒体的直播多码率标准LAS,并正式对外开放。
目前各大云厂商都支持LAS,保证LAS服务在云上,快手也开源Web侧解决方案,与B站共建,共同开源移动解决方案。
与众所周知的多码率标准HLS相比,如下图所示,LAS可以实现更低的延迟,更高的清晰度和更流畅的直播体验。
LAS的优势。
除了传输协议,快手对媒体消费体验的优化和研究也令人瞩目
比如快手
推出了60帧、HDR等一系列提升视频质量的技术,快手现在支持VR视频观看,只要下载快手APP,就相当于拥有了VR终端。
在编*敏*感*词*领域,圣地亚哥快手音视频标准实验室提交的几项提案已被全球联合倡议JVET(ITU-T VCEG和ISO/IEC MPEG联合视频探索组)采纳,成为其主要贡献者之一。
在应用方面,快手视频解码标准(KVC)自2020年3月开始*敏*感*词*部署。在相同的主观质量下,KVC可以大幅减小媒体文件的大小,提高视频播放的流畅度。
三、内容理解:多式联运技术为更好的内容保驾护航
当然,作为国内顶尖的短视频平台之一,仅仅让用户看到好看清晰的视频是不够的。
随着视频和用户数量的增加,
平台必须能够保证视频的原创性和安全性,并且能够根据用户的个性化需求推荐不同的视频。这一切都涉及到平台对音视频内容和用户的理解,所以快手出现了深度学习技术。
2015年是人工智能爆发的一年,也是快手组建第一个深度学习团队的一年。2016年,深度学习部门开始涉足语音、文本、音乐等各种媒体形式,因此更名为“多媒体理解小组”(MMU)。
由于快手是早期对视频内容分析有强烈需求的公司,MMU团队基本从零开始,从“定义合理的标签体系”开始了解用户制作的错综复杂的音视频内容。两大应用方向包括人机交互和信息分发。
在具体场景方面,首先,多模态技术将帮助用户实现更好的视频创作。
在这方面,快手是目前中国短视频行业首家成功*敏*感*词*实现端到端自动语音识别系统的公司。
一般语音合成
应用基于参数化语音合成算法,合成语音比较僵硬。MMU团队采用并改进了完全端到端的神经网络模型,可以使合成的语音效果更加自然,神经网络结构可以利用硬件并行计算能力来支持实时语音合成。
为了最大限度地保留语音角色的语音韵律风格,团队还对算法进行了一系列调试,比如在生成算法中加入风格控制回归编码网络来反映韵律;使用基于深度神经网络的声码器恢复声音特征等。
在技术支持下,快手拥有许多有趣的“声音”功能。一个典型的应用是快盈今年推出的智能配音功能,它允许用户输入文本,软件可以自动将其转换为高质量的视频配音,以及多种“语音扬声器”和方言可供选择。
还有去年推出的快手*敏*感*词*语音助手“小快”,可以识别语音命令播放音乐、讲笑话,活跃*敏*感*词*气氛。
此外,MMU团队还开发了“根据视频内容自动生成音乐”功能,可以更好地将视频画面与音乐的节奏相匹配,为此,团队还专门招募了懂音乐的人和工程师一起融合创新。
除了创作,多模态技术还可以准确理解视频内容,帮助创建更好的分享机制。
MMU团队在这方面做了两件有趣的事情:第一是强调音频和视觉的多模态合成建模,而不仅仅是视觉或音频;
二、快手
拥有大量的用户数据,不属于传统多媒体内容研究的范围,但快手可以很好地利用这些数据进行内容理解。快手将行为数据和内容数据融合进行综合建模,在等量人工标注的前提下,快手利用海量用户行为数据,可以获得比纯内容模型更好的性能。
内容行为数据融合。
如今,MMU团队每天实时分析超过1500万个视频和超过100万小时的直播内容,并开发了AI驱动的内容算法系统,可以对平台的海量数据(文本、图像、音频和视频)以及不当和非法内容以及可能侵犯第三方知识产权的内容进行实时多维度分析和过滤。
四、个性化推荐:强化学习摆脱推荐内容的同质化
对于所有短视频平台来说,“个性化推荐”是最能影响用户感情的环节。
" />
因此,除了了解内容之外,平台还需要能够将内容推送给最合适的客户。快手在这方面也做得很好。从界面设计
来看,快手的推荐引擎是全球极少数拥有双列缩略图、上下个性化推送界面设计的大型推荐引擎之一。
缩略图允许用户根据自己的喜好快速选择自己想要观看的短视频和直播,个性化的上下推支持在向上滑动屏幕时自动播放下一个视频,使浏览更流畅。
此外,快手也是短视频行业最早将深度强化学习算法*敏*感*词*应用于视频推荐的公司之一,其推荐引擎基于自研图神经网络(KGNN)。
个性化推荐一般分为两步,首先“召回”,从千万级视频库中基于简单模型对数百个相关候选视频进行“排序”,利用复杂模型最终选择多个视频(一般为十个)返回给用户。
在排序过程中,传统的推荐排名算法通常采用逐点排序框架,基于经验公式或排序模型,“独立”估计每个候选视频的排序分数,从高到低抓取前N个视频。
然而,
独立评分法忽略相邻视频的影响,倾向于将类似视频排在第一位,导致同质化推荐内容,从长远来看会让用户厌倦内容。
因此,
快手技术团队提出了一种基于强化学习的序列化排序框架,将输出N个视频序列的任务建模为连续做出N个决策的过程。强化学习排名模型端到端地完成整个推荐排名过程,从数百个视频候选集中选择数十个视频的有序列表,并将它们返回给用户。
传统排名算法VS强化学习算法。
在强化学习排序过程中,每次挑选的目标都是最大化视频序列的整体奖励,保证推荐内容的多样性。
此外,强化学习排名算法
还可以保证更好的推荐准确率和实施,系统在每次用户反馈(点击、点赞、转发)后,通过强化学习算法完成排名模型的在线更新。
5. 快手的科技基础设施
作为一家科技公司,快手能实现上述技术最离不开的就是“基础设施”。
首先是人才,快手在世界各地招募了很多非常优秀的技术人才。招股书显示,截至2020年6月30日,快手研发人员超过5000人,硕士及以上*敏*感*词*的研发人员2300余人。2017年
、2018年,
2019年及截至2020年6月30日,快手研发支出分别为4.766亿元、18亿元、29亿元和23亿元,分别占同期经营费用的23.1%、26.8%、21.5%和13.6%。
此外,快手在世界各地设有研发中心。Y-tech是一家人工智能研究中心,专注于计算机视觉、深度学习等前沿领域,完善快手AR、滤镜等技术驱动的特效功能。其研究中心位于北京,在美国杭州和帕洛阿尔托设有办事处。
为了扩大海外版图,快手还在美国设立了研发中心。快手总部位于硅谷,整合了几个关键团队,包括Y-Tech、图形AI、多媒体算法和异构计算实验室。
斯坦福大学附近的快手研发中心。
西雅图实验室旨在吸引美国优秀人才,建立技术壁垒,承接商业广告推荐、游戏AI与策略优化、移动AI模型效率优化等项目。
圣地亚哥视频编码标准实验室主要致力于探索下一代视频压缩技术,包括视频压缩算法、视频处理、视频内容分析、机器学习和质量评估。
此外,快手还与清华大学联合
成立“清华大学-快手未来媒体数据联合研究院”,培养学生结合产学研,用AI解决产品问题。在网络
基础设施方面,快手目前拥有超过24万台服务器,分布在全国22个网络数据中心,数据总量为EB。
此外,快手还计划在全国部署超*敏*感*词*数据中心,并已于6月与乌兰察布数据中心项目举行签约仪式,投资100亿元,预计明年投入使用。除了数据中心,为了提高计算效率,
快手还优化算法,开发了基于CPU/GPU异构的计算系统,进一步提高算法的运行效率。
六、坚持用户导向,追求技术“极致”
如果概括快手技术团队的特点,可以用两个词来形容,“用户为本”和“追求完美”。
技术人员通常从技术角度思考问题,但快手会自觉培养工程师的逆向思维能力,考虑用户的需求。
最简单的方法是,研发人员会成为产品的深度用户,从用户的角度进行深思熟虑和优化,并与产品经理讨论如何更好地改进。
比如在主播和粉丝的音视频连接场景中,很多直播团队在2016年就推出了麦克风连接功能。快手刚上线直播时,产品团队从用户的角度评价:直接上线视频连接可能会给用户带来社交压力,如何把用户开话筒的压力降到最低?
最能接受的形式是语音麦克风,于是快手首先推出了技术更简单的语音麦克风,证明了用户端的实时性非常高,只有当反馈“露面”需求时,快手才在2017年推出视频麦克风。
追求完美是快手技术团队的原则。2019年,快手CEO苏华在年会上强调,“不追求极致,就赢不了。
因此,在每一个看似微小的功能背后,快手都会投入大量资源,用技术打造极致的用户体验。
正如快手音视频技术负责人俞冰曾对媒体说的那样,“我们给最优秀的技术人员一个很好的机会,让他们把特别精细的细节做好,不像有些产品只能达到80分。
自媒体伪原创文章采集器软件下载、2、自媒体
从媒体下载伪原创文章采集
器软件。本软件无需权限,仅需权限即可访问相关媒体网站。
自媒体伪原创文章采集器软件下载、3、自媒体
从媒体下载伪原创文章采集
器软件。本软件无需权限,仅需权限即可访问相关媒体网站。
自媒体伪原创文章采集器软件下载,4.百家号
" />
自媒体权威是一个免费的专用工具,可以帮助所有的自媒体平台。
自媒体权限设置: 1、自媒体支持设置功能:在文章中加入百家号可以更好的展示标题和文章的具体内容,吸引粉丝阅读。
2、与百家号相互促进
自媒体和网站互推的区别在于,百家号和企鹅互推需要一定的技巧,但是必须保证文章的原创性,否则收入会增加,一旦被封,账号就会被封。
4、对百家号的限制:指在百家号发表的文章不是原创的,但是对于发表在百家号的内容,百家号可以直接插入宣传自己的广告。
" />
5、对百家号的限制:指百家号上发表的文章不是原创的,基本都是人工审核的。
6、发布链接:指在自媒体列表中直接发布,而非他人链接。
7、对百家号的限制:指的是从搜索引擎排名规则来看,百家号不可能展示重复的页面。
8、发表文章后的感受:大部分人都是这么认为的。我们发布的文章不仅会提高用户体验,而且对网站排名和排名也有重要的作用。当然,在百家号上发表文章,不仅仅是为了网站内部流量的增加,同时也会起到品牌推广的作用。这个广告的价值在经济上没有好处。
相关文章