网页视频抓取脚本(Google如何在网页自动创建视频中启动视频创作?(图))
优采云 发布时间: 2022-01-07 13:16网页视频抓取脚本(Google如何在网页自动创建视频中启动视频创作?(图))
在 Google,我们正在积极探索人们在创建多媒体内容时如何使用由机器学习和计算方法提供支持的创意工具,从创作音乐和重建视频到绘画等等。创意过程,尤其是视频制作,可以特别受益于这些工具,因为它需要一系列决策,决定哪些内容最适合目标受众,如何在视野中定位可用资产,以及时机将产生最引人注目的叙述. . 但是,如果您可以使用现有资产(例如 网站)来快速开始视频创作呢?企业通常托管 网站 ,其中收录丰富的服务或产品的视觉表示,所有这些都可以在其他多媒体格式中重复使用,例如视频、
在 UIST 2020 发布的“Automatically Create Videos from Web Pages”中,我们介绍了 URL2Video,这是一个研究原型管道,可根据内容所有者提供的时间和视觉约束自动将网页转换为短视频。URL2Video 从 HTML 源代码中提取资产(文本、图像或视频)及其设计风格(包括字体、颜色、图形布局和层次结构),并将视觉资产组织成一系列镜头,同时保持外观类似于源页面。给定用户指定的纵横比和持续时间,然后将重复使用的材料呈现为适合产品和服务广告的视频。
URL2视频概览
假设用户提供指向描述其业务的网页的 URL。URL2Video 管道会自动从页面中选择关键内容,并基于一组启发式,从对熟悉网页设计和视频广告制作的设计师的采访中汲取灵感,并确定每个资产的时间和视觉呈现。设计师提供的这些启发式方法可以捕捉常见的视频编辑风格,包括内容层次结构、限制镜头中的信息量及其持续时间,以及为品牌提供一致的颜色和风格。使用此信息,URL2Video 管道解析网页、分析内容并选择具有视觉意义的文本或图像,同时保留其设计风格。它是根据用户提供的视频规范组织的。
网络分析
给定一个网页 URL,URL2Video 提取文档对象模型 (DOM) 信息和多媒体材料。出于原型研究的目的,我们将域限制为收录保留在 HTML 层次结构中的重要资产和标题的静态网页,遵循最新的网页设计原则,并鼓励使用突出的元素、不同的部分和指南读者对信息感知的视觉焦点序列。URL2Video 将这些视觉上可区分的元素标识为资产组的候选列表。每个列表可能收录标题、产品图像、详细说明和号召性用语按钮,并捕获原创资产(文本和多媒体文件)的每个元素的详细信息设计规范(HTML 标签、CSS 样式和呈现位置) . 然后,它根据每个资产组的视觉外观和注释(包括其 HTML 标签、渲染大小和页面上显示的顺序)为每个资产组分配优先级分数,以对资产组进行排名。这样,在页面顶部占据更大区域的资产组获得更高的分数。
基于约束的资产选择
我们在制作视频时考虑两个目标:(1)每个视频镜头应提供简洁的信息,以及(2)视觉设计应与源页面一致。基于这些目标和用户提供的视频限制,包括预期的视频时长(以秒为单位)和宽高比(通常为 16:9、4:3、1:1 等),URL2Video 会自动选择和排序资产组以优化总优先级得分. 为了使内容简洁,它只呈现页面的主要元素,如标题和一些多媒体资产,它限制了浏览者感知内容的每个视觉元素的持续时间。视频从页面顶部突出显示最重要的信息,而较长的视频收录更多的事件或产品。
场景合成和视频渲染
给定一个基于 DOM 层次结构的有序资产列表,URL2Video 遵循从访谈研究中获得的设计启发法,以确定在单个镜头中呈现资产的时间和空间安排。它将元素的图形布局转换为视频的纵横比,并应用包括字体和颜色在内的样式选择。为了使视频更具动感和吸引力,它调整了资产的呈现时间。最后,它将内容呈现为 MPEG-4 容器格式的视频。
用户控制
研究原型的界面允许用户查看从源页面提取的每个视频镜头中的设计属性,重新排列材料,更改颜色和字体等详细设计,并调整约束以生成新视频。
URL2Video 用例
我们展示了端到端 URL2Video 管道在各种现有网页上的性能。下面我们关注一个示例结果,其中 URL2Video 将收录多个嵌入的短视频剪辑的页面转换为 12 秒的输出视频。请注意管道如何为从源页面捕获的视频中的字体和颜色选择、时间和内容排序做出自动编辑决策。
为了评估自动生成的视频,我们与 Google 的设计师进行了一项用户研究。我们的结果表明 URL2Video 有效地从网页中提取设计元素并通过指导视频创建过程来支持设计人员。
下一步
尽管当前的研究侧重于视觉呈现,但我们正在开发支持视频编辑中的音轨和画外音的新技术。总而言之,我们设想了一个未来,创作者专注于做出高层决策,而 ML 模型以交互方式建议详细的时间安排和图形编辑,以在多个平台上创建最终视频。