智能采集组合文章(NÜWAWA模型支持的典型可视化生成和操作任务示例)

优采云 发布时间: 2022-01-22 09:20

  智能采集组合文章(NÜWAWA模型支持的典型可视化生成和操作任务示例)

  欢迎来到第 21 期论文和代码交流。本周,我们讨论:

  视觉合成任务的统一方法

  扩展视觉模型的技术

  2021 年 11 月热门论文

  最新研究成果,

  等等

  改善视觉构图

  

  NÜWA 模型支持的典型可视化生成和操作任务示例

  随着视觉数据在网络上变得越来越可用和流行,需要构建更好的系统来生成新数据或为各种可视化场景操作视觉数据。吴等人。(2021) 提出了一种新的多模态预训练模型 NÜWA,一种通用的 3D 转换器,同时支持多模态视觉合成任务。

  什么是 NÜWA:NÜWA 由一个接受文本或视觉输入的自适应编码器和一个由 8 个视觉任务共享的预训练*敏*感*词*组成。为了降低计算复杂度并提高结果的视觉质量,提出了一种 3D Nearby Attention 机制(3DNA)。3DNA考虑空间和时间轴的局部性特征,以更好地处理视觉数据的性质。(见下面的完整架构)。NÜWA 在文本到图像生成、文本到视频生成和其他视觉任务方面取得了最先进的结果。它还表现出良好的文本引导图像处理和文本引导视频处理的零样本学习能力。

  

  女娲概况,图片来源:Wu et al. (2021)

  另外值得了解的是:之前基于 VQ-VAE 的方法,例如 DALL-E 和 CogView,已经表明可以将*敏*感*词*预训练应用于视觉合成任务。然而,这些模型的一个限制是它们分别*敏*感*词*娲受益于图像和视频数据,如图所示。与 NÜWA 的另一个区别是它使用 VQ-GAN 而不是 VQ-VAE 进行视觉标记化,作者认为这可以带来更好的生成质量。统一模型让我们得以一窥未来,人工智能平台允许内容创作者以创造性的方式创造视觉世界。

  扩展视觉模型

  

  Swin Transformer V2 中提出的适配概述。资料来源:刘等人。(2021)

  在我们之前的问题中,我们定期讨论了扩展大型 NLP 语言模型的新技术。另一方面,视觉模型的扩展一直滞后。一些作品试图通过*敏*感*词*标记图像数据集来扩展视觉转换器,并且仅适用于图像分类。文献中的一些报告指出了*敏*感*词*训练中的不稳定性问题。还不清楚如何跨窗口分辨率有效地传输模型。为了解决其中一些问题,Liu 等人。(2021) 最近提出了几种技术来有效地扩展视觉模型。

  重要性:首先,为了提高 Swin Transformer 等大型视觉模型的容量和稳定性,采用了后归一化技术和缩放余弦注意方法。为了有效地将在低分辨率图像上预训练的模型转移到它们的高分辨率对应物上,采用了对数间隔的连续相对位置偏差技术。(参见上图中的调整)。简而言之,提出了几种技术用于将 Swin Transformer 参数缩放到 3B 并使用更高分辨率的图像进行训练。由此产生的架构被称为 Swin Transformer V2,在各种视觉基准测试中创造了新的记录。(看这里)。

  您可能还喜欢:最近的另一篇论文旨在通过掩码自动编码 (MAE) 训练可扩展的视觉学习者。作者提出了一种简单的 MAE 方法:在预训练期间,图像块的一个大的随机子集被屏蔽并重建丢失的像素。在编码器-*敏*感*词*框架中,编码器仅适用于可见的补丁子集,而*敏*感*词*处理编码的补丁和掩码标记以重建以像素为单位的原创图像。补丁的掩蔽产生一个自我监督的任务,并允许对大型视觉模型进行高效和有效的训练。经过预训练后,仅使用编码器部分为模型实现高性能的多个识别任务生成表示。看看这里 。

  用于扩展视觉学习器的 MAE 架构概述。资料来源:他等人。(2021)

  带代码的新纸

  ???BASIC :提出了一种组合缩放方法,用于 ImageNet 上最先进的零样本迁移学习图像分类。

  ???Restormer :引入了一种高效的基于Transformer的高分辨率图像恢复模型。它在图像恢复任务(例如离焦去模糊和图像去噪)方面优于以前的模型。

  ⚙️ ML-Decoder :提出了一种新的基于注意力的分类方法,并重新设计了*敏*感*词*架构,用于MS-COCO和其他图像数据集的多标签分类。

  在此处浏览论文和代码报告中的所有最新成果。

  最新的研究数据集和工具数据集 RedCaps - 是从 Reddit 采集的 1200 万图文对的*敏*感*词*数据集。

  CytoImageNet - 用于生物图像迁移学习的*敏*感*词*预训练数据集。

  LSUI - 收录 5K 图像对的*敏*感*词*水下图像数据集,涵盖更丰富的水下场景。

  工具

  TorchGeo - 用于将空间数据集成到 PyTorch 深度学习生态系统中的 Python 库。

  tsflex - 一个独立于领域的 Python 工具包,用于时间序列处理和特征提取。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线