DeepMind联合麻省理工学院团队开发Fluid让自回归模型实现文生图的大规模扩展
在视觉领域,扩散模型已然成为图像生成的新范式。我们熟知的Stable Diffusion、DALL-E和Imagen等文生图工具都以扩散模型为基础。而在语言模型领域,自回归模型则占据主导位置,大名鼎鼎的ChatGPT就使用了此类模型来生成回复。所谓的扩展法则在以自回归模型为基础的大模型身上展现出了强大的力量,可以有效地提升性能。不过,如果回到视觉领域(比如文本生成图像),扩展自回归模型并未像在大语言模型中那样显著有效。许多研究人员正在努力搞清楚原因,并且想办法弥合自回归模型在视觉模型与语言模型之间的性能差距。
近日,来自谷歌DeepMind和美国麻省理工学院的研究人员发表了一篇预印本论文,介绍了他们在“提升自回归文生图模型性能”方面的最新进展。

该研究团队开发的新模型Fluid,通过采用连续Token和随机顺序策略,成功实现了自回归模型在文生图任务上的大规模扩展,不仅在多项基准测试中达到了领先水平,还提出了关于自回归模型的新见解。自回归模型在自然语言处理领域取得了巨大成功,但在计算机视觉特别是文生图任务中的表现一直不如扩散模型。为了探究背后的原因,研究团队对自回归图像生成模型的两个关键设计因素进行了系统性的研究:Token(离散或连续)和生成顺序(光栅顺序或随机顺序)。研究发现,采用连续Token的模型在视觉质量和评估指标上都显著优于使用离散Token的模型。这主要是因为离散Token化过程会导致大量信息丢失,即使增加模型参数也无法弥补这一缺陷。
登录后获取阅读权限
去登录
本文刊登于《海外星云》2024年11期
龙源期刊网正版版权
更多文章来自

订阅



