NVIDIA展示视觉AI领域的最新进展

NVIDIA 研究人员本周在西雅图举行的计算机视觉和模式识别(CVPR) 会议上展示了新的视觉生成 AI 模型和技术。这些进步涵盖了自定义图像生成、3D 场景编辑、视觉语言理解和自动驾驶汽车感知等领域。

NVIDIA展示视觉AI领域的最新进展

NVIDIA 学习和感知研究副总裁 Jan Kautz 表示：“人工智能，尤其是生成式人工智能，代表着一项关键的技术进步。

“在 CVPR 上，NVIDIA Research 分享了我们如何突破可能的界限——从可以为专业创作者提供强大动力的强大图像生成模型，到可以帮助实现下一代自动驾驶汽车的自动驾驶软件。”

在 50 多个 NVIDIA 研究项目中，有两篇论文入围 CVPR 最佳论文奖决赛——一篇探讨了扩散模型的训练动态，另一篇探讨了自动驾驶汽车的高清地图。

此外，NVIDIA 还赢得了 CVPR 自动驾驶大赛的端到端大规模驾驶赛道，在全球 450 多个参赛者中脱颖而出。这一里程碑展示了 NVIDIA 在将生成式 AI 用于全面自动驾驶汽车模型方面的开创性工作，同时还获得了 CVPR 颁发的创新奖。

其中一个主要研究项目是JeDi，这是一项新技术，允许创作者快速定制扩散模型(文本到图像生成的领先方法)，仅使用几个参考图像即可描绘特定对象或字符，而无需在自定义数据集上进行耗时的微调。

另一项突破是FoundationPose，这是一种新的基础模型，可以立即理解和跟踪视频中物体的 3D 姿势，而无需对每个物体进行训练。它创下了新的性能记录，并可能解锁新的 AR 和机器人应用。

NVIDIA 研究人员还推出了 NeRFDeformer，这是一种使用单个 2D 快照编辑神经辐射场 (NeRF) 捕获的 3D 场景的方法，而不必手动重新制作更改或完全重新创建 NeRF。这可以简化图形、机器人和数字孪生应用的 3D 场景编辑。

在视觉语言方面，NVIDIA 与麻省理工学院合作开发了VILA，这是一系列新的视觉语言模型，在理解图像、视频和文本方面取得了最先进的性能。凭借增强的推理能力，VILA 甚至可以结合视觉和语言理解来理解互联网模因。

NVIDIA 的视觉 AI 研究涉及众多行业，包括十几篇探索自动驾驶汽车感知、测绘和规划新方法的论文。NVIDIA AI 研究团队副总裁 Sanja Fidler 介绍了视觉语言模型对自动驾驶汽车的潜力。

NVIDIA CVPR 研究的广度体现了生成式 AI 如何能够赋能创作者、加速制造业和医疗保健领域的自动化，同时推动自主性和机器人技术的发展。