Meta 的基础人工智能研究 (FAIR) 团队宣布了五个项目,以推动公司对先进机器智能 (AMI) 的追求。
Meta的最新版本主要注重增强人工智能感知(机器处理和解释感官信息的能力),同时在语言建模、机器人技术和协作人工智能代理方面也取得了进步。
Meta 表示,其目标是创造“能够获取、处理和解释我们周围世界的感官信息,并能够使用这些信息以类似人类的智慧和速度做出决策”的机器。
这五款新品代表着我们为实现这一宏伟目标所做出的不同但相互关联的努力。
感知编码器:Meta 增强了 AI 的“视野”
新版本的核心是感知编码器,它被描述为一种大规模视觉编码器,旨在完成各种图像和视频任务。
视觉编码器充当人工智能系统的“眼睛”,使其能够理解视觉数据。
Meta 强调了构建满足高级 AI 需求的编码器的日益严峻的挑战,需要具备连接视觉和语言、有效处理图像和视频以及在包括潜在对抗性攻击在内的挑战性条件下保持稳健的能力。
根据 Meta 的说法,理想的编码器应该能够识别各种各样的概念,同时区分细微的细节——例如发现“潜伏在海底的黄貂鱼,识别图像背景中的小金翅雀,或者在夜视野生动物摄像机上捕捉到奔跑的刺豚鼠”。
Meta 声称感知编码器“在图像和视频零样本分类和检索方面实现了卓越的性能,超越了所有现有的用于此类任务的开源和专有模型”。
此外,据报道,它的感知优势可以很好地转化为语言任务。
据称,与大型语言模型 (LLM) 对齐后,该编码器在视觉问答 (VQA)、字幕、文档理解和基础(将文本链接到特定图像区域)等领域的表现优于其他视觉编码器。据报道,它还能提升 LLM 传统上难以完成的任务的性能,例如理解空间关系(例如,“一个物体是否在另一个物体后面”)或相机相对于物体的移动。
Meta 表示:“随着 Perception Encoder 开始被集成到新的应用程序中,我们很高兴看到其先进的视觉功能将如何支持功能更强大的 AI 系统。”
感知语言模型(PLM):视觉语言的开放研究
与编码器相辅相成的是感知语言模型 (PLM),这是一个开放且可重复的视觉语言模型,旨在完成复杂的视觉识别任务。
PLM 使用大规模合成数据结合开放视觉语言数据集进行训练,明确地不从外部专有模型中提取知识。
FAIR 团队意识到现有视频理解数据存在缺陷,收集了 250 万个新的人工标记样本,重点关注细粒度视频问答和时空字幕。Meta 声称这构成了“迄今为止同类中最大的数据集”。
PLM 提供 10 亿、30 亿和 80 亿个参数版本,可满足需要透明度的学术研究需求。
除了这些模型之外,Meta 还发布了 PLM-VideoBench,这是一个新的基准,专门用于测试现有基准经常忽略的功能,即“细粒度活动理解和时空基础推理”。
Meta 希望开放模型、大型数据集和具有挑战性的基准的结合能够增强开源社区的能力。
Meta Locate 3D:赋予机器人态势感知能力
Meta Locate 3D 能够弥合语言指令与身体动作之间的差距。这个端到端模型旨在让机器人能够基于开放词汇的自然语言查询,在 3D 环境中精准定位物体。
Meta Locate 3D 直接处理来自 RGB-D 传感器(例如某些机器人或深度感应摄像头上的传感器)的 3D 点云。给定一个文本提示,例如“电视柜旁的花瓶”,系统会考虑空间关系和上下文来精确定位正确的对象实例,并将其与“桌子上的花瓶”之类的提示区分开来。
该系统包括三个主要部分:将 2D 特征转换为 3D 特征点云的预处理步骤;3D-JEPA 编码器(创建情境化 3D 世界表示的预训练模型);以及定位 3D 解码器,它采用 3D 表示和语言查询来输出指定对象的边界框和蒙版。
除了该模型之外,Meta 还发布了一个基于指称表情进行对象定位的全新数据集。该数据集包含来自 ARKitScenes、ScanNet 和 ScanNet++ 数据集的 1,346 个场景的 130,000 条语言注释,有效地将该领域现有的注释数据量翻了一番。
Meta 认为这项技术对于开发功能更强大的机器人系统至关重要,包括其自己的 PARTNR 机器人项目,可以实现更自然的人机交互和协作。
动态字节潜在变换器:高效且强大的语言建模
继 2024 年底发表研究成果之后,Meta 现发布其 80 亿参数动态字节潜在变压器的模型权重。
这种架构代表着一种转变,不再基于传统的基于标记化的语言模型,而是在字节级别进行操作。Meta 声称,这种方法在规模上实现了相当的性能,同时显著提高了推理效率和鲁棒性。
传统的 LLM 将文本分解成“token”,这在处理拼写错误、新词或对抗性输入时可能会遇到困难。字节级模型处理原始字节,因此可能具有更高的弹性。
Meta 报告称,动态字节潜在变换器“在各种任务中的表现都优于基于标记器的模型,平均稳健性优势为 +7 分(在受扰动的 HellaSwag 上),在 CUTE 标记理解基准任务中最高可达 +55 分。”
通过将权重与之前共享的代码库一起发布,Meta 鼓励研究界探索这种语言建模的替代方法。
协作推理器:Meta 推进社交智能 AI 代理
最终版本“协作推理器”解决了创建能够与人类或其他人工智能有效协作的人工智能代理的复杂挑战。
Meta 指出,人类的合作通常会产生更好的结果,并旨在为人工智能注入类似的能力,以完成诸如帮助完成家庭作业或准备工作面试等任务。
这种合作不仅需要解决问题的能力,还需要沟通、同理心、提供反馈和理解他人心理状态(心理理论)等社交技能,这些技能通常需要在多个对话中展开。
当前的法学硕士(LLM)培训和评估方法往往忽视了这些社交和协作方面。此外,收集相关的对话数据既昂贵又困难。
协作推理器提供了一个评估和增强这些技能的框架。它包含一些面向目标的任务,需要通过两个智能体之间的对话进行多步骤推理。该框架测试的技能包括:建设性地表达不同意见、说服伙伴以及达成共同的最佳解决方案。
Meta 的评估表明,当前的模型难以持续利用协作来获得更好的结果。为了解决这个问题,他们提出了一种自我改进技术,利用合成交互数据,让 LLM 代理与自身协作。
大规模生成这些数据得益于名为 Matrix 的全新高性能模型服务引擎。据报道,在数学、科学和社会推理任务中使用这种方法,与单个法学硕士的标准“思路链”性能相比,其提升幅度高达 29.4%。
通过开源数据生成和建模管道,Meta 旨在促进进一步研究,创造真正的“可以与人类和其他代理合作的社交代理”。
这五项发布的成果共同凸显了 Meta 对基础人工智能研究的持续大力投资,尤其注重构建能够以更像人类的方式感知、理解和与世界互动的机器模块。