腾讯通过新基准改进创意人工智能模型测试-国外VPS测评网

腾讯推出了一项新的基准 ArtifactsBench，旨在解决当前测试创意 AI 模型时遇到的问题。

你是否曾尝试让人工智能构建一个简单的网页或图表，结果虽然能用，但用户体验却很差？按钮的位置可能不对，颜色也可能冲突，或者动画效果很不流畅。这是一个常见问题，也凸显了人工智能开发领域面临的一个巨大挑战：如何教会机器拥有良好的品味？

腾讯通过新基准改进创意人工智能模型测试

长期以来，我们一直在测试AI模型编写功能正确代码的能力。这些测试可以确认代码能够运行，但它们完全“忽视了定义现代用户体验的视觉保真度和交互完整性”。

这正是 ArtifactsBench 的设计初衷。与其说它是一款测试工具，不如说它更像是一个针对 AI 生成代码的自动化艺术评论家。

那么，腾讯的人工智能基准测试是如何运作的呢？首先，人工智能会从超过 1800 个挑战项目中挑选一项创意任务，这些挑战包括构建数据可视化和 Web 应用程序，以及制作交互式迷你游戏。

一旦 AI 生成代码，ArtifactsBench 就会开始工作。它会在安全的沙盒环境中自动构建并运行代码。

为了观察应用程序的行为，它会随时间截取一系列屏幕截图。这使其能够检查动画、按钮点击后的状态变化以及其他动态用户反馈等内容。

最后，它将所有这些证据——原始请求、人工智能的代码和屏幕截图——交给多模态法学硕士 (MLLM)，以充当法官。

这位 MLLM 评委并非只是给出一个模糊的评价，而是使用一份详细的、针对每个任务的清单，根据十个不同的指标对结果进行评分。评分标准包括功能性、用户体验，甚至美学质量。这确保了评分的公平、一致和全面。

最大的问题是，这个自动化法官真的有良好的品味吗？研究结果表明，它确实有。

当 ArtifactsBench 的排名与 WebDev Arena（一个由真人投票评选最佳 AI 作品的黄金标准平台）进行比较时，它们的一致性达到了 94.4%。这与之前自动化基准测试的一致性仅为 69.4% 左右相比，是一个巨大的飞跃。

除此之外，该框架的判断与专业人类开发人员的判断一致率超过 90%。

当腾讯对 30 多个全球顶尖的 AI 模型进行测试时，排行榜的真相大白。尽管谷歌的顶级商业模型（Gemini-2.5-Pro）和 Anthropic 的（Claude 4.0-Sonnet）占据了领先地位，但测试结果揭示了一个引人入胜的真相。

你可能会认为，专门编写代码的人工智能在这些任务上表现最佳。但事实并非如此。研究发现，“通用模型的整体能力通常超越专用模型。”

通用模型Qwen-2.5 -Instruct 实际上击败了其更专业的兄弟模型 Qwen-2.5-coder（代码专用模型）和 Qwen2.5-VL（视觉专用模型）。

研究人员认为，这是因为创建一个出色的视觉应用程序不仅仅是孤立的编码或视觉理解，还需要多种技能的融合。

研究人员强调，“强大的推理能力、细致入微的指令执行能力以及内隐的设计美感”是至关重要的技能。这些正是最优秀的通才模型正在开始发展的一种全面、几乎与人类相似的能力。

腾讯希望其 ArtifactsBench 基准能够可靠地评估这些品质，从而衡量人工智能在创造不仅具有功能性而且用户真正想要使用的东西的能力方面的未来进步。

腾讯通过新基准改进创意人工智能模型测试