韩国科学技术院 (KAIST) 的研究人员开发出了节能的 NPU 技术,该技术在实验室测试中显示出显著的性能提升。
根据受控实验的结果,他们的专用 AI 芯片运行 AI 模型的速度比目前为大多数 AI 系统供电的显卡快 60%,而耗电量却减少了 44%。
简而言之,这项由韩国科学技术研究院计算机学院的 Jongse Park 教授与 HyperAccel Inc. 合作开展的研究解决了现代人工智能基础设施中最紧迫的挑战之一:大规模生成人工智能模型对能源和硬件的巨大需求。
当前的系统(例如 OpenAI 的 ChatGPT-4 和 Google 的 Gemini 2.5)不仅需要高内存带宽,还需要相当大的内存容量,这促使微软和谷歌等公司购买数十万个 NVIDIA GPU。
内存瓶颈挑战
核心创新在于团队解决困扰现有 AI 基础设施的内存瓶颈问题的方法。他们的节能 NPU 技术专注于“轻量化”推理过程,同时最大限度地减少准确率损失——这一关键平衡对于以往的解决方案而言极具挑战性。
博士生 Minsu Kim 和 HyperAccel Inc. 的 Seongmin Hong 博士作为共同第一作者,在东京举行的 2025 年国际计算机体系结构研讨会 (ISCA 2025) 上展示了他们的研究成果。这篇题为《Oaken:基于在线-离线混合键值缓存量化的快速高效 LLM 服务》的研究论文,详细介绍了他们针对该问题的全面解决方案。
该技术的核心是键值缓存量化,研究人员认为,键值缓存量化占据了生成式AI系统中大部分内存的使用。通过优化这一组件,与传统的基于GPU的系统相比,该团队使用更少的NPU设备实现了同等水平的AI基础设施性能。
技术创新与架构
KAIST 团队的节能 NPU 技术采用了三管齐下的量化算法:基于阈值的在线-离线混合量化、组移位量化以及融合密集和稀疏编码。这种方法允许系统与现有的内存接口集成,而无需更改当前 NPU 架构中的操作逻辑。
该硬件架构采用页面级内存管理技术,有效利用有限的内存带宽和容量。此外,团队还引入了专门针对量化键值缓存优化的全新编码技术,以满足其方法的独特需求。
朴教授解释说:“这项研究通过与 HyperAccel Inc. 的合作,找到了生成式 AI 推理轻量级算法的解决方案,并成功开发出可以解决内存问题的核心 NPU 技术。”
“通过这项技术,我们结合量化技术,在保持推理准确性的同时降低内存需求,实现了性能比最新 GPU 提高 60% 以上的 NPU。”
可持续性影响
随着生成式人工智能的普及,人工智能基础设施对环境的影响日益受到关注。韩国科学技术研究院 (KAIST) 开发的节能神经网络处理器 (NPU) 技术为实现更可持续的人工智能运营提供了一条潜在途径。
与目前的 GPU 解决方案相比,该技术的功耗降低了 44%,其广泛应用有望显著减少 AI 云服务的碳足迹。然而,该技术的实际影响将取决于多种因素,包括制造可扩展性、成本效益和行业采用率。
研究人员承认,他们的解决方案代表着向前迈出的重要一步,但广泛实施还需要持续的开发和行业合作。
行业背景和未来展望
鉴于人工智能公司在平衡性能与可持续性方面面临越来越大的压力,这项节能NPU技术突破的时机尤为重要。目前,GPU主导的市场造成了供应链限制和成本上升,使得替代解决方案越来越具有吸引力。
朴教授指出,该技术“证明了实现专用于生成式人工智能的高性能、低功耗基础设施的可能性,预计不仅在人工智能云数据中心,而且在以动态、可执行人工智能(如代理人工智能)为代表的人工智能转型(AX)环境中也将发挥关键作用。”
这项研究代表着我们朝着更可持续的人工智能基础设施迈出了重要一步,但其最终影响将取决于其在商业环境中的规模化和部署效率。随着人工智能行业持续面临能源消耗问题,韩国科学技术研究院 (KAIST) 节能神经网络处理器 (NPU) 技术等创新为人工智能计算更可持续的未来带来了希望。