虽然人工智能似乎无处不在,但它主要运行在世界上7000种语言中的一小部分,而全球很大一部分人口却被遗漏了。NVIDIA的目标是填补这一明显的盲点,尤其是在欧洲。
该公司刚刚发布了一套强大的全新开源工具,旨在帮助开发者为 25 种不同的欧洲语言构建高质量的语音 AI。这不仅涵盖了主流语言,更重要的是,它为那些经常被大型科技公司忽视的语言(例如克罗地亚语、爱沙尼亚语和马耳他语)提供了生命线。
目标是让开发人员创建我们许多人认为理所当然的语音工具,从真正理解您的多语言聊天机器人到眨眼间即可完成工作的客户服务机器人和翻译服务。
该计划的核心是Granary,一个庞大的人类语音库。它包含约一百万小时的音频,所有音频都经过精心挑选,旨在帮助人工智能学习语音识别和翻译的细微差别。
为了利用这些语音数据,NVIDIA 还提供了两种专为语言任务设计的全新 AI 模型:
- Canary-1b-v2是一个大型模型,旨在实现复杂转录和翻译作业的高精度。
- Parakeet-tdt-0.6b-v3,专为速度至关重要的实时应用而设计。
如果您有兴趣深入了解背后的科学原理,Granary 的论文将于本月在荷兰的 Interspeech 会议上发表。对于渴望亲自动手的开发者,数据集和两个模型都已在 Hugging Face 上可用。
然而,真正的魔力在于这些数据是如何产生的。我们都知道,训练人工智能需要大量的数据,但获取这些数据通常是一个缓慢、昂贵且坦率地说冗长的人工注释过程。
为了解决这个问题,NVIDIA 的语音 AI 团队与卡内基梅隆大学和布鲁诺·凯斯勒基金会的研究人员合作,构建了一条自动化流程。他们使用自己的 NeMo 工具包,将原始、未标记的音频转化为 AI 可以学习的高质量结构化数据。
这不仅仅是一项技术成就,更是数字包容性的一次巨大飞跃。这意味着里加或萨格勒布的开发者终于可以构建能够准确理解当地语言的语音驱动型AI工具,并且效率更高。研究团队发现,他们的Granary数据非常高效,与其他流行的数据集相比,只需大约一半的数据量就能达到目标准确度。
两款新型号展现了这种强大的功能。Canary 简直就是一头猛兽,其翻译和转录质量可与体型三倍于它的型号相媲美,但速度却高达十倍。与此同时,Parakeet 可以一次性处理 24 分钟的会议录音,并自动识别所使用的语言。这两款型号都足够智能,能够处理标点符号、大写字母,并提供单词级时间戳,这是构建专业级应用程序所必需的。
通过将这些强大的工具及其背后的方法交到全球开发者社区手中,NVIDIA 不仅仅是发布了一款产品,它正在开启一波新的创新浪潮,希望创造一个 AI 能够与您沟通的世界,无论您来自哪里。