开源人工智能听起来像是一扇敞开的大门。开发者可以获取 Meta 的 Llama、Stability AI 的 Stable Diffusion 或 Mistral 等模型的代码,然后开始构建。这些工具可以免费下载和使用。开源的目的是让每个人——从个人程序员到小型团队——都能使用大公司拥有的工具。但事情并非如此简单。
硬件不是免费的
正如Substack上的一篇文章所详述,剑桥大学的 Saffron Huang 博士在她的计算机视觉研究中使用了稳定扩散算法,并使用了一套由八块 NVIDIA RTX 4090 GPU 组成的定制设备,耗资超过 2 万英镑。“这其中蕴含着深刻的讽刺,”她说道,“代码是免费提供的,但训练、微调,甚至有时运行这些模型所需的计算资源,却催生了新的技术贵族阶层。”
在训练大型模型时,这种差距会更大。Meta 的 Llama 3 拥有 700 亿个参数,在训练阶段需要数千个 GPU 不间断运行数月。仅凭这笔电费就能让一家小企业破产。独立研究人员难道就没有机会了吗?
“我们正在见证人工智能社区的分裂,”Inceptive 联合创始人 Jakob Uszkoreit 博士说道。“一方面,一些组织拥有庞大的计算资源,可以推动前沿技术的发展;另一方面,其他组织则必须在严格的计算约束下调整预先训练好的模型。”
环境成本加剧了这个问题。一辆大型汽车在其整个生命周期内产生的碳排放量相当于五辆汽车。计算需求催生了一种新的门槛,对贫困和气候脆弱地区的打击最为严重。
世界各地并不平等
从地理角度来看,硬件问题最为明显。在全球南方国家,获得强大的 GPU 和快速稳定的互联网资源非常有限。这种差距使得 Timnit Gebru 博士将这种趋势称为“算法殖民主义”。
在尼日利亚,软件工程师 Chioma Onyekwere 在尝试利用开源人工智能构建诊断工具时经常遭遇停电。“我并不觉得这很讽刺,”她说,“理论上,这些技术可以让服务匮乏的社区受益最多,但我们在实施过程中却面临着难以逾越的障碍。”
根据国际电信联盟 (ITU) 的数据,非洲只有 40% 的人口拥有可靠的互联网。能够下载并运行大型人工智能模型的人口就更少了。加密货币挖矿和供应链问题使得 GPU 的获取更加困难。
AWS 和 Google Cloud 等云服务提供商增加了更多数据中心,但许多地区仍面临延迟问题,导致实时 AI 无法实现。“这就像数字红线,”Rumman Chowdhury 博士说道。“开源 AI 无意中创建了一个双层访问体系,加剧了现有的全球不平等。”
技能也是一堵墙
即使有了互联网和硬件,仍然需要大量的专业技术知识。许多开放模型需要理解机器学习和编程。Hugging Face 和其他工具可以提供帮助,但入门门槛仍然很高。“使用这些模型的认知负荷非常大,”爱丁堡大学的 Charles Sutton 博士说道。“即使界面简化,你仍然需要处理复杂的超参数优化、训练动态和模型架构决策,这些都需要多年的专业学习。”
据 GitHub 称,大多数开源 AI 项目的贡献者都拥有高级学位。“我们必须承认,‘开放’并不一定意味着‘可访问’,”Mozilla 基金会的 Juliana Peña 博士说道。“当访问需要高级数学知识或编程技能时,我们仍然保持着独家性——只是方式不同而已。”
网上有免费课程,但大多数课程都要求用户已经知道如何编码,当然,访问这些课程需要稳定的互联网连接。
共享硬件方法
为了解决硬件问题,一些团体创建了共享计算环境,例如柏林的 EleutherCollective 就运行着一个 GPU 集群,供艺术家和研究人员使用。“我们正在尝试重新构想社区与计算能力之间的关系,”创始人之一弗里达·施密特 (Frieda Schmidt) 说道。“与其让个人费力购买昂贵的硬件,不如将资源集中起来,并以民主的方式管理其分配。”
其他例子包括巴塞罗那的超级计算共享中心和首尔的计算民主项目,这些机构专注于具有积极社会影响的项目。
“计算合作社代表着一条介于市场驱动的排他性和纯粹国家控制的基础设施之间的中间道路,”经济学家凯特·拉沃斯博士说道。“它们体现了基于公共资源的方法,可以引导技术走向真正的公共利益。”
这类项目通常面临维护困难、电费上涨以及硬件老化等问题。缺乏持续的资金和技术支持,它们的未来依然岌岌可危。
无需拥有即可运行人工智能
另一种更便捷地访问人工智能的途径是开放式推理。Together.ai 和 Hugging Face 等公司允许开发者通过 API 远程运行模型。“我们正在将模型所有权与模型实用性分离,”Hugging Face 首席执行官 Clément Delangue 表示。“现在,任何拥有互联网连接的人都可以通过简单的 API 调用来使用最先进的人工智能,而无需考虑硬件限制。”
Hugging Face 帮助资源匮乏地区的开发者在蒙古推出了翻译工具,并在印度推出了农业支持应用程序。但这种帮助也有局限性,API 通常有使用上限,而且网络连接不佳仍然是访问的障碍。此外,依赖外部服务也会产生依赖性。
科罗拉多大学博尔德分校的内森·施耐德博士表示:“我们必须扪心自问,API 访问是否真正实现了民主化?我们是在创造更公平的访问方式,还是仅仅从对硬件的依赖转向了对服务的依赖?”
政府参与
一些政府已尝试提供帮助,例如欧盟已向开源人工智能计算基础设施投入25亿欧元,加拿大的国家人工智能计划也为大型机构的公共计算提供资金。但小型机构通常不符合资格,申请需要许多开发人员不具备的文书和资质。“公共计算基础设施应该像公共图书馆一样重要,”Yoshua Bengio博士说。“我们需要从根本上改变21世纪计算资源获取的概念。”
其他国家也尝试了不同的方案,例如芬兰为与联合国发展目标相关的项目保证计算时间,乌拉圭则将人工智能工具纳入学校课程。但这两项计划的重点都不是用户是谁,而是他们想要实现的目标。
公司仍然掌握主动权
当公司发布开源模型时,他们正在朝着人工智能民主化迈出积极的一步,但这并不意味着模型一定易于使用或访问。Meta 的 Llama 2 公开版本比早期版本限制更少,但用户仍然需要昂贵的硬件才能有效运行该模型。它还附带一个限制性的商业使用许可证。
“在公开讨论中,开放程度的范围经常被打破,”詹姆斯·格里梅尔曼博士说道。“Meta 的 Llama 许可证与 Apache 2.0 或 GPL 之类的许可证之间存在巨大差异,这对于谁能有效地利用这些技术进行开发有着重要影响。”
“人们对企业开源AI持怀疑态度,”梅雷迪斯·惠特克博士说道。“企业在不确保广泛获取必要计算资源的情况下发布模型,一方面享受着开放带来的声誉优势,另一方面又通过许可限制和计算壁垒保持着事实上的排他性。”
一些公司提供了帮助,例如 NVIDIA 提供的 GPU 资助、谷歌提供的免费云积分,以及 Stability AI 对东南亚和非洲计算合作社的支持。Stability AI 首席执行官 Emad Mostaque 表示:“我们认识到,发布开放模型只是成功的一半。如果不解决计算缺口,开源对世界大部分地区来说仍然是一个空洞的承诺。”
更小的模型,更智能的设计
一些研究人员专注于构建更小、更高效的模型。伦敦大学学院 (UCL) 的 Laura Montoya 博士将此称为“节俭型人工智能”。她表示:“我们正在挑战‘越大越好’的固有观念。通过精心的架构设计和知识提炼,我们可以创建在保留大部分功能的同时,仅占用一小部分计算资源的模型。”
量化、修剪和蒸馏等工具有助于缩小模型,但保持较高的性能水平:例如,Mistral 7B 和微软的 Phi-2 在低端系统上运行良好。
“未来可及的人工智能不仅在于更公平地分配计算资源,更在于从根本上重新思考我们的模型设计方法,”Yann LeCun 博士说道。“我们需要从人类认知中汲取灵感,人类认知能够以相对较低的能耗实现卓越的能力。”
数据仍然是瓶颈
模型或许是开放的,且易于获取,但获取必要的训练数据却往往并非如此。“我们创造了这样一种局面:模型是开放的,但使其发挥作用所需的数据却往往不开放,”玛格丽特·米切尔博士说道。“这又造成了一层排斥,对边缘化群体的影响尤为严重。”
大多数培训数据都是英文的,或者反映西方的观点。收集高质量的数据需要花费金钱和时间,许多组织难以承担。
一些训练数据来源可在开源许可下获得,尤其是来自独立于大型人工智能公司的机构。Mozilla 的 Common Voice 和 Masakhane 项目通过众包语音数据和语言资源提供了帮助。“数据共享是对开源模型的重要补充,”Rada Mihalcea 博士说道。“通过创建由集体管理的多样化、符合伦理道德的数据源,我们可以开始解决可访问性方程式的输入端问题。”
让“开放”真正开放
弥补开源人工智能的缺口需要多方面的努力。模型需要更高效,政策需要将计算视为公共基础设施,共享 GPU 池需要稳定的支持,企业应该超越模型发布,帮助建立访问权限。
“人工智能的民主化与其说是技术挑战,不如说是社会政治挑战,”凯特·克劳福德博士说道。“它要求我们重新构想我们与技术的关系,挑战关于所有权、使用权和治理的固有假设。”
教育也很重要。更多人需要学习如何使用这些工具,这意味着要在传统学校之外建立学习途径。
“我们正处于人工智能发展的转折点,”德布·拉吉博士说道。“我们现在就可访问性和基础设施做出的决策将决定开源人工智能能否充分发挥其民主化潜力,还是仅仅以新的形式复制现有的权力格局。”
只有更多人能够真正使用开源人工智能,它才能真正开放。只要技术变革、社区支持和公共政策能够有效结合,这样的未来依然触手可及。