在阿里云主办的杭州云栖大会上,中国的人工智能初创企业强调了对开发大型语言模型的努力。
两家公司的努力是在OpenAI 宣布最新大语言模型(LLM)之后进行的,其中包括由微软支持的 o1 生成式预训练 Transformer 模型。该模型旨在解决棘手的任务,为科学、编码和数学领域的进步铺平道路。
发布会上,Moonshot AI创始人Kunal Zhilin强调了o1模式的重要性,并表示该模式有可能重塑各个行业,并为人工智能初创企业创造新的机遇。
志林表示,强化学习和可扩展性可能是人工智能发展的关键。他谈到了缩放定律,该定律指出,拥有更多训练数据的模型越大,性能就越好。
“这种方法突破了人工智能能力的上限,”Zhilin 表示,并补充说 OpenAI o1 有可能颠覆各个行业,并为初创企业创造新的机会。
OpenAI 还强调了该模型解决复杂问题的能力,并表示其运作方式与人类思维类似。通过改进策略并从错误中学习,该模型提高了解决问题的能力。
志林表示,拥有足够计算能力的公司不仅能够在算法方面创新,还能在基础人工智能模型方面创新。他认为这一点至关重要,因为人工智能工程师在耗尽可用的有机数据源后,越来越依赖强化学习来生成新数据。
StepFun 首席执行官蒋大新同意志林的观点,但他表示,计算能力对于许多初创企业来说仍然是一个巨大的挑战,特别是由于美国的贸易限制阻碍了中国企业获取先进的半导体。
“计算需求仍然很大,”大新表示。
百川AI的一位内部人士表示,只有少数几家中国AI初创企业——包括探月AI、百川AI、智浦AI和MiniMax——有能力在强化学习领域进行大规模投资。这些公司——被统称为“AI四小龙”——深度参与了法大语言模型(LLM)的开发,推动着下一代AI的发展。
更多来自 Apsara 大会的信息
阿里云还在此次大会上发布了多项公告,包括发布 Qwen 2.5 模型系列,该系列体现了编码和数学方面的进步。这些模型的参数范围从 5 亿到 720 亿,支持约 29 种语言,包括中文、英语、法语和西班牙语。
Qwen2.5-Coder 和 Qwen2.5-Math 等专业模型已经获得了一些关注,在 Hugging Face 和 ModelScope 平台上的下载量已超过 4000 万次。
阿里云在其图片生成器“统一万像”中新增了文本转视频模型,进一步丰富了其产品组合。该模型可以创建逼真的动画风格视频,并可能应用于广告和电影制作。
阿里云发布了其视觉语言模型 Qwen 2-VL 的最新版本。它可以处理超过 20 分钟的视频,支持基于视频的问答,并针对移动设备和机器人技术进行了优化。