蚂蚁,又双叒叕开源万亿大模型了!短短十来天直接“三连发”:10 月 9 日官宣并开源通用语言大模型 Ling-1T,上线 HuggingFace 四天下载量就上千;10 月 14 日凌晨,万亿级思考模型 Ring-1T 正式登场,被称作全球首个开源的万亿参数思考模型。
社区反应也很有意思:X 上有人调侃“开源体量离谱”,reddit 上则认真分析蚂蚁的设计——比如活跃参数更多、前几层全密集这类细节,确实有助于推理变强。
本期小编带你详细了解一下这个开源万亿级思考模型 Ling-1T,并且会在文章附上详细的免费安装与使用教程,一起来看看吧。
一、Ling-1T 是什么?
- 定位:蚂蚁“百灵”团队开源的通用万亿参数语言大模型,走的是 MoE(Mixture of Experts)稀疏激活路线,强调在推理强度、长上下文、多任务泛化上取得平衡。
- 结构要点:常见做法是前几层稠密、后续 MoE 门控,结合“更高活跃参数”的路由策略,在不爆炸算力的前提下提升推理深度与稳定性。
- 使用场景:长文档理解与总结、复杂问答与推理、代码生成与重构、金融/医疗等专业检索式写作,以及多轮对话的持续上下文任务。
- 社区反馈:HuggingFace 放出即起量,X、reddit 讨论集中在“万亿开源+可实际可用”这一点上;不少人把它当作开源阵营里可对标闭源强模的基座模型。
二、亮点速览
- 万亿参数 + 稀疏激活:兼顾容量与推理效率,复杂问题“想得更深”,而推理时延可控。
- 长上下文友好:适合法规/合同/论文级别的长文处理与跨段引用。
- 多任务稳:数学推理、编程生成、逻辑题、知识问答、创意写作都能打,且在“短链路就答对”的效率上有优势。
- 工程可落地:开源权重、常见推理框架适配,易融入私有化与企业级工作流。
- 持续演进:与同门 Ring-1T(思考版) 互补——后者经 RLVR/RLHF 强化思维链、在 IMO/ICPC 等高强度任务上显眼;前者做通用底座更均衡。
三、如何免费使用 Ling-1T(四种主流方式)
方式 A:HuggingFace 在线体验(免费)
- 打开 HuggingFace,搜索 “Ling-1T”(发布方通常为 inclusionAI)。
- 如果提供 Inference Widget,可直接在网页输入简短指令测试文生文效果。
- 想更稳:点 Use in Transformers,复制示例代码到本地/Colab 跑(见下)。
小贴士:万亿模型很吃显存,网页小窗一般只适合“打个招呼”,真实任务建议走本地/云端推理。
方式 B:本地快速调用(Transformers / vLLM)
# 建议 Python 3.10+ 新环境
pip install -U transformers accelerate sentencepiece
# 如做高效推理/并发服务,额外装 vLLM
pip install -U vllm
Transformers 直连(单机多卡/大显存):
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "inclusionAI/Ling-1T" # 以实际仓库名为准
tok = AutoTokenizer.from_pretrained(model_id, use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto", # 自动切多卡
trust_remote_code=True
)
prompt = "用 3 句话解释什么是稀疏激活 MoE,并给出一个生活类比。"
inputs = tok(prompt, return_tensors="pt").to(model.device)
out = model.generate(**inputs, max_new_tokens=300, do_sample=True, temperature=0.7)
print(tok.decode(out[0], skip_special_tokens=True))
vLLM 高吞吐(推荐做服务):
from vllm import LLM, SamplingParams
from transformers import AutoTokenizer
model_id = "inclusionAI/Ling-1T"
tok = AutoTokenizer.from_pretrained(model_id, use_fast=False, trust_remote_code=True)
llm = LLM(model=model_id, dtype="bfloat16", trust_remote_code=True)
sampling = SamplingParams(temperature=0.7, top_p=0.9, max_tokens=512)
prompt = tok.apply_chat_template(
[{"role": "user", "content": "给我一段 10 行以内的 Python 代码,统计词频并按降序输出。"}],
tokenize=False, add_generation_prompt=True
)
outputs = llm.generate([prompt], sampling)
print(outputs[0].outputs[0].text)
量化 & 省显存:显存紧张先试 bitsandbytes 8bit/4bit 或 GPTQ/AWQ(需对应权重/脚本适配);万亿模型即便量化也通常需要多卡。若只是评测,可在云上申请大显存实例或用 vLLM+张量并行。
方式 C:企业/私有化(推理服务化)
- 选型:vLLM / TGI(HuggingFace Text Generation Inference)/ Ray Serve。
- 做法:在内网部署推理服务 → HTTP/GRPC 暴露 → 上层通过 SDK/Agent 框架(LangChain、LlamaIndex)对接。
- 目标:弹性伸缩 + 统一鉴权 + 计量,满足并发和可观测性(日志/性能/成本)的工程需求。
方式 D:和 Ring-1T 一起体验(同门思考版)
- 官方已放出 Ring-1T(思考模型)仓库与权重,HuggingFace / ModelScope 可直接拉取:
- HuggingFace:https://huggingface.co/inclusionAI/Ring-1T
- ModelScope:https://modelscope.cn/models/inclusionAI/Ring-1T
- 用法与 Ling-1T 类似;若你更看重链式推理、解题/编程竞赛、对齐稳定性,可优先评估它。
四、实操范例(终端 & API & IDE)
命令行小试牛刀(文本补全)
python - <<'PY'
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
m = "inclusionAI/Ling-1T"
tok = AutoTokenizer.from_pretrained(m, use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(m, torch_dtype=torch.bfloat16, device_map="auto", trust_remote_code=True)
q = "把下面句子压缩成 25 字以内摘要:万亿级开源模型适合哪些行业场景?举两例。"
x = tok(q, return_tensors="pt").to(model.device)
y = model.generate(**x, max_new_tokens=120)
print(tok.decode(y[0], skip_special_tokens=True))
PY
API 网关化(OpenAI 兼容风格,便于换模)
很多团队会在内网把 vLLM/TGI 包成 /v1/chat/completions 接口,这样前端/插件直接沿用 OpenAI SDK:
import requests, os, json
BASE = os.getenv("LLM_BASE", "http://your-internal-llm/v1")
KEY = os.getenv("LLM_KEY", "sk-xxx")
payload = {
"model": "inclusionAI/Ling-1T",
"messages": [{"role": "user", "content": "把这段 SQL 转成等价 Pandas 代码:select a,b,count(*) from t group by 1,2"}],
"temperature": 0.3,
"max_tokens": 400
}
r = requests.post(f"{BASE}/chat/completions",
headers={"Authorization": f"Bearer {KEY}",
"Content-Type":"application/json"},
data=json.dumps(payload))
print(r.json())
配合 IDE(代码/重构/测试)
- VS Code 装任意 OpenAI 兼容 Copilot/Code Assistant,将后端指向你的 Ling-1T 服务即可。
- 让模型生成 单元测试、PR 评审要点、改动摘要,搭配本地执行脚本形成“生成 → 运行 → 回报错再改”闭环。
当然可以,以下是**可直接复制进文章的对比表格(Markdown格式)**👇
五、同类模型横向对比表
模型 | 开源/闭源 | 参数规模 | 架构/激活 | 上下文长度 | 定位 | 代表强项 | 典型场景 | 使用成本 |
---|---|---|---|---|---|---|---|---|
Ling-1T | 开源 | 万亿级(1T) | MoE 稀疏激活(前层偏稠密) | ≥100K | 通用基座,长文/代码/推理均衡 | 短链路高质回答、工程可落地 | 长文档处理、检索问答、代码协作 | 权重开源,可自部署;亦可API |
Ring-1T | 开源 | 万亿级(1T) | MoE 稀疏激活 + 强化学习(RLVR/RLHF) | ≥100K | 思考版(Thinking),深度推理更强 | IMO/ICPC类复杂推理、对齐稳定 | 高强度数学/编程、研究型Agent | 权重开源,可自部署;亦可API |
DeepSeek V3.2-Exp | 开源 | 百亿—万亿级(系列多档) | 混合/专家(社区报道) | 长上下文(具体以官方为准) | 高效推理与性价比 | 推理效率、吞吐表现 | 通用问答、代码、推理 | 开源为主;API/推理服务可选 |
Qwen-235B-A22B-Thinking-2507 | 开源(部分需申请) | 百亿-千亿级(MoE) | Thinking/RL 强化版本 | 长上下文 | 思考/推理强化 | 复杂推理、中文场景 | 数学、逻辑题、中文专业问答 | 权重开放/注册申请;API商用可选 |
Deepseek-V3.1-Terminus-Thinking | 开源 | 百亿-千亿级 | Thinking/RL 强化 | 长上下文 | 思考/工程效率 | 代码与数学推理 | 深度推理、代码自动化 | 权重开源;API/服务可选 |
Gemini 2.5 Pro | 闭源 | 超大规模 | 多模态(官方) | 百万级(生态相关) | 多模态通用 | 图文视频多模态、长上下文 | 跨模态搜索/理解 | API 计费 |
GPT-5-Thinking(High) | 闭源 | 超大规模 | Thinking/RL 强化 | 长上下文 | 极限思考/推理 | 顶级推理、复杂任务 | 高难度数学、系统规划 | API 计费(高) |
六、Ling-1T vs Ring-1T:怎么选?
- Ling-1T(通用版):更均衡,适合企业基座/内容与知识工作流/长文档处理/日常编码协作。
- Ring-1T(思考版):在深度推理、竞赛题、复杂编程任务上更强;官方披露其在 IMO 级别试题、ICPC 场景、以及 ARC-AGI-v1/Arena-Hard/HealthBench 等综合/困难基准上冲到了开源 SOTA 一线,接近闭源旗舰的表现。
- 建议:做通用助理/检索问答/业务生成先上 Ling-1T;做高强度推理/研究型 Agent/编程竞赛优先 Ring-1T,必要时两者分场景共存。
七、提效与省钱技巧(实用向)
- 提示词工程:先“讲场景与目标”,再“约束格式与边界”,最后“给 1~2 个 few-shot 样例”。复杂任务用“Plan → Execute → Verify”三段式让模型自检。
- 长文处理:超长 PDF/代码库分块 + 标题化摘要 + 向量检索召回,再让 Ling-1T 生成“跨块汇总”,既稳又省 tokens。
- 推理加速:服务端上 vLLM + KV cache + 适度并发;必要时路由小/中/大多模型分流(FAQ 走小模,复杂路由到 Ling-1T)。
- 量化优先级:先 8bit(代价小、收益快),再视精度痛点尝试 4bit(需评估回退策略)。
- 可观测性:打印 prompt 版本、温度、max_tokens、耗时,回归/报错能复盘,方便“人—机共同调参”。
八、小编实测
实际体验里,Ling-1T 在指令遵循和短链路高质量回答上很稳,长文本总结和跨段引用也自然流畅;在代码场景能按要求补齐、加注释、给测试,跑一轮报错后再修复的“闭环能力”不错。推理题方面,常见的逻辑/数学题能给出条理化链路而不是“糊答案”。不足也有:极长会话人设偶有漂移、中英混杂时风格偶尔不够统一,超大样例的“格式打磨”还需要你在 prompt 里再多约束两句。总体观感:把它当 “开源可私有化的强通用大底座” 完全说得过去。
九、小编建议
如果你在找一个既开源、又能真正在生产里干活的通用底座,Ling-1T 值得直接上手。它不是那种只会“堆字数”的大模型,处理长文、做严谨回答、跑代码闭环,它都挺靠谱;要是你的需求是冲着“强推理、竞赛题、复杂编程自动化”去的,可以把 Ring-1T 配成第二引擎,遇到硬骨头就切过去“深思熟虑”。我自己最直观的感受是:这代万亿开源模型已经不只是“能用”,而是“好用”——你把需求讲清楚,它能给到结构化、有根据的输出,不会一味瞎编;再配上 vLLM 这类高效推理底座,成本也能压下去。如果你只有一台普通工作站,也别慌,先用云端权重+API 或者 Colab 跑通流程,把链路和提示词打磨好,等资源到位再上私有化;反过来,如果你已经有多卡环境,就大胆把它当工程件去用,建“生成-执行-回馈”的闭环,Ling-1T 的性价比会越用越高。
资源链接合集
Ring-1T(思考版)模型页:
HuggingFace:https://huggingface.co/inclusionAI/Ring-1T