一夜之间,大模型的范式好像真的变了。昨天下午,DeepSeek 团队突然发布并开源了全新模型 DeepSeek-OCR,仅用不到 24 小时就在 GitHub 上斩获超 4000 star,把整个 AI 社区都炸醒了。
这并不是又一个图像转文本工具,而是一次可能撬动 LLM 底层输入方式的范式革命——1000 字的文章,用 100 个视觉 token 就能搞定,压缩 10 倍,精度还能达到 97%。一块 A100 GPU 每天可以处理 20 万页文档。如果说过去 LLM 是靠“读”,DeepSeek-OCR 更像是在用“看”理解世界。
更猛的是,它是一款轻量开源模型,普通开发者都能部署。甚至 Karpathy 都公开表示:这可能是 LLM 输入方式转向像素的一次关键节点。
接下来一起跟随小编来看看这次DeepSeek-OCR究竟有哪些特别之处吧,文章结尾会详细安装与免费使用教程。
模型介绍:用视觉 token 看懂文字
DeepSeek-OCR 本质上是一个视觉编码器 + 语言理解模块的组合。
它不再依赖传统的分词器将文字拆成 token,而是将完整页面渲染成图像,再通过视觉 encoder 将图像压缩为 token。最关键的创新,是它将视觉 token 的压缩效率做到比文本 token 还高。
按照论文数据,原本 1000 个字需要 1500~2000 个文本 token,但 DeepSeek-OCR 只需要 100 个视觉 token。这个“图像->token”的转换,还保留了格式、字体、颜色、表格结构等原始信息,真正意义上实现“看懂”文本。
这就意味着,模型输入不再受限于冗长的上下文 token,而是可以用更少的 token 看更多的内容,大大缓解了上下文瓶颈。
功能亮点:压缩、准确、可落地
- 高压缩率:10 倍以上 token 压缩,长文档无压力。
- 识别精度高:在复杂布局场景下也能达到 97%+ 文字识别准确率。
- 推理效率高:单块 A100 可日处理 20 万页文档。
- 结构化输出:支持表格、公式、Markdown 等复杂文档输出。
- 部署成本低:小模型(仅 3B),支持本地运行,适配 Mac、Windows、Linux。
安装与使用教程
方式一:HuggingFace 在线运行
- 访问:https://huggingface.co/collections/deepseek-ai/ocr-65d40301cd5a86b167a3fc2c
- 点击“Spaces”中的 demo 页面
- 上传 PDF 或图像文件,等待模型识别
- 返回结构化文本,支持 Markdown、JSON 等格式
适合非技术用户快速体验。
方式二:本地 Python 部署
环境要求:
- Python 3.9+
- PyTorch >= 2.0
- 推荐 CUDA GPU(A100/V100/3090)
安装步骤:
# 克隆仓库
git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR
# 安装依赖
pip install -r requirements.txt
# 下载模型权重
# 默认支持 small-base-3B 版本
python download_weights.py
使用示例:
from ocr import DeepSeekOCR
ocr_model = DeepSeekOCR()
ocr_model.load_model("deepseek-ocr-base")
result = ocr_model.infer("./sample_page.jpg")
print(result["markdown"])
模型对比表:DeepSeek-OCR vs 同类模型
模型 | 是否开源 | 支持结构化 | 精度 | 上下文处理能力 | 部署难度 |
---|---|---|---|---|---|
DeepSeek-OCR | ✅ | ✅ Markdown/Table | ⭐️⭐️⭐️⭐️⭐️ | ✅ 支持超长上下文压缩 | ⭐️⭐️ |
Donut | ✅ | ✅ | ⭐️⭐️⭐️ | 一般 | ⭐️⭐️⭐️ |
TrOCR | ✅ | ❌ | ⭐️⭐️⭐️⭐️ | 弱 | ⭐️⭐️⭐️⭐️ |
PaddleOCR | ✅ | ✅(结构解析弱) | ⭐️⭐️⭐️ | 不支持上下文 | ⭐️⭐️⭐️ |
提升体验的小技巧
- 输入图片建议尽量清晰,建议 300DPI 或以上,避免缩放模糊。
- PDF 文件可使用 pdf2image 转图片后 OCR。
- 长文本建议分段送入模型,避免显存爆炸。
- prompt 可引导输出格式,如:“请输出 Markdown 表格”。
小编实测体验
我自己在 Mac 上用 MPS 成功跑通了 DeepSeek-OCR 的推理,部署很顺利,体验极佳。尤其是在识别排版复杂的 PDF 时,不仅文字一个不漏,表格、标题、代码块全都完美复原,最关键的是,输出的还是结构化 Markdown,直接贴进 Notion 就能用。
以前用 OCR 工具最大的问题就是识别完一大堆文字,全糊成一团。但 DeepSeek-OCR 真的就像是“看懂了”整页文档,而不是单纯的“识字”。
甚至我还拿了一份写得很潦草的手写英文笔记试了下,虽然识别不是 100% 准确,但它居然能恢复大致的排版,真挺神奇的。
小编建议
如果你平时经常处理图文资料、扫描件、PDF、考试卷、报表、合同……真心推荐你装上 DeepSeek-OCR。不是那种玩票性质的研究模型,而是真正能落地的生产工具。
对普通用户,HuggingFace 在线体验就够用了;对程序员,跑本地版很轻松,代码也清晰;对团队来说,用它处理批量数据、自动归档、搜索增强都是现成的方案。
而从更大的角度讲,它背后代表的理念可能真的是一次范式转变。未来的大模型,很可能不再靠“读文字”理解世界,而是“看画面”来感知世界。 DeepSeek-OCR,只是开始。
资源链接合集
- GitHub 项目地址:https://github.com/deepseek-ai/DeepSeek-OCR
- HuggingFace 模型页:https://huggingface.co/collections/deepseek-ai/ocr-65d40301cd5a86b167a3fc2c
- 论文地址:https://arxiv.org/abs/2406.07661
- Docker 镜像:https://hub.docker.com/r/deepseek/ocr
- Colab 在线体验:https://colab.research.google.com/drive/1Sy-CeYdAQ8Igmu_KRFT2yqJSKmf5IOrF
- 示例代码文档:https://github.com/deepseek-ai/DeepSeek-OCR/tree/main/examples