如何免费使用DeepSeek-OCR，附详细安装与使用教程

一夜之间，大模型的范式好像真的变了。昨天下午，DeepSeek 团队突然发布并开源了全新模型 DeepSeek-OCR，仅用不到 24 小时就在 GitHub 上斩获超 4000 star，把整个 AI 社区都炸醒了。

这并不是又一个图像转文本工具，而是一次可能撬动 LLM 底层输入方式的范式革命——1000 字的文章，用 100 个视觉 token 就能搞定，压缩 10 倍，精度还能达到 97%。一块 A100 GPU 每天可以处理 20 万页文档。如果说过去 LLM 是靠“读”，DeepSeek-OCR 更像是在用“看”理解世界。

更猛的是，它是一款轻量开源模型，普通开发者都能部署。甚至 Karpathy 都公开表示：这可能是 LLM 输入方式转向像素的一次关键节点。

接下来一起跟随小编来看看这次DeepSeek-OCR究竟有哪些特别之处吧，文章结尾会详细安装与免费使用教程。

如何免费使用DeepSeek-OCR，附详细安装与使用教程

模型介绍：用视觉 token 看懂文字

DeepSeek-OCR 本质上是一个视觉编码器 + 语言理解模块的组合。

它不再依赖传统的分词器将文字拆成 token，而是将完整页面渲染成图像，再通过视觉 encoder 将图像压缩为 token。最关键的创新，是它将视觉 token 的压缩效率做到比文本 token 还高。

按照论文数据，原本 1000 个字需要 1500~2000 个文本 token，但 DeepSeek-OCR 只需要 100 个视觉 token。这个“图像->token”的转换，还保留了格式、字体、颜色、表格结构等原始信息，真正意义上实现“看懂”文本。

这就意味着，模型输入不再受限于冗长的上下文 token，而是可以用更少的 token 看更多的内容，大大缓解了上下文瓶颈。

功能亮点：压缩、准确、可落地

高压缩率：10 倍以上 token 压缩，长文档无压力。
识别精度高：在复杂布局场景下也能达到 97%+ 文字识别准确率。
推理效率高：单块 A100 可日处理 20 万页文档。
结构化输出：支持表格、公式、Markdown 等复杂文档输出。
部署成本低：小模型（仅 3B），支持本地运行，适配 Mac、Windows、Linux。

安装与使用教程

方式一：HuggingFace 在线运行

访问：https://huggingface.co/collections/deepseek-ai/ocr-65d40301cd5a86b167a3fc2c
点击“Spaces”中的 demo 页面
上传 PDF 或图像文件，等待模型识别
返回结构化文本，支持 Markdown、JSON 等格式

适合非技术用户快速体验。

方式二：本地 Python 部署

环境要求：

Python 3.9+
PyTorch >= 2.0
推荐 CUDA GPU（A100/V100/3090）

安装步骤：

# 克隆仓库
git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR

# 安装依赖
pip install -r requirements.txt

# 下载模型权重
# 默认支持 small-base-3B 版本
python download_weights.py

使用示例：

from ocr import DeepSeekOCR
ocr_model = DeepSeekOCR()
ocr_model.load_model("deepseek-ocr-base")
result = ocr_model.infer("./sample_page.jpg")
print(result["markdown"])

模型对比表：DeepSeek-OCR vs 同类模型

模型	是否开源	支持结构化	精度	上下文处理能力	部署难度
DeepSeek-OCR	✅	✅ Markdown/Table	⭐️⭐️⭐️⭐️⭐️	✅ 支持超长上下文压缩	⭐️⭐️
Donut	✅	✅	⭐️⭐️⭐️	一般	⭐️⭐️⭐️
TrOCR	✅	❌	⭐️⭐️⭐️⭐️	弱	⭐️⭐️⭐️⭐️
PaddleOCR	✅	✅（结构解析弱）	⭐️⭐️⭐️	不支持上下文	⭐️⭐️⭐️

提升体验的小技巧

输入图片建议尽量清晰，建议 300DPI 或以上，避免缩放模糊。
PDF 文件可使用 pdf2image 转图片后 OCR。
长文本建议分段送入模型，避免显存爆炸。
prompt 可引导输出格式，如：“请输出 Markdown 表格”。

小编实测体验

我自己在 Mac 上用 MPS 成功跑通了 DeepSeek-OCR 的推理，部署很顺利，体验极佳。尤其是在识别排版复杂的 PDF 时，不仅文字一个不漏，表格、标题、代码块全都完美复原，最关键的是，输出的还是结构化 Markdown，直接贴进 Notion 就能用。

以前用 OCR 工具最大的问题就是识别完一大堆文字，全糊成一团。但 DeepSeek-OCR 真的就像是“看懂了”整页文档，而不是单纯的“识字”。

甚至我还拿了一份写得很潦草的手写英文笔记试了下，虽然识别不是 100% 准确，但它居然能恢复大致的排版，真挺神奇的。

小编建议

如果你平时经常处理图文资料、扫描件、PDF、考试卷、报表、合同……真心推荐你装上 DeepSeek-OCR。不是那种玩票性质的研究模型，而是真正能落地的生产工具。

对普通用户，HuggingFace 在线体验就够用了；对程序员，跑本地版很轻松，代码也清晰；对团队来说，用它处理批量数据、自动归档、搜索增强都是现成的方案。

而从更大的角度讲，它背后代表的理念可能真的是一次范式转变。未来的大模型，很可能不再靠“读文字”理解世界，而是“看画面”来感知世界。 DeepSeek-OCR，只是开始。

资源链接合集

GitHub 项目地址：https://github.com/deepseek-ai/DeepSeek-OCR
HuggingFace 模型页：https://huggingface.co/collections/deepseek-ai/ocr-65d40301cd5a86b167a3fc2c
论文地址：https://arxiv.org/abs/2406.07661
Docker 镜像：https://hub.docker.com/r/deepseek/ocr
Colab 在线体验：https://colab.research.google.com/drive/1Sy-CeYdAQ8Igmu_KRFT2yqJSKmf5IOrF
示例代码文档：https://github.com/deepseek-ai/DeepSeek-OCR/tree/main/examples

如何免费使用DeepSeek-OCR，附详细安装与使用教程

模型介绍：用视觉 token 看懂文字

功能亮点：压缩、准确、可落地

安装与使用教程

方式一：HuggingFace 在线运行

方式二：本地 Python 部署

环境要求：

安装步骤：

使用示例：

模型对比表：DeepSeek-OCR vs 同类模型

提升体验的小技巧

小编实测体验

小编建议

资源链接合集

相关推荐

优质VPS推荐

国内外VPS测评，分享最新行业资讯

推荐栏目