本文最后更新于95 天前

开源盘点 | 告别传统OCR：DeepSeek-OCR 用多模态大模型实现效率与精度的双重飞跃狂揽 15.4k star

📊 数据指标：

⭐ stars : 15.4k | 🍴 forks : 920
🔗 https://github.com/deepseek-ai/DeepSeek-OCR

DeepSeek-OCR：上下文光学压缩模型

项目概述

DeepSeek-OCR 是由 DeepSeek AI 团队推出的多模态大模型，专注于从语言模型中心化视角重新审视视觉编码器的作用。该模型旨在探索图像与文本之间的高效压缩表示方式，特别针对文档理解、图文转换和高精度 OCR 场景进行优化。通过创新的架构设计与训练策略，DeepSeek-OCR 实现了在保持高质量识别效果的同时，显著提升处理效率和上下文建模能力。

核心特色

🌟 视觉-语言联合压缩机制

DeepSeek-OCR 提出“上下文光学压缩”（Contexts Optical Compression）理念，将传统 OCR 中冗长的像素级解析转化为紧凑的语义 token 流。这一机制有效减少了视觉信息在传输和推理过程中的计算开销，同时保留关键布局结构与语义内容，实现高保真、低延迟的图文转换。

✅ 多分辨率自适应支持

模型原生支持多种图像输入模式，包括：

固定分辨率模式：Tiny（512×512）、Small（640×640）、Base（1024×1024）、Large（1280×1280）
动态分辨率模式（Gundam 模式）：结合 n 张 640×640 子图与一张 1024×1024 全局图，兼顾局部细节与整体结构感知

这种灵活的设计使得模型既能处理小尺寸截图，也能应对复杂排版的高清文档或长图。

⚡ 高效推理架构集成

DeepSeek-OCR 已正式接入 vLLM 推理框架（v0.8.5+），支持批量图像并发处理，在 A100-40G 上可达约 2500 tokens/s 的吞吐性能。通过 NGramPerReqLogitsProcessor 等定制化 logits 处理器，进一步增强了生成稳定性与格式一致性。

创新亮点

🔍 LLM-Centric 视觉编码范式

不同于传统的“视觉优先”OCR 架构，DeepSeek-OCR 以语言模型为核心，反向驱动视觉特征提取过程。该方法强调：

视觉编码服务于语言生成目标
动态聚焦于对当前任务最有意义的视觉区域
更自然地融合图文上下文关系

这一范式提升了模型在复杂语义任务（如表格还原、公式识别）中的表现力。

💬 精细控制提示系统

提供多样化的 Prompt 模板，实现对输出行为的精准调控：

<image>\n<|grounding|>Convert the document to markdown.         # 文档转 Markdown
<image>\n<|grounding|>OCR this image.                          # 通用 OCR
<image>\nParse the figure.                                     # 图表解析
<image>\nLocate <|ref|>xxxx<|/ref|> in the image.              # 目标定位

通过特殊标记 <|grounding|> 和 <|ref|>，实现指令引导下的结构化输出控制。

📦 开箱即用的部署方案

支持 Hugging Face Transformers 与 vLLM 双引擎运行：

Transformers 接口：适合研究与调试，提供完整可读代码
vLLM 接口：面向生产环境，支持高并发、低延迟服务部署

用户可通过简单脚本快速启动图像或 PDF 批量处理任务，并支持结果自动保存与流式输出。

应用场景

DeepSeek-OCR 适用于以下典型场景：

数字档案馆建设：扫描件 → 可编辑文本
学术文献数字化：论文图表与公式的结构化解析
企业文档自动化：合同、报表的内容提取与再加工
教育领域辅助工具：教材图像转 Markdown 或 LaTeX
多模态智能助手：结合 LLM 实现“看图说话”与内容重构

其强大的布局理解能力和格式保持能力，使其在处理中文混合排版、表格嵌套等复杂文档时表现出色。

开源盘点 | 告别传统OCR：DeepSeek-OCR 用多模态大模型实现效率与精度的双重飞跃 狂揽 15.4k star