告别传统OCR:DeepSeek-OCR 用多模态大模型实现效率与精度的双重飞跃
本文最后更新于40 天前

开源盘点 | 告别传统OCR:DeepSeek-OCR 用多模态大模型实现效率与精度的双重飞跃 狂揽 15.4k star

📊 数据指标:

⭐ stars : 15.4k | 🍴 forks : 920
🔗 https://github.com/deepseek-ai/DeepSeek-OCR

deepseek-ai_DeepSeek-OCR

DeepSeek-OCR:上下文光学压缩模型

项目概述

DeepSeek-OCR 是由 DeepSeek AI 团队推出的多模态大模型,专注于从语言模型中心化视角重新审视视觉编码器的作用。该模型旨在探索图像与文本之间的高效压缩表示方式,特别针对文档理解、图文转换和高精度 OCR 场景进行优化。通过创新的架构设计与训练策略,DeepSeek-OCR 实现了在保持高质量识别效果的同时,显著提升处理效率和上下文建模能力。

核心特色

🌟 视觉-语言联合压缩机制

DeepSeek-OCR 提出“上下文光学压缩”(Contexts Optical Compression)理念,将传统 OCR 中冗长的像素级解析转化为紧凑的语义 token 流。这一机制有效减少了视觉信息在传输和推理过程中的计算开销,同时保留关键布局结构与语义内容,实现高保真、低延迟的图文转换。

✅ 多分辨率自适应支持

模型原生支持多种图像输入模式,包括:

  • 固定分辨率模式:Tiny(512×512)、Small(640×640)、Base(1024×1024)、Large(1280×1280)
  • 动态分辨率模式(Gundam 模式):结合 n 张 640×640 子图与一张 1024×1024 全局图,兼顾局部细节与整体结构感知

这种灵活的设计使得模型既能处理小尺寸截图,也能应对复杂排版的高清文档或长图。

⚡ 高效推理架构集成

DeepSeek-OCR 已正式接入 vLLM 推理框架(v0.8.5+),支持批量图像并发处理,在 A100-40G 上可达约 2500 tokens/s 的吞吐性能。通过 NGramPerReqLogitsProcessor 等定制化 logits 处理器,进一步增强了生成稳定性与格式一致性。

创新亮点

🔍 LLM-Centric 视觉编码范式

不同于传统的“视觉优先”OCR 架构,DeepSeek-OCR 以语言模型为核心,反向驱动视觉特征提取过程。该方法强调:

  • 视觉编码服务于语言生成目标
  • 动态聚焦于对当前任务最有意义的视觉区域
  • 更自然地融合图文上下文关系

这一范式提升了模型在复杂语义任务(如表格还原、公式识别)中的表现力。

💬 精细控制提示系统

提供多样化的 Prompt 模板,实现对输出行为的精准调控:

<image>\n<|grounding|>Convert the document to markdown.         # 文档转 Markdown
<image>\n<|grounding|>OCR this image.                          # 通用 OCR
<image>\nParse the figure.                                     # 图表解析
<image>\nLocate <|ref|>xxxx<|/ref|> in the image.              # 目标定位

通过特殊标记 <|grounding|><|ref|>,实现指令引导下的结构化输出控制。

📦 开箱即用的部署方案

支持 Hugging Face Transformers 与 vLLM 双引擎运行:

  • Transformers 接口:适合研究与调试,提供完整可读代码
  • vLLM 接口:面向生产环境,支持高并发、低延迟服务部署

用户可通过简单脚本快速启动图像或 PDF 批量处理任务,并支持结果自动保存与流式输出。

应用场景

DeepSeek-OCR 适用于以下典型场景:

  • 数字档案馆建设:扫描件 → 可编辑文本
  • 学术文献数字化:论文图表与公式的结构化解析
  • 企业文档自动化:合同、报表的内容提取与再加工
  • 教育领域辅助工具:教材图像转 Markdown 或 LaTeX
  • 多模态智能助手:结合 LLM 实现“看图说话”与内容重构

其强大的布局理解能力和格式保持能力,使其在处理中文混合排版、表格嵌套等复杂文档时表现出色。



扫码关注,及时关注技术动态


暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇