New
基于 DeepSeek OCR 3B 模型

DeepSeek OCR

AI 驱动的文字提取 | 97% 准确率 | 多语言 Markdown 输出

基于 DeepSeek 视觉语言模型,超低 Token 消耗,免费开源可自托管

97%
准确率
100
tokens/页
20万+
页/天

Experience DeepSeek OCR Live

上传图片,实时体验 DeepSeek OCR 的强大能力

上传图片并配置

或尝试样例图片:

识别结果

识别结果将在此显示

OCR 模型对比

对比 DeepSeek-OCR 与其他主流 OCR 解决方案在准确率、效率和部署特性等关键性能指标上的表现

模型/工具参数规模压缩支持准确率优势劣势
🚀 DeepSeek-OCR (推荐)3BYes97%高效,多语言 Markdown 输出非确定性,依赖硬件
📊 GOT-OCR 2.0约7BNo98%(无压缩)高保真度高 token 消耗(60倍)
📄 MinerU 2.0约10BNo95%强大的 PDF 处理速度慢(6000+ tokens/页)
⚡ PaddleOCR轻量级No90%易于部署结构化输出弱
💬 ChatGPT (GPT-4o)闭源No约85%(OCR受限)易于使用上下文短,拒绝长文档

常见问题

关于 DeepSeek OCR 您需要知道的一切

DeepSeek OCR 与 Tesseract 和 PaddleOCR 相比如何?

DeepSeek OCR 使用视觉语言模型(VLM)进行上下文感知 OCR,而 Tesseract 和 PaddleOCR 是传统的模式匹配引擎。主要区别:准确率 97% vs 85%,Token 效率 100 tokens/页 vs 更高处理开销。

分辨率模式有什么区别?

分辨率模式在 token 消耗和准确率之间平衡:Tiny(64 tokens)- 简单文档;Small(100 tokens)- 推荐;Base(256 tokens)- 复杂布局;Large(400 tokens)- 高分辨率;Gundam - 学术论文。

DeepSeek OCR 真的是免费和开源的吗?

是的,100% 开源!3B 参数模型在 GitHub 和 Hugging Face 上提供,采用宽松许可。您可以自托管、修改模型、无许可费商业使用。

自托管的硬件要求是什么?

最低:8GB 显存(RTX 3070)用于基本推理;推荐:16GB+ 显存(RTX 4090、A100-40G)用于生产环境;企业级:多 GPU 配置处理 20 万+ 页/天。