DeepSeek-OCR 发布：1个视觉token，抵得上10个文本token

赛博禅心 · 公众号 · AI媒体科技自媒体 · 2025-10-20 20:21

主要观点总结

DeepSeek-OCR通过视觉token表达信息的方式引发关注，使用较少token表达大量文本内容，实现了高压缩率下的信息高效表达。通过开源技术，提供了全新的视觉-文本压缩思路，挑战了传统的文字信息压缩方式。其核心架构DeepEncoder采用特殊设计，实现了低激活和多分辨率统一。此外，它还能深度解析文档中的图表、几何图形、化学式等，具备OCR 2.0能力。论文中的设想通过降低图像分辨率模拟人类记忆遗忘机制，展示了深远的意义和巨大的想象空间。

关键观点总结

关键观点1: DeepSeek-OCR使用视觉token表达文本信息，实现了高压缩率。

DeepSeek-OCR用较少的视觉token表达了大量的文本信息，突破了传统文字信息压缩方式的局限。

关键观点2: DeepSeek-OCR的核心架构DeepEncoder设计独特。

DeepEncoder实现了低激活和多分辨率统一，使得推理时显存占用小、速度快。

关键观点3: DeepSeek-OCR具备深度解析文档的能力。

除了识别文字，DeepSeek-OCR还能解析文档中的图表、几何图形、化学式等，具备OCR 2.0能力。

关键观点4: 论文提出了降低图像分辨率模拟人类记忆遗忘的设想。

通过降低图像分辨率来模拟人类的记忆遗忘，这一设想展现了DeepSeek-OCR在理论上的无限context window的可能性。

关键观点5: DeepSeek-OCR开源且具备局限性。

项目采用MIT许可证开源，代码、模型权重、技术论文全部公开。然而，它也有一些局限，如超过10倍的压缩会导致准确率下降，记忆遗忘机制还需更多实验验证。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博