专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
今天看啥  ›  专栏  ›  DeepTech深科技

只用256M参数就做到了文档转换的SOTA?IBM和Hugging Face联合开源多模态小模型SmolDocling

DeepTech深科技  · 公众号  · 科技媒体  · 2025-03-20 14:04
    

主要观点总结

文章介绍了麻省理工科技评论评为2025年十大突破性科技之一的小模型(Small Language Model)的发展趋势,并详细描述了IBM和Hugging Face联合推出的新型小型视觉-语言模型SmolDocling。该模型在文档转换任务上展现出卓越性能,只需256M的参数就能准确捕获文档元素的内容、结构和空间位置。文章还详细解释了SmolDocling的架构、训练方法、数据处理策略和DocTags标记格式。最后,提到了研究团队未来工作计划和公开数据集以推动文档理解领域的发展。

关键观点总结

关键观点1: 小模型成为趋势

随着大模型的边际收益逐渐减小,小模型在特定任务中有望媲美甚至超越大模型。

关键观点2: SmolDocling模型的介绍

SmolDocling是一个专为文档转换任务设计的小型视觉-语言模型,仅使用256M参数就在各项基准测试上超越了更大规模的其他模型。

关键观点3: SmolDocling的性能表现

SmolDocling在全页文档文本识别、公式识别、代码列表识别、布局分析以及表格结构识别等任务上展现出色性能。

关键观点4: SmolDocling的架构和训练方法

SmolDocling基于Hugging Face的SmolVLM架构,采用视觉编码器和语言骨干。训练过程中使用了特殊的像素混洗方法和DocTags标记格式。

关键观点5: 研究团队的工作计划和未来展望

研究团队表示页面元素定位识别能力仍有提升空间,计划公开更多数据集以推动文档理解领域的发展。


文章预览

在今年年初麻省理工科技评论将小模型(Samll Language Model)评为 2025 年十大突破性科技之一,认为随着大模型的边际收益逐渐减小,小模型有望在特定任务中媲美甚至超越大模型 。而最近小模型圈子的一系列成果,都在印证这个趋势——从 谷歌 的 Gemma3、 微软 的 Phi4-mini 再到 Mistral 的 Small 3.1……小模型一天比一天精悍。 最近 IBM 和 Hugging Face 的研究人员又联合推出了一个新的小型视觉-语言模型 SmolDocling,这款专为文档转换任务而设计的模型,居然只用 256M 的参数就在各项基准测试上超越了更大规模的其他模型。 图丨相关论文(来源: arXiv ) SmolDocling 基于 Hugging Face  的 SmolVLM 架构,可以处理整个页面的内容,并通过生成“DocTags”(一种新型通用标记格式)精确捕捉页面元素及其位置和上下文信息。与依赖手工制作的流水线或大型基础模型不 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览