阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题，登HuggingFace热榜

量子位 · 公众号 · AI · 2025-05-27 13:58

文章预览

梦晨发自凹非寺量子位 | 公众号 QbitAI 推理大模型开卷新方向，阿里开源长文本深度思考模型 QwenLong-L1 ，登上HuggingFace今日热门论文第二。其32B参数版本超过OpenAI-o3-mini、Qwen3-235B-A22B等，取得与Claude-3.7-Sonnet-Thingking相当的性能。除测评分数外，论文中还详细展示了一个金融文档推理的案例。传统模型容易被无关细节误导，而QwenLong-L1 通过回溯和验证机制过滤干扰信息，正确整合关键数据。任务要求：根据文档回答问题“将优先票据的发行成本与第一年的利息支出合并计算，总资本成本是多少？” 首先出场的基础模型 DeepSeek-R1-Distill-Qwen-14B 被文档中“自2011年10月15日起每半年支付一次利息”误导，根据不相关的时间和财务信息，错误计算了第一年的利息支付。接下来，经过额外SFT的版本仍然未能解决这个问题。它在对不相关文档进行过度分 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【Obsidian创始人的个人Obsidian使用指南：描述了他-20250528195154

20 小时前

黄建同学 · 好方法，NotebookLM也支持中文输出//@贾凡-失落的城市-20250527232042

昨天

爱可可-爱生活 · 【[63星]FedRAG：为集中式和联邦式架构提供简化版的检索增-20250527140504

2 天前

爱可可-爱生活 · 本文提出负样本感知微调（NFT）方法，一种新的监督学习策略，它通-20250527060256

2 天前

AIGC新智界 · 当所有模型都“足够聪明”，新坐标在哪？

2 天前

AIGC新智界 · 当所有模型都“足够聪明”，新坐标在哪？

2 天前

Wind万得 · Wind ESG周报（2024.06.08-2024.06.14）

11 月前

黑白之道 · 一款多功能漏洞利用管理与搜索工具

9 月前

凤凰网财经 · 科特勒咨询与凤凰卫视携手东盟营销峰会打造“企业全球发展论坛”

6 月前