专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
今天看啥  ›  专栏  ›  量子位

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题,登HuggingFace热榜

量子位  · 公众号  · AI  · 2025-05-27 13:58
    

文章预览

梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 推理大模型开卷新方向,阿里开源 长文本深度思考 模型 QwenLong-L1 ,登上HuggingFace今日热门论文第二。 其32B参数版本超过OpenAI-o3-mini、Qwen3-235B-A22B等,取得与Claude-3.7-Sonnet-Thingking相当的性能。 除测评分数外,论文中还详细展示了一个金融文档推理的案例。传统模型容易被无关细节误导,而QwenLong-L1 通过回溯和验证机制过滤干扰信息,正确整合关键数据 。 任务要求:根据文档回答问题“将优先票据的发行成本与第一年的利息支出合并计算,总资本成本是多少?” 首先出场的基础模型 DeepSeek-R1-Distill-Qwen-14B 被文档中“自2011年10月15日起每半年支付一次利息”误导,根据不相关的时间和财务信息, 错误计算了第一年的利息支付 。 接下来, 经过额外SFT的版本仍然未能解决这个问题。 它在对不相关文档进行过度分 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览