今天看啥  ›  专栏  ›  硅基流动

SiliconCloud API 升级:128K 最大上下文推理,灵活控制思维链长度

硅基流动  · 公众号  · 科技自媒体  · 2025-05-22 12:01
    

主要观点总结

本文介绍了硅基流动平台对包括DeepSeek-R1在内的所有推理模型API完成的新一轮升级,以更好地满足开发者对长上下文及相关长度参数配置灵活性的需求。

关键观点总结

关键观点1: 支持更大的上下文长度

硅基流动平台支持最大128K的上下文长度,使得模型能够更充分地思考并输出更完整的内容。这一升级有效满足了代码生成、智能体等复杂推理任务的需求。

关键观点2: 独立控制并分开计量“思维链”与“回复内容”长度

平台支持独立控制“思维链”和“回复内容”的长度,并按需高效利用模型推理能力。开发者可以根据实际任务的难易程度灵活控制模型的思考深度及回复长度。

关键观点3: 提供长度参数说明

为了帮助用户准确理解本次更新机制,文章对推理模型中涉及的各类长度参数及其关系作了简要说明,包括最大思维链长度、最大回复长度和最大上下文长度的定义及其作用。

关键观点4: 更新API使用文档及新服务上线信息

文章还提到了API使用文档的更新地址,以及近期上线的“硅基朋友”连接计划、DeepSeek一体机的推出、DeepSeek-R1及V3企业服务的新服务上线信息。


文章预览

硅基流动 SiliconCloud  平台对 DeepSeek-R1 等所有推理模型 API  完成新一轮升级,以更好满足开发者对长上下文及 相关长度参数配置灵活性的需求: 1.  支持 128K  最大 上下文长度, 让模型思考更充分,输出更完整 :Qwen3、QWQ、GLM-Z1、DeepSeek-R1-Distill 同系列推理模型支持 128K 最大上下文,DeepSeek-R1 支持 96K 最大上下文,有效满足代码生成、智能体等复杂推理任务需求; 2. 支持独立 控制、分开计量 “思维链”与“回复内容”长度,按需高效利用 模型推理能力 : 最大回复长度( max_tokens ) 仅用于控制最终模型回复的最大长度, 思维链长度( thinking_budget)仅 用于控制模型思考深度,且单独计算各自 Token 使用量,有利于开发者根据实际任务的难易程度灵活控制模型思考深度及回复长度。 以 SiliconCloud 平台的 Qwen3-14B 为例,用户可分别通过设置   thinking_bu ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览