DeepSeek R1 推理
DeepSeek R1 是一款用强化学习训练、显式输出思维链的开源推理模型。在 AIME 与 MATH 基准上与 OpenAI o1 相当,价格却低约 35 倍:QuickSilver Pro 上为 每百万 token $0.40 输入 / $1.70 输出,对比 o1 的 $15 / $60。对于数学、代码题、逻辑密集的代理循环,R1 是开源默认选择。
R1 的强项
在 AIME-2024、MATH-500 和奥赛级别问题上表现强。推理轨迹会走完推导;最终答案出现在 content 中。
竞赛级别的代码生成。LiveCodeBench 和 Codeforces 基准得分可比肩 o1。对需要新算法的任务优于 V3,但因为 CoT 而更慢。
在代理循环里,当规划器需要先分解再行动时很有用。每次规划调用都有显式推理,能提升工具使用的决策质量。
快速上手:解一道数学题
from openai import OpenAI
client = OpenAI(
base_url="https://api.quicksilverpro.io/v1",
api_key="sk-qsp-...",
)
resp = client.chat.completions.create(
model="deepseek-r1",
messages=[{
"role": "user",
"content": "A box has 12 red and 8 blue balls. Three drawn without replacement. Probability exactly two are red?",
}],
)
# Chain-of-thought reasoning:
print(resp.choices[0].message.reasoning_content)
# Final answer:
print(resp.choices[0].message.content)
print(f"Output tokens: {resp.usage.completion_tokens}")
print(f"Cost: ${resp.usage.cost:.6f}")
R1 把 reasoning_content(思考轨迹)与 content(最终答案)分开返回。两者都按输出 token 计费。典型推理轨迹在 500–3000 tokens 之间。
价格
| 提供方 | 输入 / 1M | 输出 / 1M | 输出对比 QSP |
|---|---|---|---|
| QuickSilver Pro | $0.40 | $1.70 | — |
| OpenRouter | $0.50 | $2.15 | +26% |
| DeepInfra | $0.55 | $2.19 | +29% |
| Together AI | $3.00 | $7.00 | 4.1x |
| Fireworks AI | $3.00 | $8.00 | 4.7x |
| OpenAI o1 | $15.00 | $60.00 | 35x |
由于 R1 会生成很长的推理轨迹(通常多 1000-3000 输出 token),输出成本占主导。对比 Fireworks 上 79% 的输出节省会累加 — 如果你每月 R1 输出 10M token,差距就是 QSP 上 $17/月,Fireworks 上 $80/月。
R1 何时值得额外的 token 成本
用 R1 做:数学应用题、新算法设计、逻辑谜题、定理证明、多步工具规划、困难调试。只有在推理这一步真正发挥作用的任务上,R1 才能把成本赚回来。
跳过 R1:事实问答、代码补全、摘要、实体抽取、简单分类、翻译。V3 更便宜、更快,在非推理任务上质量相当。
成本校准:一篇 2000 词文章,V3 大约需要 600 输出 token(每 1000 篇约 $0.42)。R1 处理同样任务需要 ~2500 输出 token(含推理轨迹),每 1000 篇约 $4.25。贵 10 倍。R1 留给这 10 倍能换来东西的场景。
常见问题
DeepSeek R1 和 o1 一样好吗?
在公开的数学(AIME-2024、MATH-500)、编程(LiveCodeBench、Codeforces)和推理(GPQA Diamond)基准上,DeepSeek R1 与 o1 相差几个点以内,多数任务上超过 o1-mini。以 35 倍更低的成本用于生产,它是 o1 的开源等价物。
推理轨迹有多长?
典型范围 500-3000 tokens。对于硬题(IMO 级别数学),轨迹可能超过 5000 token。所有推理 token 都按输出 token 计费 — 做成本估算时别忘了。
R1 支持工具调用吗?
R1 接受 OpenAI tools 数组,但工具调用可靠性不如 V3。在代理循环里,推荐用 V3 作为工具调用执行器,只在遇到困难的规划子问题时调用 R1。这种混合模式能取长补短。
能对用户隐藏推理轨迹吗?
可以。在服务端忽略 reasoning_content,只返回 content。你仍然要为推理 token 付费,因为 R1 必须生成它们才能得到答案 — 没有便宜的"跳过思考"模式。