DeepSeek R1 适合做什么？

DeepSeek R1 是一款用强化学习训练、在回答前生成显式思维链的推理模型。它擅长数学（AIME、MATH）、竞赛编程（Codeforces）、逻辑谜题、形式化证明和多步规划。对于答案质量依赖推理过程的任务，R1 优于 DeepSeek V3 这类非推理模型，但代价是多 3-5 倍输出 token。

DeepSeek R1 与 OpenAI o1 的价格怎么比？

OpenAI o1 每百万输入 token $15，每百万输出 token $60。DeepSeek R1 在 QuickSilver Pro 上每百万 token $0.40 输入 / $1.70 输出。对同一工作负载，R1 输入便宜约 37 倍，输出便宜约 35 倍 — 数学和编程基准表现相当。

如何访问推理轨迹？

DeepSeek R1 在 message 对象中与 content 一起返回 reasoning_content 字段。reasoning_content 保存思维链轨迹；content 保存最终答案。两者都按输出 token 计费。如果你只需要答案，可以丢弃 reasoning_content — 成本相同。

简单问题用 R1 是不是过度？

是的。即便是非常简单的问题，R1 也会生成很长的思维链，浪费输出成本。对事实问答、简单摘要或闲聊，请用 DeepSeek V3（每百万输出 $0.70）而不是 R1（每百万输出 $1.70）。把 R1 留给推理过程能实质提升答案质量的问题。

场景 · 推理与数学

DeepSeek R1 推理

DeepSeek R1 是一款用强化学习训练、显式输出思维链的开源推理模型。在 AIME 与 MATH 基准上与 OpenAI o1 相当，价格却低约 35 倍：QuickSilver Pro 上为 每百万 token $0.40 输入 / $1.70 输出，对比 o1 的 $15 / $60。对于数学、代码题、逻辑密集的代理循环，R1 是开源默认选择。

R1 的强项

数学

在 AIME-2024、MATH-500 和奥赛级别问题上表现强。推理轨迹会走完推导；最终答案出现在 content 中。

算法

竞赛级别的代码生成。LiveCodeBench 和 Codeforces 基准得分可比肩 o1。对需要新算法的任务优于 V3，但因为 CoT 而更慢。

多步规划

在代理循环里，当规划器需要先分解再行动时很有用。每次规划调用都有显式推理，能提升工具使用的决策质量。

快速上手：解一道数学题

Python · openai SDK

from openai import OpenAI

client = OpenAI(
    base_url="https://api.quicksilverpro.io/v1",
    api_key="sk-qsp-...",
)

resp = client.chat.completions.create(
    model="deepseek-r1",
    messages=[{
        "role": "user",
        "content": "A box has 12 red and 8 blue balls. Three drawn without replacement. Probability exactly two are red?",
    }],
)

# Chain-of-thought reasoning:
print(resp.choices[0].message.reasoning_content)

# Final answer:
print(resp.choices[0].message.content)

print(f"Output tokens: {resp.usage.completion_tokens}")
print(f"Cost: ${resp.usage.cost:.6f}")

R1 把 reasoning_content（思考轨迹）与 content（最终答案）分开返回。两者都按输出 token 计费。典型推理轨迹在 500–3000 tokens 之间。

价格

提供方	输入 / 1M	输出 / 1M	输出对比 QSP
QuickSilver Pro	$0.40	$1.70	—
OpenRouter	$0.50	$2.15	+26%
DeepInfra	$0.55	$2.19	+29%
Together AI	$3.00	$7.00	4.1x
Fireworks AI	$3.00	$8.00	4.7x
OpenAI o1	$15.00	$60.00	35x

由于 R1 会生成很长的推理轨迹（通常多 1000-3000 输出 token），输出成本占主导。对比 Fireworks 上 79% 的输出节省会累加 — 如果你每月 R1 输出 10M token，差距就是 QSP 上 $17/月，Fireworks 上 $80/月。

R1 何时值得额外的 token 成本

用 R1 做：数学应用题、新算法设计、逻辑谜题、定理证明、多步工具规划、困难调试。只有在推理这一步真正发挥作用的任务上，R1 才能把成本赚回来。

跳过 R1：事实问答、代码补全、摘要、实体抽取、简单分类、翻译。V3 更便宜、更快，在非推理任务上质量相当。

成本校准：一篇 2000 词文章，V3 大约需要 600 输出 token（每 1000 篇约 $0.42）。R1 处理同样任务需要 ~2500 输出 token（含推理轨迹），每 1000 篇约 $4.25。贵 10 倍。R1 留给这 10 倍能换来东西的场景。

常见问题

DeepSeek R1 和 o1 一样好吗？

在公开的数学（AIME-2024、MATH-500）、编程（LiveCodeBench、Codeforces）和推理（GPQA Diamond）基准上，DeepSeek R1 与 o1 相差几个点以内，多数任务上超过 o1-mini。以 35 倍更低的成本用于生产，它是 o1 的开源等价物。

推理轨迹有多长？

典型范围 500-3000 tokens。对于硬题（IMO 级别数学），轨迹可能超过 5000 token。所有推理 token 都按输出 token 计费 — 做成本估算时别忘了。

R1 支持工具调用吗？

R1 接受 OpenAI tools 数组，但工具调用可靠性不如 V3。在代理循环里，推荐用 V3 作为工具调用执行器，只在遇到困难的规划子问题时调用 R1。这种混合模式能取长补短。

能对用户隐藏推理轨迹吗？

可以。在服务端忽略 reasoning_content，只返回 content。你仍然要为推理 token 付费，因为 R1 必须生成它们才能得到答案 — 没有便宜的"跳过思考"模式。

DeepSeek R1 推理

R1 的强项

快速上手：解一道数学题

价格

R1 何时值得额外的 token 成本

常见问题

相关

用 $1 免费额度开始推理