QuickSilver Pro 在 DeepSeek 上比 Fireworks AI 便宜多少？

DeepSeek V3 上，QuickSilver Pro 便宜约 20%：每百万 token $0.24 输入 / $0.70 输出，对比 Fireworks 的 $0.30 / $0.90。DeepSeek R1 上，QuickSilver Pro 输入便宜 87%，输出便宜 79%：每百万 token $0.40 / $1.70，对比 Fireworks 的 $3.00 / $8.00。

如何从 Fireworks AI 迁移到 QuickSilver Pro？

两者都兼容 OpenAI。把 base_url 从 https://api.fireworks.ai/inference/v1 改为 https://api.quicksilverpro.io/v1，换上新 API 密钥。模型 ID：accounts/fireworks/models/deepseek-v3 变为 deepseek-v3，accounts/fireworks/models/deepseek-r1 变为 deepseek-r1。

什么时候应该继续使用 Fireworks AI？

如果你使用他们的专属部署、微调，或 FireFunction V2，请继续使用 Fireworks。他们的平台还支持 Llama、Mistral 以及 QuickSilver Pro 不提供的图像模型。QuickSilver Pro 专注三款模型：DeepSeek V3、DeepSeek R1 和 Qwen3.5-35B-A3B。

对标准 chat completions 来说，是的 — p50 差距在 10% 以内。Fireworks 运行自家 GPU 集群，在其 serverless 端点上延迟非常紧凑。第一阶段的 QuickSilver Pro 会在多个上游提供商之间路由；DeepSeek V3 和 Qwen 上 p50 相当，DeepSeek R1 由于思维链生成略高。每个模型的实时延迟在 https://quicksilverpro.io/status 发布。

对比

QuickSilver Pro 对比 Fireworks AI

Fireworks AI 运行自家 GPU 集群，DeepSeek 价格定位偏高 — R1 每百万 token $3.00 / $8.00。QuickSilver Pro 以 $0.40 / $1.70 提供同一模型。DeepSeek V3 上便宜 约 20%；R1 上输出便宜约 79%。同样的 OpenAI 兼容接口，两行代码即可迁移。

一览

特性	QuickSilver Pro	Fireworks AI
目录定位	3 款开源模型	多款开源模型 + 视觉 + 微调
DeepSeek R1 输出价格	$1.70 / 1M	$8.00 / 1M
DeepSeek V3 输出价格	$0.70 / 1M	$0.90 / 1M
微调 · 部署	否	是
FireFunction V2（工具调用模型）	否	是
图像 · 音频模型	否	是
兼容 OpenAI 的聊天	是	是
最低充值	$5	不定

价格（每百万 token，USD）

共享开源模型的公开挂牌价格以 2026 年 4 月为准。

模型	QSP 输入	QSP 输出	Fireworks 输入	Fireworks 输出	输出节省
DeepSeek V3	$0.24	$0.70	$0.30	$0.90	~22%
DeepSeek R1	$0.40	$1.70	$3.00	$8.00	~79%
Qwen3.5-35B-A3B	$0.13	$1.00	相当		—

对于一个运行 DeepSeek R1、每日 500k 输入 + 2M 输出 token 的代理型工作负载，每日账单在 QuickSilver Pro 上为 $3.60，在 Fireworks AI 上为 $17.50。

迁移 — 只需两行

# 之前 · Fireworks AI

from openai import OpenAI

client = OpenAI(
    base_url="https://api.fireworks.ai/inference/v1",
    api_key=os.environ["FIREWORKS_KEY"],
)

r = client.chat.completions.create(
    model="accounts/fireworks/models/deepseek-r1",
    messages=[{"role": "user", "content": "Hi"}],
)

# 之后 · QuickSilver Pro

from openai import OpenAI

client = OpenAI(
    base_url="https://api.quicksilverpro.io/v1",
    api_key=os.environ["QSP_KEY"],
)

r = client.chat.completions.create(
    model="deepseek-r1",
    messages=[{"role": "user", "content": "Hi"}],
)

模型 ID 映射：

accounts/fireworks/models/deepseek-v3 → deepseek-v3

accounts/fireworks/models/deepseek-r1 → deepseek-r1

accounts/fireworks/models/qwen3.5-35b-a3b → qwen3.5-35b

诚实的取舍

以下情况选 QuickSilver Pro

›你需要以 规模化成本使用 DeepSeek R1。
›DeepSeek V3、R1 或 Qwen3.5-35B-A3B 上的 chat completions 就是你的全部工作负载。
›你希望按量付费，$5 起充。

以下情况继续使用 Fireworks AI

›你使用 FireFunction V2 或他们微调过的工具调用模型。
›专属部署或微调是你技术栈的一部分。
›你需要图像、音频或 Llama 系列模型。
›你使用他们的第一方 Whisper 或 Stable Diffusion 端点 — 我们不提供 ASR 或图像生成。
›你托管 LoRA adapter，或需要他们的微调服务以 serverless 价位交付任务特化的变体。
›你正在构建复合 AI 系统（f1 / compound models），由 Fireworks 在一次调用里服务端编排多个模型。

常见问题

DeepSeek R1 上便宜多少？

输入约 87%，输出约 79%。Fireworks 每百万 token 收 $3.00/$8.00；QuickSilver Pro 收 $0.40/$1.70。

怎么迁移？

两行：把 base_url 改为 api.quicksilverpro.io/v1，换 API 密钥，模型 ID 去掉 accounts/fireworks/models/ 前缀。

延迟相当吗？

V3 和 Qwen 上 p50 差距在 10% 以内；R1 上略高。每个模型的实时延迟在 quicksilverpro.io/status。

支持 FireFunction V2 吗？

不支持。FireFunction V2 是 Fireworks 专有的微调模型，不在 QuickSilver Pro 目录中。工具调用方面，DeepSeek V3 和 Qwen3.5-35B-A3B 都支持 OpenAI tools / 函数调用 API。

每月成本拆解

一个长上下文 RAG 管线 — 检索块很大的文档问答，生成主要用 DeepSeek V3，遇到最难的问题时突发调用 R1。每月用量：V3 80M input tokens 和 12M output tokens，加上 R1 2M input / 0.5M output。

QuickSilver Pro

V3 80M × $0.24  =  $19.20
V3 12M × $0.70  =  $ 8.40
R1  2M × $0.40  =  $ 0.80
R1 0.5M × $1.70 =  $ 0.85
—————————————————————
Total            =  $29.25/mo

Fireworks AI

V3 80M × $0.30  =  $24.00
V3 12M × $0.90  =  $10.80
R1  2M × $3.00  =  $ 6.00
R1 0.5M × $8.00 =  $ 4.00
—————————————————————
Total            =  $44.80/mo

也就是每月省 $15.55，约 35% 的折扣。在这个量级下 V3 input 是主要成本（RAG 的 input : output 比例本来就很高），但 R1 的突发调用在单 token 维度贡献的节省比例同样惊人。一年下来这条管线能省约 $186 — 检索质量和 prompt 结构一点都不用改。

可用性与可靠性

QuickSilver Pro 目前处于过渡阶段：请求会在多个提供同一份开源权重的上游推理服务商之间做路由。如果某一个上游降级，路由会回退。每个模型的可用性和 p50 / p95 延迟都发布在我们的状态页。2026 Q2 我们会切换到自有的 GPU 容量，届时会公布更硬的 SLO。

Fireworks AI 自建 GPU 集群，并在 status.fireworks.ai 公开状态页，带有可用性与事故历史。他们端到端都是第一方运营 — 对延迟调优和专属部署的稳定性有帮助。如果你的工作负载对 p99 尾延迟有硬性要求，或者必须有带合同的 SLA，在第一方集群上跑是更保守的选择。我们押的是：对于大部分做 serverless chat 的开发者团队，价格差足以盖过阶段差 — 但在切换之前先对自己的需求诚实一点。

其他 DeepSeek R1 转售商

OpenRouter R1：比 Fireworks 便宜 46% → Together AI R1：同样 4 倍加价 → DeepInfra R1：全线更便宜 → 所有竞品一览 →