QuickSilver Pro 对比 Fireworks AI
Fireworks AI 运行自家 GPU 集群,DeepSeek 价格定位偏高 — R1 每百万 token $3.00 / $8.00。QuickSilver Pro 以 $0.40 / $1.70 提供同一模型。DeepSeek V3 上便宜 约 20%;R1 上输出便宜约 79%。同样的 OpenAI 兼容接口,两行代码即可迁移。
一览
| 特性 | QuickSilver Pro | Fireworks AI |
|---|---|---|
| 目录定位 | 3 款开源模型 | 多款开源模型 + 视觉 + 微调 |
| DeepSeek R1 输出价格 | $1.70 / 1M | $8.00 / 1M |
| DeepSeek V3 输出价格 | $0.70 / 1M | $0.90 / 1M |
| 微调 · 部署 | 否 | 是 |
| FireFunction V2(工具调用模型) | 否 | 是 |
| 图像 · 音频模型 | 否 | 是 |
| 兼容 OpenAI 的聊天 | 是 | 是 |
| 最低充值 | $5 | 不定 |
价格(每百万 token,USD)
共享开源模型的公开挂牌价格以 2026 年 4 月为准。
| 模型 | QSP 输入 | QSP 输出 | Fireworks 输入 | Fireworks 输出 | 输出节省 |
|---|---|---|---|---|---|
| DeepSeek V3 | $0.24 | $0.70 | $0.30 | $0.90 | ~22% |
| DeepSeek R1 | $0.40 | $1.70 | $3.00 | $8.00 | ~79% |
| Qwen3.5-35B-A3B | $0.13 | $1.00 | 相当 | — | |
对于一个运行 DeepSeek R1、每日 500k 输入 + 2M 输出 token 的代理型工作负载,每日账单在 QuickSilver Pro 上为 $3.60,在 Fireworks AI 上为 $17.50。
迁移 — 只需两行
from openai import OpenAI
client = OpenAI(
base_url="https://api.fireworks.ai/inference/v1",
api_key=os.environ["FIREWORKS_KEY"],
)
r = client.chat.completions.create(
model="accounts/fireworks/models/deepseek-r1",
messages=[{"role": "user", "content": "Hi"}],
)
from openai import OpenAI
client = OpenAI(
base_url="https://api.quicksilverpro.io/v1",
api_key=os.environ["QSP_KEY"],
)
r = client.chat.completions.create(
model="deepseek-r1",
messages=[{"role": "user", "content": "Hi"}],
)
accounts/fireworks/models/deepseek-v3 → deepseek-v3accounts/fireworks/models/deepseek-r1 → deepseek-r1accounts/fireworks/models/qwen3.5-35b-a3b → qwen3.5-35b诚实的取舍
- ›你需要以 规模化成本使用 DeepSeek R1。
- ›DeepSeek V3、R1 或 Qwen3.5-35B-A3B 上的 chat completions 就是你的全部工作负载。
- ›你希望按量付费,$5 起充。
- ›你使用 FireFunction V2 或他们微调过的工具调用模型。
- ›专属部署或微调是你技术栈的一部分。
- ›你需要图像、音频或 Llama 系列模型。
- ›你使用他们的第一方 Whisper 或 Stable Diffusion 端点 — 我们不提供 ASR 或图像生成。
- ›你托管 LoRA adapter,或需要他们的微调服务以 serverless 价位交付任务特化的变体。
- ›你正在构建复合 AI 系统(f1 / compound models),由 Fireworks 在一次调用里服务端编排多个模型。
常见问题
DeepSeek R1 上便宜多少?
输入约 87%,输出约 79%。Fireworks 每百万 token 收 $3.00/$8.00;QuickSilver Pro 收 $0.40/$1.70。
怎么迁移?
两行:把 base_url 改为 api.quicksilverpro.io/v1,换 API 密钥,模型 ID 去掉 accounts/fireworks/models/ 前缀。
延迟相当吗?
V3 和 Qwen 上 p50 差距在 10% 以内;R1 上略高。每个模型的实时延迟在 quicksilverpro.io/status。
支持 FireFunction V2 吗?
不支持。FireFunction V2 是 Fireworks 专有的微调模型,不在 QuickSilver Pro 目录中。工具调用方面,DeepSeek V3 和 Qwen3.5-35B-A3B 都支持 OpenAI tools / 函数调用 API。
每月成本拆解
一个长上下文 RAG 管线 — 检索块很大的文档问答,生成主要用 DeepSeek V3,遇到最难的问题时突发调用 R1。每月用量:V3 80M input tokens 和 12M output tokens,加上 R1 2M input / 0.5M output。
V3 80M × $0.24 = $19.20
V3 12M × $0.70 = $ 8.40
R1 2M × $0.40 = $ 0.80
R1 0.5M × $1.70 = $ 0.85
—————————————————————
Total = $29.25/mo
V3 80M × $0.30 = $24.00 V3 12M × $0.90 = $10.80 R1 2M × $3.00 = $ 6.00 R1 0.5M × $8.00 = $ 4.00 ————————————————————— Total = $44.80/mo
也就是每月省 $15.55,约 35% 的折扣。在这个量级下 V3 input 是主要成本(RAG 的 input : output 比例本来就很高),但 R1 的突发调用在单 token 维度贡献的节省比例同样惊人。一年下来这条管线能省约 $186 — 检索质量和 prompt 结构一点都不用改。
可用性与可靠性
QuickSilver Pro 目前处于过渡阶段:请求会在多个提供同一份开源权重的上游推理服务商之间做路由。如果某一个上游降级,路由会回退。每个模型的可用性和 p50 / p95 延迟都发布在我们的状态页。2026 Q2 我们会切换到自有的 GPU 容量,届时会公布更硬的 SLO。
Fireworks AI 自建 GPU 集群,并在 status.fireworks.ai 公开状态页,带有可用性与事故历史。他们端到端都是第一方运营 — 对延迟调优和专属部署的稳定性有帮助。如果你的工作负载对 p99 尾延迟有硬性要求,或者必须有带合同的 SLA,在第一方集群上跑是更保守的选择。我们押的是:对于大部分做 serverless chat 的开发者团队,价格差足以盖过阶段差 — 但在切换之前先对自己的需求诚实一点。