首页 / 对比 / 对比 Fireworks AI
对比

QuickSilver Pro 对比 Fireworks AI

Fireworks AI 运行自家 GPU 集群,DeepSeek 价格定位偏高 — R1 每百万 token $3.00 / $8.00。QuickSilver Pro 以 $0.40 / $1.70 提供同一模型。DeepSeek V3 上便宜 约 20%;R1 上输出便宜约 79%。同样的 OpenAI 兼容接口,两行代码即可迁移。

一览

特性 QuickSilver Pro Fireworks AI
目录定位3 款开源模型多款开源模型 + 视觉 + 微调
DeepSeek R1 输出价格$1.70 / 1M$8.00 / 1M
DeepSeek V3 输出价格$0.70 / 1M$0.90 / 1M
微调 · 部署
FireFunction V2(工具调用模型)
图像 · 音频模型
兼容 OpenAI 的聊天
最低充值$5不定

价格(每百万 token,USD)

共享开源模型的公开挂牌价格以 2026 年 4 月为准。

模型 QSP 输入 QSP 输出 Fireworks 输入 Fireworks 输出 输出节省
DeepSeek V3 $0.24 $0.70 $0.30 $0.90 ~22%
DeepSeek R1 $0.40 $1.70 $3.00 $8.00 ~79%
Qwen3.5-35B-A3B $0.13 $1.00 相当

对于一个运行 DeepSeek R1、每日 500k 输入 + 2M 输出 token 的代理型工作负载,每日账单在 QuickSilver Pro 上为 $3.60,在 Fireworks AI 上为 $17.50

迁移 — 只需两行

# 之前 · Fireworks AI
from openai import OpenAI

client = OpenAI(
    base_url="https://api.fireworks.ai/inference/v1",
    api_key=os.environ["FIREWORKS_KEY"],
)

r = client.chat.completions.create(
    model="accounts/fireworks/models/deepseek-r1",
    messages=[{"role": "user", "content": "Hi"}],
)
# 之后 · QuickSilver Pro
from openai import OpenAI

client = OpenAI(
    base_url="https://api.quicksilverpro.io/v1",
    api_key=os.environ["QSP_KEY"],
)

r = client.chat.completions.create(
    model="deepseek-r1",
    messages=[{"role": "user", "content": "Hi"}],
)
模型 ID 映射:
accounts/fireworks/models/deepseek-v3deepseek-v3
accounts/fireworks/models/deepseek-r1deepseek-r1
accounts/fireworks/models/qwen3.5-35b-a3bqwen3.5-35b

诚实的取舍

以下情况选 QuickSilver Pro
  • 你需要以 规模化成本使用 DeepSeek R1。
  • DeepSeek V3、R1 或 Qwen3.5-35B-A3B 上的 chat completions 就是你的全部工作负载。
  • 你希望按量付费,$5 起充
以下情况继续使用 Fireworks AI
  • 你使用 FireFunction V2 或他们微调过的工具调用模型。
  • 专属部署或微调是你技术栈的一部分。
  • 你需要图像、音频或 Llama 系列模型。
  • 你使用他们的第一方 Whisper 或 Stable Diffusion 端点 — 我们不提供 ASR 或图像生成。
  • 你托管 LoRA adapter,或需要他们的微调服务以 serverless 价位交付任务特化的变体。
  • 你正在构建复合 AI 系统(f1 / compound models),由 Fireworks 在一次调用里服务端编排多个模型。

常见问题

DeepSeek R1 上便宜多少?

输入约 87%,输出约 79%。Fireworks 每百万 token 收 $3.00/$8.00;QuickSilver Pro 收 $0.40/$1.70。

怎么迁移?

两行:把 base_url 改为 api.quicksilverpro.io/v1,换 API 密钥,模型 ID 去掉 accounts/fireworks/models/ 前缀。

延迟相当吗?

V3 和 Qwen 上 p50 差距在 10% 以内;R1 上略高。每个模型的实时延迟在 quicksilverpro.io/status

支持 FireFunction V2 吗?

不支持。FireFunction V2 是 Fireworks 专有的微调模型,不在 QuickSilver Pro 目录中。工具调用方面,DeepSeek V3 和 Qwen3.5-35B-A3B 都支持 OpenAI tools / 函数调用 API。

每月成本拆解

一个长上下文 RAG 管线 — 检索块很大的文档问答,生成主要用 DeepSeek V3,遇到最难的问题时突发调用 R1。每月用量:V3 80M input tokens12M output tokens,加上 R1 2M input / 0.5M output

QuickSilver Pro
V3 80M × $0.24  =  $19.20
V3 12M × $0.70  =  $ 8.40
R1  2M × $0.40  =  $ 0.80
R1 0.5M × $1.70 =  $ 0.85
—————————————————————
Total            =  $29.25/mo
Fireworks AI
V3 80M × $0.30  =  $24.00
V3 12M × $0.90  =  $10.80
R1  2M × $3.00  =  $ 6.00
R1 0.5M × $8.00 =  $ 4.00
—————————————————————
Total            =  $44.80/mo

也就是每月省 $15.55,约 35% 的折扣。在这个量级下 V3 input 是主要成本(RAG 的 input : output 比例本来就很高),但 R1 的突发调用在单 token 维度贡献的节省比例同样惊人。一年下来这条管线能省约 $186 — 检索质量和 prompt 结构一点都不用改。

可用性与可靠性

QuickSilver Pro 目前处于过渡阶段:请求会在多个提供同一份开源权重的上游推理服务商之间做路由。如果某一个上游降级,路由会回退。每个模型的可用性和 p50 / p95 延迟都发布在我们的状态页。2026 Q2 我们会切换到自有的 GPU 容量,届时会公布更硬的 SLO。

Fireworks AI 自建 GPU 集群,并在 status.fireworks.ai 公开状态页,带有可用性与事故历史。他们端到端都是第一方运营 — 对延迟调优和专属部署的稳定性有帮助。如果你的工作负载对 p99 尾延迟有硬性要求,或者必须有带合同的 SLA,在第一方集群上跑是更保守的选择。我们押的是:对于大部分做 serverless chat 的开发者团队,价格差足以盖过阶段差 — 但在切换之前先对自己的需求诚实一点。

其他 DeepSeek R1 转售商

用 $1 免费额度试试

OpenAI SDK 保持不变。改 base URL、改 API 密钥,上线。

获取 API 密钥