首页 / 对比 / 对比 DeepInfra
对比

QuickSilver Pro 对比 DeepInfra

在 DeepSeek 代理商里,DeepInfra 是性价比选项。QuickSilver Pro 还要更低:DeepSeek V3 输出便宜约 20%,DeepSeek R1 输出便宜约 22%。如果你已经因为在意成本而在用 DeepInfra,进一步的节省会持续累积。同样的 OpenAI 兼容接口,两行代码即可迁移。

一览

特性 QuickSilver Pro DeepInfra
目录定位3 款开源大模型60+ 款开源模型、视觉、音频
DeepSeek V3 输出价格$0.70 / 1M$0.88 / 1M
DeepSeek R1 输出价格$1.70 / 1M$2.19 / 1M
缓存输入折扣暂无有(DeepSeek V3/V3.1)
Embeddings · 音频 · 图像
专属部署
兼容 OpenAI 的聊天
最低充值$5$20

价格(每百万 token,USD)

公开挂牌价格以 2026 年 4 月为准。DeepInfra 还提供缓存输入折扣(未在此显示)。

模型 QSP 输入 QSP 输出 DeepInfra 输入 DeepInfra 输出 输出节省
DeepSeek V3 $0.24 $0.70 $0.28 $0.88 ~20%
DeepSeek R1 $0.40 $1.70 $0.55 $2.19 ~22%
Qwen3.5-35B-A3B $0.13 $1.00 相当

在 DeepSeek V3 工作负载(每日 1M 输入 + 300k 输出)上,QuickSilver Pro 花费 $0.45/天,DeepInfra 花费 $0.54/天。差距比对比 Together 或 Fireworks 时更小,但规模化之后仍有意义。

迁移 — 只需两行

# 之前 · DeepInfra
from openai import OpenAI

client = OpenAI(
    base_url="https://api.deepinfra.com/v1/openai",
    api_key=os.environ["DEEPINFRA_KEY"],
)

r = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3",
    messages=[{"role": "user", "content": "Hi"}],
)
# 之后 · QuickSilver Pro
from openai import OpenAI

client = OpenAI(
    base_url="https://api.quicksilverpro.io/v1",
    api_key=os.environ["QSP_KEY"],
)

r = client.chat.completions.create(
    model="deepseek-v3",
    messages=[{"role": "user", "content": "Hi"}],
)
模型 ID 映射:
deepseek-ai/DeepSeek-V3deepseek-v3
deepseek-ai/DeepSeek-R1deepseek-r1
Qwen/Qwen3.5-35B-A3Bqwen3.5-35b

诚实的取舍

以下情况选 QuickSilver Pro
  • 你想要 DeepSeek V3 和 R1 最低的每 token 挂牌价格。
  • 你的工作负载从 DeepInfra 的缓存折扣中获益不多(重复 prompt 比例低)。
  • 你想要 $5 起充,而不是 $20。
以下情况继续使用 DeepInfra
  • 你依赖他们的缓存输入折扣(缓存命中率 >50%)。
  • 你使用 embeddings、Whisper 音频或图像模型。
  • 你需要 DeepSeek 和 Qwen 之外的 Llama、Mistral 或其他开源模型。
  • 你想为自己的自定义模型用 serverless GPU(基于容器的托管、按秒计费)— 我们只服务精选的三款模型。
  • 你可以接受延迟换取折扣的 batch inference — DeepInfra 提供 batch 端点;我们只做实时。
  • 你的应用需要文本之外的多模态 — vision / OCR / 语音识别 / TTS 在 DeepInfra 的目录里,不在我们的范围内。

常见问题

便宜多少?

按挂牌价:DeepSeek V3 输入便宜约 14%,输出便宜约 20%。DeepSeek R1 输入便宜约 27%,输出便宜约 22%。DeepInfra 的缓存输入价格可能改变计算方式;对缓存较多的工作负载,请对比实际每请求成本。

怎么迁移?

两行:把 base_url 改为 api.quicksilverpro.io/v1,换 API 密钥,去掉 deepseek-ai/Qwen/ 前缀。

QuickSilver Pro 支持 prompt 缓存吗?

暂不作为单独费率。DeepInfra 的缓存输入折扣可以降低重复 prompt 的实际输入成本。如果缓存命中率对你的工作负载影响显著,请两边都做基准测试。

embeddings / 音频 / 图像呢?

不提供。QuickSilver Pro 只在三款大模型上提供 chat completions。DeepInfra 覆盖这些多模态能力。

每月成本拆解

一个介于业余 / 生产之间的 SaaS — 独立开发者的应用,用 V3 跑通用对话,用 R1 跑"解释推理过程"功能,两者 50/50。每月用量:10M input tokens3M output tokens,V3 和 R1 各占一半。

QuickSilver Pro
V3 5M   × $0.24 =  $1.20
V3 1.5M × $0.70 =  $1.05
R1 5M   × $0.40 =  $2.00
R1 1.5M × $1.70 =  $2.55
—————————————————————
Total           =  $6.80/mo
DeepInfra
V3 5M   × $0.28 =  $1.40
V3 1.5M × $0.88 =  $1.32
R1 5M   × $0.55 =  $2.75
R1 1.5M × $2.19 =  $3.29
—————————————————————
Total           =  $8.76/mo

也就是每月省 $1.96,约 22% 的折扣。绝对数看起来不大,因为 DeepInfra 本来就已经定价很激进 — 但节省的结构值得留意:R1 贡献了 $1.96 里的约 $1.49,也就是说推理用得越多,差距就越明显。DeepInfra 的缓存命中能抵一部分差 — 切换前请用真实流量做基准测试。

可用性与可靠性

QuickSilver Pro 目前处于过渡阶段:请求会在多个提供同一份开源权重的上游推理服务商之间做路由。如果某一个上游宕机或打满容量,路由会切到下一个。每个模型的可用性、p50 / p95 延迟以及事故历史都发布在我们的状态页。2026 Q2 我们会切换到自有 GPU 容量,届时路由形态也会变化。

DeepInfra 自建 GPU 集群,截至本文撰写时他们没有提供实时的公开状态页或可用性看板 — 我们不打算编造自己没法核实的数字。他们的事故沟通走的是社区 Discord 和状态帖子,而不是一个可供引用的专门 URL。如果可用性透明度对你的决策很关键,两边团队都可以按需共享近期事故数据;不要被 PR 口径左右。

其他转售商对比

用 $1 免费额度试试

两行代码完成迁移;让输出节省来说话。

获取 API 密钥