QuickSilver Pro 对比 DeepInfra
在 DeepSeek 代理商里,DeepInfra 是性价比选项。QuickSilver Pro 还要更低:DeepSeek V3 输出便宜约 20%,DeepSeek R1 输出便宜约 22%。如果你已经因为在意成本而在用 DeepInfra,进一步的节省会持续累积。同样的 OpenAI 兼容接口,两行代码即可迁移。
一览
| 特性 | QuickSilver Pro | DeepInfra |
|---|---|---|
| 目录定位 | 3 款开源大模型 | 60+ 款开源模型、视觉、音频 |
| DeepSeek V3 输出价格 | $0.70 / 1M | $0.88 / 1M |
| DeepSeek R1 输出价格 | $1.70 / 1M | $2.19 / 1M |
| 缓存输入折扣 | 暂无 | 有(DeepSeek V3/V3.1) |
| Embeddings · 音频 · 图像 | 否 | 是 |
| 专属部署 | 否 | 是 |
| 兼容 OpenAI 的聊天 | 是 | 是 |
| 最低充值 | $5 | $20 |
价格(每百万 token,USD)
公开挂牌价格以 2026 年 4 月为准。DeepInfra 还提供缓存输入折扣(未在此显示)。
| 模型 | QSP 输入 | QSP 输出 | DeepInfra 输入 | DeepInfra 输出 | 输出节省 |
|---|---|---|---|---|---|
| DeepSeek V3 | $0.24 | $0.70 | $0.28 | $0.88 | ~20% |
| DeepSeek R1 | $0.40 | $1.70 | $0.55 | $2.19 | ~22% |
| Qwen3.5-35B-A3B | $0.13 | $1.00 | 相当 | — | |
在 DeepSeek V3 工作负载(每日 1M 输入 + 300k 输出)上,QuickSilver Pro 花费 $0.45/天,DeepInfra 花费 $0.54/天。差距比对比 Together 或 Fireworks 时更小,但规模化之后仍有意义。
迁移 — 只需两行
from openai import OpenAI
client = OpenAI(
base_url="https://api.deepinfra.com/v1/openai",
api_key=os.environ["DEEPINFRA_KEY"],
)
r = client.chat.completions.create(
model="deepseek-ai/DeepSeek-V3",
messages=[{"role": "user", "content": "Hi"}],
)
from openai import OpenAI
client = OpenAI(
base_url="https://api.quicksilverpro.io/v1",
api_key=os.environ["QSP_KEY"],
)
r = client.chat.completions.create(
model="deepseek-v3",
messages=[{"role": "user", "content": "Hi"}],
)
deepseek-ai/DeepSeek-V3 → deepseek-v3deepseek-ai/DeepSeek-R1 → deepseek-r1Qwen/Qwen3.5-35B-A3B → qwen3.5-35b诚实的取舍
- ›你想要 DeepSeek V3 和 R1 最低的每 token 挂牌价格。
- ›你的工作负载从 DeepInfra 的缓存折扣中获益不多(重复 prompt 比例低)。
- ›你想要 $5 起充,而不是 $20。
- ›你依赖他们的缓存输入折扣(缓存命中率 >50%)。
- ›你使用 embeddings、Whisper 音频或图像模型。
- ›你需要 DeepSeek 和 Qwen 之外的 Llama、Mistral 或其他开源模型。
- ›你想为自己的自定义模型用 serverless GPU(基于容器的托管、按秒计费)— 我们只服务精选的三款模型。
- ›你可以接受延迟换取折扣的 batch inference — DeepInfra 提供 batch 端点;我们只做实时。
- ›你的应用需要文本之外的多模态 — vision / OCR / 语音识别 / TTS 在 DeepInfra 的目录里,不在我们的范围内。
常见问题
便宜多少?
按挂牌价:DeepSeek V3 输入便宜约 14%,输出便宜约 20%。DeepSeek R1 输入便宜约 27%,输出便宜约 22%。DeepInfra 的缓存输入价格可能改变计算方式;对缓存较多的工作负载,请对比实际每请求成本。
怎么迁移?
两行:把 base_url 改为 api.quicksilverpro.io/v1,换 API 密钥,去掉 deepseek-ai/ 或 Qwen/ 前缀。
QuickSilver Pro 支持 prompt 缓存吗?
暂不作为单独费率。DeepInfra 的缓存输入折扣可以降低重复 prompt 的实际输入成本。如果缓存命中率对你的工作负载影响显著,请两边都做基准测试。
embeddings / 音频 / 图像呢?
不提供。QuickSilver Pro 只在三款大模型上提供 chat completions。DeepInfra 覆盖这些多模态能力。
每月成本拆解
一个介于业余 / 生产之间的 SaaS — 独立开发者的应用,用 V3 跑通用对话,用 R1 跑"解释推理过程"功能,两者 50/50。每月用量:10M input tokens 和 3M output tokens,V3 和 R1 各占一半。
V3 5M × $0.24 = $1.20
V3 1.5M × $0.70 = $1.05
R1 5M × $0.40 = $2.00
R1 1.5M × $1.70 = $2.55
—————————————————————
Total = $6.80/mo
V3 5M × $0.28 = $1.40 V3 1.5M × $0.88 = $1.32 R1 5M × $0.55 = $2.75 R1 1.5M × $2.19 = $3.29 ————————————————————— Total = $8.76/mo
也就是每月省 $1.96,约 22% 的折扣。绝对数看起来不大,因为 DeepInfra 本来就已经定价很激进 — 但节省的结构值得留意:R1 贡献了 $1.96 里的约 $1.49,也就是说推理用得越多,差距就越明显。DeepInfra 的缓存命中能抵一部分差 — 切换前请用真实流量做基准测试。
可用性与可靠性
QuickSilver Pro 目前处于过渡阶段:请求会在多个提供同一份开源权重的上游推理服务商之间做路由。如果某一个上游宕机或打满容量,路由会切到下一个。每个模型的可用性、p50 / p95 延迟以及事故历史都发布在我们的状态页。2026 Q2 我们会切换到自有 GPU 容量,届时路由形态也会变化。
DeepInfra 自建 GPU 集群,截至本文撰写时他们没有提供实时的公开状态页或可用性看板 — 我们不打算编造自己没法核实的数字。他们的事故沟通走的是社区 Discord 和状态帖子,而不是一个可供引用的专门 URL。如果可用性透明度对你的决策很关键,两边团队都可以按需共享近期事故数据;不要被 PR 口径左右。