QuickSilver Pro 对比 Together AI
Together AI 的 DeepSeek R1 标价 每百万 token $3.00 / $7.00 — 这是他们为自家 GPU 设定的价格层。QuickSilver Pro 以 $0.40 / $1.70 提供相同模型,输出便宜约 76%。对于消耗 R1 长思维链的推理型工作负载,这个差距会迅速放大。
一览
| 特性 | QuickSilver Pro | Together AI |
|---|---|---|
| 目录定位 | 3 款开源模型 | 50+ 款开源模型 + 微调 |
| DeepSeek R1 输出价格 | $1.70 / 1M | $7.00 / 1M |
| DeepSeek V3 输出价格 | $0.70 / 1M | $1.10 / 1M |
| 微调 | 否 | 是 |
| 专属推理端点 | 否 | 是 |
| Embeddings · 图像 | 否 | 是 |
| 兼容 OpenAI 的聊天 | 是 | 是 |
| 最低充值 | $5 | $25 |
价格(每百万 token,USD)
共享开源模型的公开挂牌价格以 2026 年 4 月为准。
| 模型 | QSP 输入 | QSP 输出 | Together 输入 | Together 输出 | 输出节省 |
|---|---|---|---|---|---|
| DeepSeek V3 | $0.24 | $0.70 | $0.27 | $1.10 | ~36% |
| DeepSeek R1 | $0.40 | $1.70 | $3.00 | $7.00 | ~76% |
| Qwen3.5-35B-A3B | $0.13 | $1.00 | 相当 | — | |
一个以 R1 为主的推理工作负载 — 比如每天 200k 输入 + 3M 输出 token(R1 的长思维链吃输出)— 每日账单在 QuickSilver Pro 上为 $5.18,在 Together AI 上为 $21.06。就我们所知,R1 输出价差是各代理商中最大的一项节省。
迁移 — 只需两行
from openai import OpenAI
client = OpenAI(
base_url="https://api.together.xyz/v1",
api_key=os.environ["TOGETHER_KEY"],
)
r = client.chat.completions.create(
model="deepseek-ai/DeepSeek-R1",
messages=[{"role": "user", "content": "Hi"}],
)
from openai import OpenAI
client = OpenAI(
base_url="https://api.quicksilverpro.io/v1",
api_key=os.environ["QSP_KEY"],
)
r = client.chat.completions.create(
model="deepseek-r1",
messages=[{"role": "user", "content": "Hi"}],
)
deepseek-ai/DeepSeek-V3 → deepseek-v3deepseek-ai/DeepSeek-R1 → deepseek-r1Qwen/Qwen3.5-35B-A3B → qwen3.5-35b诚实的取舍
- ›你的工作负载以 DeepSeek R1 输出为主 — 节省非常可观。
- ›你只需要在 DeepSeek V3、R1 或 Qwen3.5-35B-A3B 上做 chat completions。
- ›你想要 $5 起充,按量付费。
- ›你要微调定制模型或预留专属 GPU 端点。
- ›你要用 Llama、Mistral,或他们更广泛的开源模型目录。
- ›你需要 embeddings、图像生成或非聊天类多模态能力。
- ›你需要带罚则的企业级 SLA — Together 提供这种合同,过渡阶段的我们不提供。
- ›你想用他们提供的微调服务,搭配他们的训练栈和 LoRA adapter 托管。
- ›你正在构建 Mixture of Agents 多模型路由(MoA)的应用,由 Together 在一次调用里编排多个开源模型。
Together 是一个包含微调、专属端点和多模态的全能推理平台。QuickSilver Pro 有意做得更窄 — 三款模型,兼容 OpenAI 的聊天,最低的每 token 价格。
常见问题
QuickSilver Pro 在 DeepSeek R1 上便宜多少?
DeepSeek R1 上,输入便宜约 87%,输出便宜约 76%。Together 每百万 token 收 $3.00/$7.00;QuickSilver Pro 收 $0.40/$1.70。
从 Together AI 怎么迁移?
把 base_url 从 api.together.xyz/v1 改为 api.quicksilverpro.io/v1,换 API 密钥,模型 ID 去掉 deepseek-ai/ 或 Qwen/ 前缀。
什么时候应该继续使用 Together AI?
如果你微调定制模型、预留专属 GPU 端点、使用 Llama 或 Mistral,或需要 embeddings / 图像生成。QuickSilver Pro 只在三款模型上提供 chat completions。
OpenAI 功能都有吗?
聊天相关的都有:流式输出、工具、json_schema、usage.cost 都能通过官方 OpenAI SDK 工作。
每月成本拆解
一个以推理为主的工作负载,DeepSeek R1 在 Together 上 4× 的加价会格外刺眼 — 比如一个生成长思维链的数学辅导或形式化验证代理。每月用量:5M input tokens 和 2M output tokens,全部跑在 R1 上。
5M × $0.40 = $2.00
2M × $1.70 = $3.40
————————————————
Total = $5.40/mo
5M × $3.00 = $15.00 2M × $7.00 = $14.00 ———————————————— Total = $29.00/mo
也就是每月省 $23.60,约 81% 的折扣。把它放到量级 10× 的生产级推理 API,全年差价就是约 $2,832 — 这个数字够财务团队追问省出来的钱来自哪里了。R1 的输出单价是复核一张账单最敏感的地方。
可用性与可靠性
QuickSilver Pro 目前处于过渡阶段:请求会在多个提供同一份开源权重的上游推理服务商之间做路由。如果某一个上游降级或打满容量,路由会回退到下一个。每个模型的可用性和 p50 / p95 延迟都发布在我们的状态页。我们将在 2026 Q2 上线自有的 GPU 容量,届时路由模式会改变,SLA 也会更硬。
Together AI 自建 GPU 集群,并在 status.together.ai 公开状态页和事故历史。他们在预留容量和专属端点部署上提供带合同的企业级 SLA — 如果你的工作负载对延迟敏感或有合规要求,这值得和他们认真谈一谈。在默认的 serverless chat 上,两家平台都依赖共享的推理基础设施,并公开透明的运行数据;在这个对比里真正值得关心的差异是每 token 单价,而不是入门层的 SLA 档位。