QuickSilver Pro vs Fireworks AI
Fireworks AI использует собственный GPU-парк и ставит премиальные цены на DeepSeek — $3.00 / $8.00 за 1M токенов на R1. QuickSilver Pro отдаёт ту же модель по $0.40 / $1.70. На DeepSeek V3 мы ~на 20% дешевле; на R1 — ~на 79% дешевле на выходе. Тот же совместимый с OpenAI интерфейс, миграция в две строки.
Кратко
| Характеристика | QuickSilver Pro | Fireworks AI |
|---|---|---|
| Фокус каталога | 3 открытые модели | Много открытых моделей + vision + файн-тюнинг |
| Цена выхода DeepSeek R1 | $1.70 / 1M | $8.00 / 1M |
| Цена выхода DeepSeek V3 | $0.70 / 1M | $0.90 / 1M |
| Файн-тюнинг · деплои | Нет | Да |
| FireFunction V2 (модель для tool calling) | Нет | Да |
| Модели для изображений · аудио | Нет | Да |
| Совместимый с OpenAI чат | Да | Да |
| Минимальное пополнение | $5 | Зависит |
Цены (за миллион токенов, USD)
Публичные прайс-листы по состоянию на апрель 2026 года на общих открытых моделях.
| Модель | QSP вход | QSP выход | Fireworks вход | Fireworks выход | Экономия на выходе |
|---|---|---|---|---|---|
| DeepSeek V3 | $0.24 | $0.70 | $0.30 | $0.90 | ~22% |
| DeepSeek R1 | $0.40 | $1.70 | $3.00 | $8.00 | ~79% |
| Qwen3.5-35B-A3B | $0.13 | $1.00 | Сопоставимо | — | |
Для агентной нагрузки на DeepSeek R1 — 500k входных + 2M выходных токенов в день — ежедневный счёт составляет $3.60 на QuickSilver Pro против $17.50 на Fireworks AI.
Миграция — две строки
from openai import OpenAI
client = OpenAI(
base_url="https://api.fireworks.ai/inference/v1",
api_key=os.environ["FIREWORKS_KEY"],
)
r = client.chat.completions.create(
model="accounts/fireworks/models/deepseek-r1",
messages=[{"role": "user", "content": "Hi"}],
)
from openai import OpenAI
client = OpenAI(
base_url="https://api.quicksilverpro.io/v1",
api_key=os.environ["QSP_KEY"],
)
r = client.chat.completions.create(
model="deepseek-r1",
messages=[{"role": "user", "content": "Hi"}],
)
accounts/fireworks/models/deepseek-v3 → deepseek-v3accounts/fireworks/models/deepseek-r1 → deepseek-r1accounts/fireworks/models/qwen3.5-35b-a3b → qwen3.5-35bЧестные компромиссы
- ›Вам нужен DeepSeek R1 по ценам, рассчитанным на масштаб.
- ›Вся ваша нагрузка — chat-completions на DeepSeek V3, R1 или Qwen3.5-35B-A3B.
- ›Нужна оплата по факту с минимумом $5.
- ›Вы используете FireFunction V2 или их файн-тюненные модели для tool calling.
- ›Выделенные деплои или файн-тюнинг — часть вашего стека.
- ›Нужны модели изображений, аудио или семейства Llama.
- ›Вы используете их first-party эндпоинты Whisper или Stable Diffusion — мы не обслуживаем ASR и генерацию изображений.
- ›Вы хостите LoRA-адаптеры или используете их сервис файн-тюнинга, чтобы выкатывать специализированные варианты по serverless-ценам.
- ›Вы строите compound AI systems (f1 / compound models), где несколько моделей оркестрируются на сервере в одном вызове.
FAQ
Насколько дешевле на DeepSeek R1?
~87% на входе, ~79% на выходе. Fireworks берёт $3.00/$8.00 за 1M токенов для R1; QuickSilver Pro берёт $0.40/$1.70.
Как мигрировать?
Две строки: поменяйте base_url на api.quicksilverpro.io/v1, замените API-ключ, уберите префикс accounts/fireworks/models/ у ID моделей.
Задержка сопоставима?
В пределах 10% по p50 на V3 и Qwen; чуть выше на R1. Живая задержка по моделям — на quicksilverpro.io/status.
Поддерживаете ли FireFunction V2?
Нет. FireFunction V2 — проприетарная файн-тюненая модель Fireworks, её нет в каталоге QuickSilver Pro. Для tool calling и DeepSeek V3, и Qwen3.5-35B-A3B поддерживают OpenAI tools / function calling API.
Разбор месячных расходов
Long-context RAG-пайплайн — document Q&A с крупными retrieved-chunk промптами, в основном DeepSeek V3 для генерации, плюс вспышки R1 на самых сложных вопросах. Месячный профиль: 80M входных токенов и 12M выходных токенов на V3, плюс 2M вход / 0.5M выход на R1.
V3 80M × $0.24 = $19.20
V3 12M × $0.70 = $ 8.40
R1 2M × $0.40 = $ 0.80
R1 0.5M × $1.70 = $ 0.85
—————————————————————
Итого = $29.25/мес
V3 80M × $0.30 = $24.00 V3 12M × $0.90 = $10.80 R1 2M × $3.00 = $ 6.00 R1 0.5M × $8.00 = $ 4.00 ————————————————————— Итого = $44.80/мес
Это $15.55 экономии в месяц, ~35% меньше. Строка по V3-входу доминирует на таком объёме (высокое соотношение input : output типично для RAG), но вспышки R1 всё равно дают непропорционально большую экономию на каждом токене. За год этот пайплайн экономит ~$186, не меняя ни качество ретривала, ни структуру промптов. Если ваш RAG включает reranker-шаг на базе LLM или расширение запроса — обычно такие подшаги идут на V3 и ещё больше увеличивают долю входных токенов, так что разница за год на таких пайплайнах уходит ближе к ~$250.
Аптайм и надёжность
QuickSilver Pro сейчас в переходной фазе: запросы маршрутизируются через несколько upstream-провайдеров инференса на одних и тех же открытых весах. Если один upstream деградирует, роутер уходит на следующий. Доступность по моделям и p50 / p95 латентность публикуются на нашей статусной странице. В Q2 2026 мы переходим на собственные GPU-мощности и тогда опубликуем более жёсткие SLO.
Fireworks AI держит собственный GPU-флот и публикует статусную страницу на status.fireworks.ai с аптаймом и историей инцидентов. Они first-party оператор от и до — это хорошо для тюнинга латентности и предсказуемости на выделенных деплоях. Если p99-хвост латентности или контрактный SLA — жёсткое требование, first-party флот — консервативный выбор. Наша ставка в том, что для большинства команд разработчиков на serverless-чате ценовая разница перевешивает разницу в фазе — но честно оцените свои требования перед переходом. Пользовательский трафик, завязанный на realtime UX (чат-интерфейсы с видимым печатающим курсором), чувствует эту разницу острее, чем batch-ориентированные пайплайны.
Другие посредники по DeepSeek R1
Попробуйте на $1 бесплатных кредитов
OpenAI SDK не меняется. Поменяйте base URL, поменяйте ключ, запускайте.
Получить API-ключ