Лучшие открытые LLM · на 20% дешевле посредников

Inference на открытых моделях,
на 20% ниже рынка.

Самые популярные открытые модели — DeepSeek V3, DeepSeek R1, Qwen3.5-35B-A3B — через API, совместимый с OpenAI. Дешевле любого посредника. Меняется одна строка кода.

Без подписки
Совместим с OpenAI
Оплата по факту
python
# Одна строка — и всё.
from openai import OpenAI

client = OpenAI(
    base_url="https://api.quicksilverpro.io/v1",
    api_key="your-api-key",
)
Цены

Самый дешёвый inference на открытых моделях

За миллион токенов · сравнение с OpenRouter, Together AI, Fireworks.

Модель Контекст Вход Выход Экономия
Qwen3.5-35B-A3B
qwen3.5-35b
Подходит для RAG на длинном контексте, суммаризация
262K $0.13 $0.16 $1.00 $1.25 −20%
DeepSeek V3
По умолчанию
deepseek-v3
Подходит для чата, кода, структурированного вывода
128K $0.24 $0.30 $0.70 $0.88 −20%
DeepSeek R1 Reasoning
deepseek-r1
Подходит для математики, многошагового рассуждения, логики
128K $0.40 $0.50 $1.70 $2.15 −20%

Сравнение с OpenRouter, Together AI и Fireworks AI. Цены по состоянию на апрель 2026 года.

Модели с размышлением (Qwen3.5-35B-A3B, DeepSeek R1): каждый запрос тратит «reasoning-токены» внутри (обычно 500–8000), которые тарифицируются по цене выхода. max_tokens ограничивает только видимый content, а не размышление. DeepSeek R1 возвращает reasoning в поле message.reasoning_content; Qwen3.5-35B-A3B прячет его (как по умолчанию в OpenRouter). Для дешёвых одноразовых задач лучше взять deepseek-v3.

Почему мы на 20% дешевле (и это не обман)

Мы компания inference-инфраструктуры, а не посредник. 20% разницы — это инженерия, а не урезание маржи, и этот разрыв будет только расти по мере того, как мы переносим больше стека в свою инфраструктуру.

1
Сейчас: переходный этап, пока подключаем собственные GPU
Временная тактика, чтобы клиенты экономили 20% уже сегодня. Мы ведём live-бенчмарки всех крупных провайдеров inference для открытых моделей и отправляем каждый запрос на самый дешёвый работоспособный backend в эту секунду. Фокус всего на трёх моделях позволяет держать таблицу маршрутизации компактной и дешёвой в поддержке — экономия идёт клиенту. Постоянный стек — это Фаза 2.
2
Дальше: собственный inference-стек на выделенных GPU
Мы строим самостоятельный serving-слой на H100/H200 (сначала Vast.ai, потом colocation) на SGLang + continuous batching, EAGLE-3 speculative decoding, FP8-квантизации через DeepGEMM и собственных ядрах SageAttention / ThunderMLA. Все эти техники опубликованы; мы занимаемся их интеграцией и выводом в production. Цель — ещё минус 30–50% к текущим ценам на DeepSeek V3.
3
Почему путь только через открытые модели
Веса публичны — мы реально можем их запускать и оптимизировать. Закрытые модели (GPT-4, Claude) веса не показывают, поэтому никакая инфраструктурная работа не сделает их дешевле. Именно поэтому в нашем каталоге три открытые модели, которые мы можем проверять, маршрутизировать и в итоге хостить сами, — а не 150 моделей, половина из которых перепродажа, которую мы никак не контролируем.
Новое Командная строка

CLI qsp

Сделано для терминалов и AI-агентов. Каждая команда поддерживает --json и стабильные exit-коды — Claude Code, Cursor, Aider и другие агенты вызывают её напрямую, без парсинга HTML.

# установка — macOS / Linux
$ brew install machinefi/qspro/qspro
# или Python где угодно
$ pipx install quicksilverpro
# вход и начало работы
$ qsp init
$ qsp chat "Напиши хайку"
$ qsp balance
$ qsp models
# удобно для агентов — pipes + JSON
$ qsp chat "..." --json | jq .usage.cost

Замена OpenAI без переписывания кода

Работает с любым OpenAI SDK. Поменяйте base_url — и всё.

Платите только за использование

Пополняйте на любую сумму. Кредиты не сгорают. Тарификация по токенам, без минимумов.

Готово для production

Автоматические повторы, стриминг, rate limiting. Доступны live-статус и корпоративный DPA.

FAQ

Частые вопросы

Что такое QuickSilver Pro?

Совместимый с OpenAI HTTP API для ведущих открытых LLM — DeepSeek V3, DeepSeek R1 и Qwen3.5-35B-A3B. Направьте официальный OpenAI SDK на наш base URL и получите тот же интерфейс chat-completions на 20% дешевле, чем у конкурирующих посредников.

Какие модели вы поддерживаете?

DeepSeek V3 (общий чат, код, строгий JSON), DeepSeek R1 (reasoning, математика, логика) и Qwen3.5-35B-A3B (3B активных параметров MoE, 262K контекст, RAG по длинным документам). Все три полностью открыты и входят в топ-3 самых популярных открытых моделей на OpenRouter.

Насколько дешевле, чем OpenRouter / OpenAI?

На 20% ниже публичных цен за токен у OpenRouter, Together AI, Fireworks AI и DeepInfra для тех же открытых моделей. DeepSeek V3: $0.24 вход / $0.70 выход за 1M токенов. DeepSeek R1: $0.40 / $1.70. Qwen3.5-35B-A3B: $0.13 / $1.00. Мы не обслуживаем закрытые модели (GPT-4, Claude).

Это действительно замена OpenAI без переписывания кода?

Да. Поменяйте base_url на https://api.quicksilverpro.io/v1 в официальном openai SDK для Python / Node / Swift. Стриминг, вызов инструментов, строгий режим json_schema и учёт usage.cost работают из коробки. Готовые сниппеты — в Quick Start.

Работает ли с Aider, Cline, Cursor, LangChain и Vercel AI SDK?

Да — работает с любым инструментом, поддерживающим кастомный OpenAI base URL: Aider, Cline, Cursor, Continue, LangChain, LlamaIndex и Vercel AI SDK (через @ai-sdk/openai-compatible). Укажите https://api.quicksilverpro.io/v1 и ваш QSP API-ключ.

Как мигрировать с OpenRouter?

Две строки. Поменяйте base_url с openrouter.ai/api/v1 на api.quicksilverpro.io/v1 и замените API-ключ. У ID моделей убирается префикс провайдера: deepseek/deepseek-chatdeepseek-v3, deepseek/deepseek-r1deepseek-r1, qwen/qwen3.5-35b-a3bqwen3.5-35b.

Есть ли бесплатный тариф?

При регистрации на счёт зачисляется $1 бесплатных кредитов — этого хватит примерно на 50–70 реальных вызовов DeepSeek V3, чтобы оценить сервис. Дальше — оплата по факту от $5, без подписки.

Кто управляет QuickSilver Pro?

QuickSilver Pro — продукт компании MachineFi Inc., C-корпорации штата Делавэр с офисом в Менло-Парке, Калифорния. Мы строим inference-инфраструктуру для открытого AI — ближайшие планы смотрите в roadmap (собственные GPU H100/H200 с SGLang + EAGLE-3 + FP8).

Начните экономить на inference уже сегодня

Создайте аккаунт, пополните баланс и получите API-ключ за 30 секунд.

Получить API-ключ