Qwen3.5-35B-A3B для длинного контекста
Qwen3.5-35B-A3B — MoE-модель 35B параметров, у которой активно только 3B на токен, и окно контекста 262K. MoE позволяет запускать её по цене dense-модели 3B, сохраняя базу знаний 35B — идеально для RAG и рабочих процессов с длинными документами. По цене $0.13 вход / $1.00 выход за 1M токенов это самая дешёвая по входному токену модель в нашем каталоге.
Почему подходит для RAG
Вмещает PDF на 500 страниц или 200 файлов кода в один промпт. Нет нужды в агрессивном чанкинге, если извлечённый корпус помещается; однопроходный RAG упрощает ваш пайплайн.
$0.13 за 1M входных токенов — RAG-промпт на 100K токенов стоит $0.013. DeepSeek V3 по $0.24/1M стоил бы $0.024 за тот же промпт — на 46% дороже.
Активны только 3B параметров на токен, поэтому скорость инференса ближе к dense-модели 3B, чем к 35B. На рабочих процессах с длинным вводом это проявляется как заметно более низкая задержка на запрос.
Quickstart: QA по длинному документу
from openai import OpenAI
client = OpenAI(
base_url="https://api.quicksilverpro.io/v1",
api_key="sk-qsp-...",
)
# Load a long document — say a 500-page PDF, already extracted to text
document = open("annual-report.txt").read() # ~180K tokens
resp = client.chat.completions.create(
model="qwen3.5-35b",
messages=[
{"role": "system", "content": "You answer questions using only the provided document."},
{"role": "user", "content": f"Document:\n{document}\n\nQuestion: What was free cash flow in Q3?"},
],
max_tokens=500,
)
print(resp.choices[0].message.content)
print(f"Input tokens: {resp.usage.prompt_tokens}, cost: ${resp.usage.cost:.4f}")
Документ на 180K токенов + ответ на 500 выходных токенов обходится в $0.0234 + $0.0005 = ~$0.024 за запрос. Тот же запрос на DeepSeek V3 (если бы влез): $0.0432 + $0.00035 = $0.044.
Паттерн RAG-пайплайна
Простой однопроходный: если извлечённый контекст помещается в 262K токенов, пропустите реранкинг и иерархическую суммаризацию — подавайте всё в Qwen3.5-35B-A3B одним вызовом. Меньше сложность пайплайна, ниже задержка.
С retrieval: эмбеддинги → top-K извлечение → склейка в промпт на 50-100K токенов → ответ Qwen3.5-35B-A3B. Экономика входа поощряет больший top-K (больше контекста), потому что входные токены дешёвые.
Сначала суммаризация, потом ответ: для корпусов >262K сначала суммаризируйте по разделам с Qwen3.5-35B-A3B, затем отвечайте по суммаризациям. В два прохода; всё равно дешевле большинства альтернатив.
Цены
| Модель | Вход / 1M | Выход / 1M | Контекст |
|---|---|---|---|
| Qwen3.5-35B-A3B | $0.13 | $1.00 | 262K |
| DeepSeek V3 (для сравнения) | $0.24 | $0.70 | 131K |
При цене на 46% ниже за входной токен Qwen3.5-35B-A3B — дефолт для RAG с тяжёлыми промптами. Выход чуть дороже, чем у V3, поэтому для задач с короткими промптами V3 всё ещё предпочтительнее.
FAQ
Можно ли реально использовать 262K токенов в одном промпте?
Да. 262 144 токена — опубликованный жёсткий лимит. Качество на длинном контексте (needle-in-a-haystack) сильное примерно до 200K; дальше на точечном поиске могут падать метрики. Для критичного retrieval комбинируйте с векторным поиском, чтобы наиболее релевантные фрагменты оказались ближе к началу промпта.
Что такое «3B активных MoE»?
Mixture-of-Experts маршрутизирует каждый токен только через подмножество параметров модели. У Qwen3.5-35B-A3B всего 35B параметров, но активируется лишь 3B на токен. Вычисления на токен — как у dense-модели 3B; ёмкость знаний ближе к 35B-модели. В итоге инференс быстрее и дешевле, чем у dense 35B, поэтому нагрузки с длинным контекстом — особенно хороший сценарий.
Влияет ли режим размышления на стоимость?
У Qwen3.5-35B-A3B есть режим reasoning. На QuickSilver Pro режим reasoning по умолчанию подавлен, чтобы вывод был кратким и предсказуемым — вы не платите за ненужные thinking-токены. Это соответствует тому, что ожидают большинство RAG- и summarization-нагрузок.
Поддерживает ли Qwen tool calling?
Да, через OpenAI tools API. Надёжность вызова инструментов хорошая для простых сигнатур функций; для сложных агентных петель с несколькими инструментами DeepSeek V3 обычно надёжнее. Протестируйте оба на конкретном агенте перед выбором.
Смежные страницы
Начните RAG на $1 бесплатно
Контекст 262K, совместимый с OpenAI API, model="qwen3.5-35b".