Для чего подходит Qwen3.5-35B-A3B?

Qwen3.5-35B-A3B — это MoE-модель с 35B параметров и всего 3B активных на токен, с контекстом 262 144 токена. Она особенно хорошо подходит для RAG по длинным документам, мультидокументной суммаризации и рабочих процессов, где в промпт попадает большой объём извлечённого контекста. MoE-архитектура означает, что модель работает со скоростью и по цене dense-модели 3B, имея при этом 35B общих параметров.

Сколько стоит API Qwen3.5-35B-A3B?

На QuickSilver Pro: $0.13 за миллион входных токенов и $1.00 за миллион выходных. Для RAG-пайплайна с 50k входных токенов извлечённого контекста на запрос и 500 выходных токенов в ответе это $0.0065 вход + $0.0005 выход = ~$0.007 за запрос, или $7 за 1000 запросов.

Когда использовать Qwen3.5-35B-A3B, а когда DeepSeek V3?

Используйте Qwen3.5-35B-A3B, когда промпт большой — обычно >32K токенов извлечённого контекста или длинный документ для суммаризации. Его окно контекста 262K в 2 раза больше, чем у DeepSeek V3 (131K), а цена за входной токен на 46% ниже. Для задач с короткими промптами (чат, код, извлечение) у DeepSeek V3 сильнее общее рассуждение при сопоставимой цене выхода.

Qwen3.5-35B-A3B — это та же модель, что и Qwen3?

Qwen3.5-35B-A3B — MoE-вариант на 35B параметров с 3B активных — отдельная модель от dense- и более крупных MoE-вариантов Qwen3. A3B означает количество активных 3B. Оптимизирована для нагрузок с длинным контекстом, где узкое место — вычисление на токен.

Сценарий · RAG на длинном контексте

Qwen3.5-35B-A3B для длинного контекста

Qwen3.5-35B-A3B — MoE-модель 35B параметров, у которой активно только 3B на токен, и окно контекста 262K. MoE позволяет запускать её по цене dense-модели 3B, сохраняя базу знаний 35B — идеально для RAG и рабочих процессов с длинными документами. По цене $0.13 вход / $1.00 выход за 1M токенов это самая дешёвая по входному токену модель в нашем каталоге.

Почему подходит для RAG

Контекст 262K

Вмещает PDF на 500 страниц или 200 файлов кода в один промпт. Нет нужды в агрессивном чанкинге, если извлечённый корпус помещается; однопроходный RAG упрощает ваш пайплайн.

Низкая цена ввода

$0.13 за 1M входных токенов — RAG-промпт на 100K токенов стоит $0.013. DeepSeek V3 по $0.24/1M стоил бы $0.024 за тот же промпт — на 46% дороже.

Скорость MoE

Активны только 3B параметров на токен, поэтому скорость инференса ближе к dense-модели 3B, чем к 35B. На рабочих процессах с длинным вводом это проявляется как заметно более низкая задержка на запрос.

Quickstart: QA по длинному документу

Python · openai SDK

from openai import OpenAI

client = OpenAI(
    base_url="https://api.quicksilverpro.io/v1",
    api_key="sk-qsp-...",
)

# Load a long document — say a 500-page PDF, already extracted to text
document = open("annual-report.txt").read()  # ~180K tokens

resp = client.chat.completions.create(
    model="qwen3.5-35b",
    messages=[
        {"role": "system", "content": "You answer questions using only the provided document."},
        {"role": "user", "content": f"Document:\n{document}\n\nQuestion: What was free cash flow in Q3?"},
    ],
    max_tokens=500,
)
print(resp.choices[0].message.content)
print(f"Input tokens: {resp.usage.prompt_tokens}, cost: ${resp.usage.cost:.4f}")

Документ на 180K токенов + ответ на 500 выходных токенов обходится в $0.0234 + $0.0005 = ~$0.024 за запрос. Тот же запрос на DeepSeek V3 (если бы влез): $0.0432 + $0.00035 = $0.044.

Паттерн RAG-пайплайна

Простой однопроходный: если извлечённый контекст помещается в 262K токенов, пропустите реранкинг и иерархическую суммаризацию — подавайте всё в Qwen3.5-35B-A3B одним вызовом. Меньше сложность пайплайна, ниже задержка.

С retrieval: эмбеддинги → top-K извлечение → склейка в промпт на 50-100K токенов → ответ Qwen3.5-35B-A3B. Экономика входа поощряет больший top-K (больше контекста), потому что входные токены дешёвые.

Сначала суммаризация, потом ответ: для корпусов >262K сначала суммаризируйте по разделам с Qwen3.5-35B-A3B, затем отвечайте по суммаризациям. В два прохода; всё равно дешевле большинства альтернатив.

Цены

Модель	Вход / 1M	Выход / 1M	Контекст
Qwen3.5-35B-A3B	$0.13	$1.00	262K
DeepSeek V3 (для сравнения)	$0.24	$0.70	131K

При цене на 46% ниже за входной токен Qwen3.5-35B-A3B — дефолт для RAG с тяжёлыми промптами. Выход чуть дороже, чем у V3, поэтому для задач с короткими промптами V3 всё ещё предпочтительнее.

FAQ

Можно ли реально использовать 262K токенов в одном промпте?

Да. 262 144 токена — опубликованный жёсткий лимит. Качество на длинном контексте (needle-in-a-haystack) сильное примерно до 200K; дальше на точечном поиске могут падать метрики. Для критичного retrieval комбинируйте с векторным поиском, чтобы наиболее релевантные фрагменты оказались ближе к началу промпта.

Что такое «3B активных MoE»?

Mixture-of-Experts маршрутизирует каждый токен только через подмножество параметров модели. У Qwen3.5-35B-A3B всего 35B параметров, но активируется лишь 3B на токен. Вычисления на токен — как у dense-модели 3B; ёмкость знаний ближе к 35B-модели. В итоге инференс быстрее и дешевле, чем у dense 35B, поэтому нагрузки с длинным контекстом — особенно хороший сценарий.

Влияет ли режим размышления на стоимость?

У Qwen3.5-35B-A3B есть режим reasoning. На QuickSilver Pro режим reasoning по умолчанию подавлен, чтобы вывод был кратким и предсказуемым — вы не платите за ненужные thinking-токены. Это соответствует тому, что ожидают большинство RAG- и summarization-нагрузок.

Поддерживает ли Qwen tool calling?

Да, через OpenAI tools API. Надёжность вызова инструментов хорошая для простых сигнатур функций; для сложных агентных петель с несколькими инструментами DeepSeek V3 обычно надёжнее. Протестируйте оба на конкретном агенте перед выбором.

Смежные страницы

V3 для программирования → R1 для reasoning → против OpenRouter → Все страницы →