Главная / Сценарии использования / Qwen3.5-35B-A3B для длинного контекста
Сценарий · RAG на длинном контексте

Qwen3.5-35B-A3B для длинного контекста

Qwen3.5-35B-A3B — MoE-модель 35B параметров, у которой активно только 3B на токен, и окно контекста 262K. MoE позволяет запускать её по цене dense-модели 3B, сохраняя базу знаний 35B — идеально для RAG и рабочих процессов с длинными документами. По цене $0.13 вход / $1.00 выход за 1M токенов это самая дешёвая по входному токену модель в нашем каталоге.

Почему подходит для RAG

Контекст 262K

Вмещает PDF на 500 страниц или 200 файлов кода в один промпт. Нет нужды в агрессивном чанкинге, если извлечённый корпус помещается; однопроходный RAG упрощает ваш пайплайн.

Низкая цена ввода

$0.13 за 1M входных токенов — RAG-промпт на 100K токенов стоит $0.013. DeepSeek V3 по $0.24/1M стоил бы $0.024 за тот же промпт — на 46% дороже.

Скорость MoE

Активны только 3B параметров на токен, поэтому скорость инференса ближе к dense-модели 3B, чем к 35B. На рабочих процессах с длинным вводом это проявляется как заметно более низкая задержка на запрос.

Quickstart: QA по длинному документу

Python · openai SDK
from openai import OpenAI

client = OpenAI(
    base_url="https://api.quicksilverpro.io/v1",
    api_key="sk-qsp-...",
)

# Load a long document — say a 500-page PDF, already extracted to text
document = open("annual-report.txt").read()  # ~180K tokens

resp = client.chat.completions.create(
    model="qwen3.5-35b",
    messages=[
        {"role": "system", "content": "You answer questions using only the provided document."},
        {"role": "user", "content": f"Document:\n{document}\n\nQuestion: What was free cash flow in Q3?"},
    ],
    max_tokens=500,
)
print(resp.choices[0].message.content)
print(f"Input tokens: {resp.usage.prompt_tokens}, cost: ${resp.usage.cost:.4f}")

Документ на 180K токенов + ответ на 500 выходных токенов обходится в $0.0234 + $0.0005 = ~$0.024 за запрос. Тот же запрос на DeepSeek V3 (если бы влез): $0.0432 + $0.00035 = $0.044.

Паттерн RAG-пайплайна

Простой однопроходный: если извлечённый контекст помещается в 262K токенов, пропустите реранкинг и иерархическую суммаризацию — подавайте всё в Qwen3.5-35B-A3B одним вызовом. Меньше сложность пайплайна, ниже задержка.

С retrieval: эмбеддинги → top-K извлечение → склейка в промпт на 50-100K токенов → ответ Qwen3.5-35B-A3B. Экономика входа поощряет больший top-K (больше контекста), потому что входные токены дешёвые.

Сначала суммаризация, потом ответ: для корпусов >262K сначала суммаризируйте по разделам с Qwen3.5-35B-A3B, затем отвечайте по суммаризациям. В два прохода; всё равно дешевле большинства альтернатив.

Цены

Модель Вход / 1M Выход / 1M Контекст
Qwen3.5-35B-A3B $0.13 $1.00 262K
DeepSeek V3 (для сравнения) $0.24 $0.70 131K

При цене на 46% ниже за входной токен Qwen3.5-35B-A3B — дефолт для RAG с тяжёлыми промптами. Выход чуть дороже, чем у V3, поэтому для задач с короткими промптами V3 всё ещё предпочтительнее.

FAQ

Можно ли реально использовать 262K токенов в одном промпте?

Да. 262 144 токена — опубликованный жёсткий лимит. Качество на длинном контексте (needle-in-a-haystack) сильное примерно до 200K; дальше на точечном поиске могут падать метрики. Для критичного retrieval комбинируйте с векторным поиском, чтобы наиболее релевантные фрагменты оказались ближе к началу промпта.

Что такое «3B активных MoE»?

Mixture-of-Experts маршрутизирует каждый токен только через подмножество параметров модели. У Qwen3.5-35B-A3B всего 35B параметров, но активируется лишь 3B на токен. Вычисления на токен — как у dense-модели 3B; ёмкость знаний ближе к 35B-модели. В итоге инференс быстрее и дешевле, чем у dense 35B, поэтому нагрузки с длинным контекстом — особенно хороший сценарий.

Влияет ли режим размышления на стоимость?

У Qwen3.5-35B-A3B есть режим reasoning. На QuickSilver Pro режим reasoning по умолчанию подавлен, чтобы вывод был кратким и предсказуемым — вы не платите за ненужные thinking-токены. Это соответствует тому, что ожидают большинство RAG- и summarization-нагрузок.

Поддерживает ли Qwen tool calling?

Да, через OpenAI tools API. Надёжность вызова инструментов хорошая для простых сигнатур функций; для сложных агентных петель с несколькими инструментами DeepSeek V3 обычно надёжнее. Протестируйте оба на конкретном агенте перед выбором.

Смежные страницы

Начните RAG на $1 бесплатно

Контекст 262K, совместимый с OpenAI API, model="qwen3.5-35b".

Получить API-ключ