Qwen3.5-35B-A3B 适合做什么？

Qwen3.5-35B-A3B 是一款 35B 参数的混合专家模型，每 token 只激活 3B 参数，上下文窗口 262,144 tokens。特别适合长文档 RAG、多文档摘要，以及 prompt 中包含大量检索上下文的工作流。MoE 架构意味着虽然总参数 35B，但运行速度和成本接近 3B 稠密模型。

Qwen3.5-35B-A3B API 多少钱？

在 QuickSilver Pro 上：每百万输入 token $0.13，每百万输出 token $1.00。对于每次查询注入 50k 输入 token 检索上下文、产生 500 输出 token 的 RAG 管线，每次查询成本为 $0.0065 输入 + $0.0005 输出 = 约 $0.007，每 1000 次查询约 $7。

Qwen3.5-35B-A3B 与 DeepSeek V3 怎么选？

当 prompt 较大时使用 Qwen3.5-35B-A3B — 通常指 >32K tokens 的检索上下文或要摘要的长文档。它的上下文 262K 是 DeepSeek V3（131K）的 2 倍，每输入 token 成本低 46%。对于短 prompt 任务（聊天、编码、抽取），DeepSeek V3 的综合推理更强，输出价格相当。

Qwen3.5-35B-A3B 和 Qwen3 是同一个模型吗？

Qwen3.5-35B-A3B 是 35B 参数、3B 激活的 MoE 变体 — 与 Qwen3 的稠密版和更大的 MoE 版不同。A3B 表示 3B 激活数。它针对每 token 计算量是瓶颈的长上下文工作负载做了优化。

场景 · 长上下文 RAG

Qwen3.5-35B-A3B 长上下文

Qwen3.5-35B-A3B 是一款 35B 参数的 MoE 模型，每 token 只激活 3B，上下文窗口 262K。MoE 让它在保持 35B 知识库的同时，成本接近 3B 稠密模型 — 是 RAG 和长文档工作流的理想选择。价格为 每百万 token $0.13 输入 / $1.00 输出，是我们目录里每输入 token 最便宜的模型。

为什么适合 RAG

262K 上下文

一次放进一份 500 页 PDF 或 200 个代码文件。如果检索到的语料能装下，就不需要激进切片；单次 RAG 简化了整条管线。

低输入成本

每百万输入 token $0.13 意味着一次 100K token 的 RAG prompt 成本 $0.013。同样 prompt 用 $0.24/1M 的 DeepSeek V3 则是 $0.024 — 贵 46%。

MoE 速度

每 token 只激活 3B 参数，推理速度更接近 3B 稠密模型而非 35B 稠密模型。对于长输入工作流，这表现为每请求延迟明显更低。

快速上手：长文档问答

Python · openai SDK

from openai import OpenAI

client = OpenAI(
    base_url="https://api.quicksilverpro.io/v1",
    api_key="sk-qsp-...",
)

# 加载一份长文档 — 比如已抽取为文本的 500 页 PDF
document = open("annual-report.txt").read()  # ~180K tokens

resp = client.chat.completions.create(
    model="qwen3.5-35b",
    messages=[
        {"role": "system", "content": "You answer questions using only the provided document."},
        {"role": "user", "content": f"Document:\n{document}\n\nQuestion: What was free cash flow in Q3?"},
    ],
    max_tokens=500,
)
print(resp.choices[0].message.content)
print(f"Input tokens: {resp.usage.prompt_tokens}, cost: ${resp.usage.cost:.4f}")

一份 180K token 的文档 + 500 输出 token 的回答，单次查询成本为 $0.0234 + $0.0005 = 约 $0.024。同一查询在 DeepSeek V3 上（如果能装下）：$0.0432 + $0.00035 = $0.044。

RAG 管线模式

简单单次：如果检索到的上下文能装进 262K token，跳过重排序和分层摘要 — 一次性喂给 Qwen3.5-35B-A3B 就行。管线复杂度降低，延迟降低。

带检索：embed → top-K 检索 → 拼接为 50-100K token prompt → Qwen3.5-35B-A3B 回答。输入成本经济性倾向于使用更大的 top-K（更多上下文），因为输入 token 便宜。

先摘要后回答：对 >262K 的语料，先用 Qwen3.5-35B-A3B 分段摘要，再在摘要上作答。两轮处理仍比大多数替代方案便宜。

价格

模型	输入 / 1M	输出 / 1M	上下文
Qwen3.5-35B-A3B	$0.13	$1.00	262K
DeepSeek V3（对比）	$0.24	$0.70	131K

每输入 token 便宜 46%，Qwen3.5-35B-A3B 是 prompt 密集型 RAG 的默认选择。输出略贵于 V3，所以短 prompt 任务仍然偏向 V3。

常见问题

真的能在一个 prompt 里用 262K tokens 吗？

能。262,144 tokens 是公开的硬限制。长上下文表现（大海捞针）在约 200K 以内表现强劲；超过之后，细粒度查找任务的准确率可能下降。对关键检索，建议配合向量检索把最相关的片段放在 prompt 靠前位置。

"3B 激活 MoE" 是什么意思？

混合专家会把每个 token 只路由到模型参数的一个子集。Qwen3.5-35B-A3B 总参数 35B，但每 token 只激活 3B。每 token 计算量相当于 3B 稠密模型；知识容量接近 35B 模型。结果是比稠密 35B 更快、更便宜的推理，这也是长上下文工作负载特别合适的原因。

思考模式会影响成本吗？

Qwen3.5-35B-A3B 支持推理模式。在 QuickSilver Pro 上默认关闭推理模式，让输出简洁可预测 — 你不会为不必要的思考 token 付费。这符合大多数 RAG 和摘要工作负载的预期。

Qwen 支持工具调用吗？

通过 OpenAI tools API 支持。简单函数签名下工具调用可靠性不错；复杂的多工具代理循环下，DeepSeek V3 通常更可靠。实际选型前请针对你的具体代理进行基准测试。

Qwen3.5-35B-A3B 长上下文

为什么适合 RAG

快速上手：长文档问答

RAG 管线模式

价格

常见问题

相关

用 $1 免费额度开始做 RAG