首页 / 使用场景 / Qwen3.5-35B-A3B 长上下文
场景 · 长上下文 RAG

Qwen3.5-35B-A3B 长上下文

Qwen3.5-35B-A3B 是一款 35B 参数的 MoE 模型,每 token 只激活 3B,上下文窗口 262K。MoE 让它在保持 35B 知识库的同时,成本接近 3B 稠密模型 — 是 RAG 和长文档工作流的理想选择。价格为 每百万 token $0.13 输入 / $1.00 输出,是我们目录里每输入 token 最便宜的模型。

为什么适合 RAG

262K 上下文

一次放进一份 500 页 PDF 或 200 个代码文件。如果检索到的语料能装下,就不需要激进切片;单次 RAG 简化了整条管线。

低输入成本

每百万输入 token $0.13 意味着一次 100K token 的 RAG prompt 成本 $0.013。同样 prompt 用 $0.24/1M 的 DeepSeek V3 则是 $0.024 — 贵 46%。

MoE 速度

每 token 只激活 3B 参数,推理速度更接近 3B 稠密模型而非 35B 稠密模型。对于长输入工作流,这表现为每请求延迟明显更低。

快速上手:长文档问答

Python · openai SDK
from openai import OpenAI

client = OpenAI(
    base_url="https://api.quicksilverpro.io/v1",
    api_key="sk-qsp-...",
)

# 加载一份长文档 — 比如已抽取为文本的 500 页 PDF
document = open("annual-report.txt").read()  # ~180K tokens

resp = client.chat.completions.create(
    model="qwen3.5-35b",
    messages=[
        {"role": "system", "content": "You answer questions using only the provided document."},
        {"role": "user", "content": f"Document:\n{document}\n\nQuestion: What was free cash flow in Q3?"},
    ],
    max_tokens=500,
)
print(resp.choices[0].message.content)
print(f"Input tokens: {resp.usage.prompt_tokens}, cost: ${resp.usage.cost:.4f}")

一份 180K token 的文档 + 500 输出 token 的回答,单次查询成本为 $0.0234 + $0.0005 = 约 $0.024。同一查询在 DeepSeek V3 上(如果能装下):$0.0432 + $0.00035 = $0.044。

RAG 管线模式

简单单次:如果检索到的上下文能装进 262K token,跳过重排序和分层摘要 — 一次性喂给 Qwen3.5-35B-A3B 就行。管线复杂度降低,延迟降低。

带检索:embed → top-K 检索 → 拼接为 50-100K token prompt → Qwen3.5-35B-A3B 回答。输入成本经济性倾向于使用更大的 top-K(更多上下文),因为输入 token 便宜。

先摘要后回答:对 >262K 的语料,先用 Qwen3.5-35B-A3B 分段摘要,再在摘要上作答。两轮处理仍比大多数替代方案便宜。

价格

模型 输入 / 1M 输出 / 1M 上下文
Qwen3.5-35B-A3B $0.13 $1.00 262K
DeepSeek V3(对比) $0.24 $0.70 131K

每输入 token 便宜 46%,Qwen3.5-35B-A3B 是 prompt 密集型 RAG 的默认选择。输出略贵于 V3,所以短 prompt 任务仍然偏向 V3。

常见问题

真的能在一个 prompt 里用 262K tokens 吗?

能。262,144 tokens 是公开的硬限制。长上下文表现(大海捞针)在约 200K 以内表现强劲;超过之后,细粒度查找任务的准确率可能下降。对关键检索,建议配合向量检索把最相关的片段放在 prompt 靠前位置。

"3B 激活 MoE" 是什么意思?

混合专家会把每个 token 只路由到模型参数的一个子集。Qwen3.5-35B-A3B 总参数 35B,但每 token 只激活 3B。每 token 计算量相当于 3B 稠密模型;知识容量接近 35B 模型。结果是比稠密 35B 更快、更便宜的推理,这也是长上下文工作负载特别合适的原因。

思考模式会影响成本吗?

Qwen3.5-35B-A3B 支持推理模式。在 QuickSilver Pro 上默认关闭推理模式,让输出简洁可预测 — 你不会为不必要的思考 token 付费。这符合大多数 RAG 和摘要工作负载的预期。

Qwen 支持工具调用吗?

通过 OpenAI tools API 支持。简单函数签名下工具调用可靠性不错;复杂的多工具代理循环下,DeepSeek V3 通常更可靠。实际选型前请针对你的具体代理进行基准测试。

相关

用 $1 免费额度开始做 RAG

262K 上下文,兼容 OpenAI 接口,model="qwen3.5-35b"

获取 API 密钥