होम / यूज़ केसेज़ / लॉन्ग कॉन्टेक्स्ट के लिए Qwen3.5-35B-A3B
यूज़ केस · लॉन्ग-कॉन्टेक्स्ट RAG

लॉन्ग कॉन्टेक्स्ट के लिए Qwen3.5-35B-A3B

Qwen3.5-35B-A3B एक 35B-पैरामीटर MoE है जिसमें प्रति token केवल 3B एक्टिव और एक 262K कॉन्टेक्स्ट विंडो है। MoE इसे 3B-dense कॉस्ट पर चलने देता है जबकि 35B नॉलेज बेस रखता है — RAG और लॉन्ग-डॉक्यूमेंट वर्कफ़्लोज़ के लिए आदर्श। $0.13 इनपुट / $1.00 आउटपुट प्रति 1M tokens पर, यह हमारे कैटलॉग का सबसे सस्ता प्रति-इनपुट-token मॉडल है।

RAG के लिए यह क्यों फ़िट है

262K कॉन्टेक्स्ट

एक 500-पेज PDF या 200 कोड फ़ाइलों को एक प्रॉम्प्ट में फ़िट करता है। अगर रिट्रीव्ड कॉर्पस फ़िट हो जाए तो आक्रामक चंकिंग की ज़रूरत नहीं; सिंगल-शॉट RAG आपकी पाइपलाइन को सरल बनाता है।

कम इनपुट कॉस्ट

$0.13 प्रति 1M इनपुट tokens का मतलब है कि 100K-token RAG प्रॉम्प्ट की क़ीमत $0.013 है। DeepSeek V3 $0.24/1M पर उसी प्रॉम्प्ट के लिए $0.024 लेगा — 46% ज़्यादा।

MoE स्पीड

प्रति token केवल 3B पैरामीटर एक्टिव होते हैं, इसलिए इनफ़रेंस स्पीड 35B dense से ज़्यादा 3B dense मॉडल के क़रीब है। लॉन्ग-इनपुट वर्कफ़्लोज़ के लिए, यह प्रति-रिक्वेस्ट लेटेंसी में ध्यान देने योग्य कमी के रूप में दिखता है।

Quickstart: लॉन्ग-डॉक्यूमेंट QA

Python · openai SDK
from openai import OpenAI

client = OpenAI(
    base_url="https://api.quicksilverpro.io/v1",
    api_key="sk-qsp-...",
)

# एक लंबा डॉक्यूमेंट लोड करें — मान लीजिए एक 500-पेज PDF, पहले से टेक्स्ट में निकाला हुआ
document = open("annual-report.txt").read()  # ~180K tokens

resp = client.chat.completions.create(
    model="qwen3.5-35b",
    messages=[
        {"role": "system", "content": "You answer questions using only the provided document."},
        {"role": "user", "content": f"Document:\n{document}\n\nQuestion: What was free cash flow in Q3?"},
    ],
    max_tokens=500,
)
print(resp.choices[0].message.content)
print(f"Input tokens: {resp.usage.prompt_tokens}, cost: ${resp.usage.cost:.4f}")

180K-token डॉक्यूमेंट + 500 आउटपुट-token जवाब की क़ीमत $0.0234 + $0.0005 = ~$0.024 प्रति क्वेरी। DeepSeek V3 पर वही क्वेरी (अगर फ़िट हो जाए): $0.0432 + $0.00035 = $0.044।

RAG पाइपलाइन पैटर्न

सिंपल सिंगल-शॉट: अगर रिट्रीव्ड कॉन्टेक्स्ट 262K tokens में फ़िट हो जाए, तो रीरैंकिंग और hierarchical सारांश को छोड़ें — सब कुछ एक कॉल में Qwen3.5-35B-A3B को फ़ीड करें। कम पाइपलाइन कॉम्प्लेक्सिटी, कम लेटेंसी।

रिट्रीवल के साथ: embed → top-K retrieve → 50-100K token प्रॉम्प्ट में concat → Qwen3.5-35B-A3B जवाब। इनपुट-कॉस्ट इकोनॉमिक्स लंबे top-K (ज़्यादा कॉन्टेक्स्ट) के पक्ष में हैं क्योंकि इनपुट tokens सस्ते हैं।

पहले सारांश फिर जवाब: >262K कॉर्पोरा के लिए, पहले Qwen3.5-35B-A3B से सेक्शन-वाइज़ सारांश करें, फिर सारांशों पर जवाब दें। दो-पास; फिर भी ज़्यादातर विकल्पों से सस्ता।

प्राइसिंग

मॉडल इनपुट / 1M आउटपुट / 1M कॉन्टेक्स्ट
Qwen3.5-35B-A3B $0.13 $1.00 262K
DeepSeek V3 (तुलना) $0.24 $0.70 131K

46% कम प्रति-इनपुट-token पर, Qwen3.5-35B-A3B प्रॉम्प्ट-हेवी RAG के लिए डिफ़ॉल्ट है। आउटपुट V3 से थोड़ा महँगा है, इसलिए शॉर्ट-प्रॉम्प्ट टास्क अब भी V3 के पक्ष में हैं।

FAQ

क्या मैं सच में एक प्रॉम्प्ट में 262K tokens इस्तेमाल कर सकता हूँ?

हाँ। 262,144-token कॉन्टेक्स्ट प्रकाशित हार्ड लिमिट है। लॉन्ग-कॉन्टेक्स्ट परफ़ॉर्मेंस (needle-in-a-haystack recall) लगभग 200K तक मज़बूत है; उसके बाद, फ़ाइन-ग्रेन्ड लुकअप टास्क पर सटीकता कम हो सकती है। क्रिटिकल रिट्रीवल के लिए, सबसे रेलेवेंट चंक्स को प्रॉम्प्ट के शीर्ष के पास रखने के लिए vector search के साथ मिलाएँ।

"3B active MoE" चीज़ क्या है?

Mixture-of-Experts हर token को मॉडल के पैरामीटर्स के केवल एक सबसेट से रूट करता है। Qwen3.5-35B-A3B के 35B कुल पैरामीटर हैं लेकिन प्रति token केवल 3B एक्टिव होते हैं। प्रति token कम्प्यूट 3B dense मॉडल जैसा है; नॉलेज कैपेसिटी 35B मॉडल के क़रीब है। नतीजा dense 35B से तेज़ और सस्ता इनफ़रेंस है, इसीलिए लॉन्ग-कॉन्टेक्स्ट वर्कलोड विशेष रूप से अच्छे फ़िट हैं।

क्या thinking mode कॉस्ट को प्रभावित करता है?

Qwen3.5-35B-A3B reasoning mode उपलब्ध है। QuickSilver Pro पर, आउटपुट को संक्षिप्त और प्रेडिक्टेबल रखने के लिए reasoning mode डिफ़ॉल्ट से दबा दिया जाता है — आपसे अनावश्यक thinking tokens के लिए चार्ज नहीं होता। यह वह व्यवहार है जिसकी ज़्यादातर RAG और सारांश वर्कलोड उम्मीद करते हैं।

क्या Qwen tool calling सपोर्ट करता है?

हाँ, OpenAI tools API के ज़रिए। सरल function signatures के लिए tool-call रिलायबिलिटी अच्छी है; कॉम्प्लेक्स मल्टी-टूल एजेंट लूप्स के लिए, DeepSeek V3 ज़्यादा रिलायबल रहता है। कमिट करने से पहले अपने विशिष्ट एजेंट पर दोनों को बेंचमार्क करें।

संबंधित

$1 मुफ़्त पर अपना RAG शुरू करें

262K कॉन्टेक्स्ट, OpenAI-संगत API, model="qwen3.5-35b"

API की प्राप्त करें