ओपन-सोर्स इनफ़रेंस,
बाक़ी सबसे 20% कम।

सबसे लोकप्रिय ओपन-सोर्स मॉडल — DeepSeek V3, DeepSeek R1, Qwen3.5-35B-A3B — एक OpenAI-संगत API के ज़रिए। हर दूसरे रीसेलर से सस्ता। कोड की एक लाइन बदलें।

API की प्राप्त करें प्राइसिंग देखें

कोई सब्सक्रिप्शन नहीं

OpenAI संगत

जितना इस्तेमाल, उतना भुगतान

python

# बस एक लाइन बदलें। इतना ही।
from openai import OpenAI

client = OpenAI(
    base_url="https://api.quicksilverpro.io/v1",
    api_key="your-api-key",
)

प्राइसिंग

सबसे सस्ता ओपन-सोर्स इनफ़रेंस

प्रति मिलियन token · OpenRouter, Together AI, Fireworks से तुलना में।

मॉडल	कॉन्टेक्स्ट	इनपुट	आउटपुट	बचत
Qwen3.5-35B-A3B qwen3.5-35b लॉन्ग-कॉन्टेक्स्ट RAG, सारांश के लिए सबसे बेहतर	262K	$0.13 $0.16	$1.00 $1.25	−20%
DeepSeek V3 डिफ़ॉल्ट deepseek-v3 चैट, कोडिंग, स्ट्रक्चर्ड आउटपुट के लिए सबसे बेहतर	128K	$0.24 $0.30	$0.70 $0.88	−20%
DeepSeek R1 रीज़निंग deepseek-r1 गणित, मल्टी-स्टेप रीज़निंग, लॉजिक के लिए सबसे बेहतर	128K	$0.40 $0.50	$1.70 $2.15	−20%

OpenRouter, Together AI और Fireworks AI से तुलना। कीमतें अप्रैल 2026 के अनुसार।

थिंकिंग मॉडल्स (Qwen3.5-35B-A3B, DeepSeek R1): हर रिक्वेस्ट आंतरिक रूप से "रीज़निंग tokens" खर्च करता है (आमतौर पर 500–8,000) जो आउटपुट रेट पर बिल होते हैं। max_tokens केवल विज़िबल content को सीमित करता है, रीज़निंग को नहीं। DeepSeek R1 अपनी रीज़निंग message.reasoning_content में लौटाता है; Qwen3.5-35B-A3B इसे छुपाता है (OpenRouter डिफ़ॉल्ट की तरह)। सस्ते वन-शॉट टास्क के लिए deepseek-v3 पसंद करें।

हम 20% सस्ते कैसे हैं (और यह स्कैम नहीं है)

हम एक इनफ़रेंस-इन्फ़्रास्ट्रक्चर कंपनी हैं, बिचौलिए नहीं। यह 20% का अंतर इंजीनियरिंग से आता है, मार्जिन काटने से नहीं — और जैसे-जैसे हम स्टैक का ज़्यादा हिस्सा अपने पास लाएँगे, यह अंतर और बढ़ने वाला है।

आज: हमारी GPU क्षमता ऑनलाइन आने तक ब्रिज फ़ेज़

एक ट्रांज़िशनल रणनीति ताकि ग्राहक आज ही 20% बचाएँ। हम हर बड़े ओपन-सोर्स इनफ़रेंस प्रोवाइडर के लाइव बेंचमार्क रखते हैं और हर रिक्वेस्ट को उस क्षण के सबसे सस्ते स्वस्थ बैकएंड को भेजते हैं। केवल तीन मॉडलों पर फ़ोकस रखने से रूट टेबल हॉट और मेंटेन करने में सस्ती रहती है — बचत सीधे ग्राहक तक पहुँचती है। स्थायी स्टैक Phase 2 है।

अगला: डेडिकेटेड GPUs पर अपना ख़ुद का इनफ़रेंस स्टैक

हम H100/H200 (Vast.ai → बाद में को-लोकेटेड) पर सेल्फ़-होस्टेड सर्विंग लेयर बना रहे हैं, जिसमें SGLang + कंटीन्युअस बैचिंग, EAGLE-3 स्पेकुलेटिव डिकोडिंग, DeepGEMM के ज़रिए FP8 क्वांटाइज़ेशन, और SageAttention / ThunderMLA कस्टम कर्नेल शामिल हैं। ये तकनीकें प्रकाशित हैं; हम उन्हें इंटीग्रेट और प्रोडक्शन में ला रहे हैं। लक्ष्य: DeepSeek V3 पर मौजूदा कीमत से और 30-50% कम।

ओपन-सोर्स ही एकमात्र रास्ता क्यों है

वज़न पब्लिक हैं — हम उन्हें असल में रन और ऑप्टिमाइज़ कर सकते हैं। क्लोज़्ड मॉडल (GPT-4, Claude) वज़न एक्सपोज़ नहीं करते, इसलिए कितना भी इन्फ़्रा काम करो, उन्हें सस्ता नहीं बनाया जा सकता। यही वजह है कि हमारा कैटलॉग तीन ओपन मॉडलों का है जिन्हें हम वेरीफ़ाय, रूट और आख़िरकार ख़ुद होस्ट कर सकते हैं — न कि 150-मॉडलों का बुफ़े जिनमें आधे री-रैप्स हैं जिन पर हमारा कंट्रोल नहीं।

नया कमांड-लाइन

`qsp` CLI

टर्मिनल्स और AI एजेंट्स के लिए बनाया गया। हर कमांड --json आउटपुट और स्टेबल एग्ज़िट कोड देता है — Claude Code, Cursor, Aider जैसे एजेंट्स इसे HTML पार्स किए बिना सीधे कॉल कर सकते हैं।

PyPI GitHub 🍺 Homebrew

# इंस्टॉल — macOS / Linux

$ brew install machinefi/qspro/qspro

# या कहीं भी Python में

$ pipx install quicksilverpro

# साइन इन करें और इस्तेमाल शुरू करें

$ qsp init

$ qsp chat "एक हाइकू लिखो"

$ qsp balance

$ qsp models

# एजेंट-फ्रेंडली — पाइप्स + JSON

$ qsp chat "..." --json | jq .usage.cost

ड्रॉप-इन OpenAI रिप्लेसमेंट

हर OpenAI SDK के साथ काम करता है। बस base_url बदलें — बस इतना ही।

जितना इस्तेमाल करें, उतना ही भुगतान करें

कोई भी राशि प्रीपे करें। क्रेडिट कभी एक्सपायर नहीं होते। प्रति-token मीटर्ड, कोई न्यूनतम नहीं।

प्रोडक्शन-रेडी

ऑटोमैटिक रीट्राई, स्ट्रीमिंग, और रेट लिमिटिंग। लाइव स्टेटस और एंटरप्राइज़ DPA उपलब्ध।

FAQ

आम सवाल

QuickSilver Pro क्या है?

टॉप ओपन-सोर्स LLMs के लिए एक OpenAI-संगत HTTP API — DeepSeek V3, DeepSeek R1, और Qwen3.5-35B-A3B। आधिकारिक OpenAI SDK को हमारे base URL पर पॉइंट करें और वही chat-completions इंटरफ़ेस मिलेगा, प्रतिस्पर्धी रीसेलर्स से 20% कम में।

आप कौन से मॉडल सपोर्ट करते हैं?

DeepSeek V3 (जनरल चैट, कोडिंग, स्ट्रिक्ट JSON), DeepSeek R1 (रीज़निंग, गणित, लॉजिक), और Qwen3.5-35B-A3B (3B एक्टिव MoE, 262K कॉन्टेक्स्ट, लॉन्ग-डॉक्यूमेंट RAG)। तीनों पूरी तरह ओपन-सोर्स हैं और OpenRouter पर सबसे लोकप्रिय तीन ओपन-सोर्स मॉडल हैं।

OpenRouter / OpenAI से कितना सस्ता?

समान ओपन-सोर्स मॉडलों पर OpenRouter, Together AI, Fireworks AI, और DeepInfra के पब्लिक प्रति-token रेट्स से 20% कम। DeepSeek V3: $0.24 इनपुट / $0.70 आउटपुट प्रति 1M tokens। DeepSeek R1: $0.40 / $1.70। Qwen3.5-35B-A3B: $0.13 / $1.00। हम क्लोज़्ड मॉडल (GPT-4, Claude) सर्व नहीं करते।

क्या यह वाक़ई ड्रॉप-इन OpenAI रिप्लेसमेंट है?

हाँ। आधिकारिक openai Python / Node / Swift SDKs में base_url को https://api.quicksilverpro.io/v1 पर बदलें। स्ट्रीमिंग, टूल कॉलिंग, json_schema स्ट्रिक्ट मोड और usage.cost अकाउंटिंग सब बॉक्स से बाहर काम करते हैं। रेडी-टू-पेस्ट स्निपेट्स के लिए Quick Start देखें।

क्या यह Aider, Cline, Cursor, LangChain, और Vercel AI SDK के साथ काम करता है?

हाँ — कोई भी टूल जो कस्टम OpenAI base URL स्वीकार करता है वह काम करता है: Aider, Cline, Cursor, Continue, LangChain, LlamaIndex, और Vercel AI SDK (@ai-sdk/openai-compatible के ज़रिए)। अपनी QSP API key के साथ https://api.quicksilverpro.io/v1 पर पॉइंट करें।

OpenRouter से माइग्रेट कैसे करें?

दो लाइनें। base_url को openrouter.ai/api/v1 से api.quicksilverpro.io/v1 में बदलें, और अपनी API key स्वैप करें। मॉडल IDs से प्रोवाइडर प्रीफ़िक्स हटाएँ: deepseek/deepseek-chat → deepseek-v3, deepseek/deepseek-r1 → deepseek-r1, qwen/qwen3.5-35b-a3b → qwen3.5-35b।

क्या कोई फ्री टियर है?

नए अकाउंट को रजिस्ट्रेशन पर $1 के फ्री क्रेडिट मिलते हैं — सर्विस जाँचने के लिए लगभग 500-700 असली DeepSeek V3 कॉल्स के लिए पर्याप्त। उसके बाद $5 से शुरू पे-एज़-यू-गो, कोई सब्सक्रिप्शन नहीं।

QuickSilver Pro कौन ऑपरेट करता है?

QuickSilver Pro MachineFi Inc. का प्रोडक्ट है, जो मेनलो पार्क, कैलिफ़ोर्निया में स्थित एक Delaware C-corp है। हम ओपन-सोर्स AI के लिए इनफ़रेंस इन्फ़्रास्ट्रक्चर बना रहे हैं — आगे की योजना के लिए रोडमैप देखें (अपने H100/H200 GPUs, SGLang + EAGLE-3 + FP8 के साथ)।

आज ही इनफ़रेंस पर बचत शुरू करें

अकाउंट बनाएँ, क्रेडिट ख़रीदें, 30 सेकंड में अपनी API की पाएँ।

API की प्राप्त करें

ओपन-सोर्स इनफ़रेंस, बाक़ी सबसे 20% कम।