रीज़निंग के लिए DeepSeek R1
DeepSeek R1 एक ओपन-सोर्स रीज़निंग मॉडल है जो RL से ट्रेन किया गया है ताकि एक्सप्लिसिट chain-of-thought एमिट करे। यह AIME और MATH बेंचमार्क्स पर OpenAI o1 के साथ प्रतिस्पर्धी है, जबकि लागत ~35x कम: QuickSilver Pro पर $0.40 इनपुट / $1.70 आउटपुट प्रति 1M tokens बनाम o1 का $15 / $60। गणित, कोड चैलेंजेज़, और लॉजिक-हेवी एजेंट लूप्स के लिए, R1 ओपन-सोर्स डिफ़ॉल्ट है।
R1 में क्या अच्छा है
AIME-2024, MATH-500, और Olympiad-लेवल समस्याओं पर मज़बूत। रीज़निंग ट्रेस derivations से गुज़रता है; फ़ाइनल जवाब content में दिखता है।
कॉम्पिटिटिव-प्रोग्रामिंग-ग्रेड कोड जेनरेशन। LiveCodeBench और Codeforces बेंचमार्क स्कोर o1 की बराबरी करते हैं। नवेल-एल्गोरिदम टास्क के लिए V3 से बेहतर; CoT के कारण धीमा।
एजेंट लूप्स में उपयोगी जहाँ प्लानर को एक्ट करने से पहले डीकम्पोज़ करना हो। हर प्लानिंग कॉल में एक्सप्लिसिट रीज़निंग होती है, जो tool-use निर्णयों में सुधार करती है।
Quickstart: एक गणित समस्या हल करें
from openai import OpenAI
client = OpenAI(
base_url="https://api.quicksilverpro.io/v1",
api_key="sk-qsp-...",
)
resp = client.chat.completions.create(
model="deepseek-r1",
messages=[{
"role": "user",
"content": "A box has 12 red and 8 blue balls. Three drawn without replacement. Probability exactly two are red?",
}],
)
# Chain-of-thought रीज़निंग:
print(resp.choices[0].message.reasoning_content)
# फ़ाइनल जवाब:
print(resp.choices[0].message.content)
print(f"Output tokens: {resp.usage.completion_tokens}")
print(f"Cost: ${resp.usage.cost:.6f}")
R1 reasoning_content (thinking trace) को content (फ़ाइनल जवाब) से अलग लौटाता है। दोनों आउटपुट tokens के रूप में बिल होते हैं। सामान्य रीज़निंग ट्रेसेज़ 500–3000 tokens होते हैं।
प्राइसिंग
| प्रोवाइडर | इनपुट / 1M | आउटपुट / 1M | आउटपुट vs QSP |
|---|---|---|---|
| QuickSilver Pro | $0.40 | $1.70 | — |
| OpenRouter | $0.50 | $2.15 | +26% |
| DeepInfra | $0.55 | $2.19 | +29% |
| Together AI | $3.00 | $7.00 | 4.1x |
| Fireworks AI | $3.00 | $8.00 | 4.7x |
| OpenAI o1 | $15.00 | $60.00 | 35x |
चूँकि R1 लंबे रीज़निंग ट्रेसेज़ जेनरेट करता है (अक्सर 1000-3000 अतिरिक्त आउटपुट tokens), आउटपुट कॉस्ट हावी रहती है। Fireworks vs आउटपुट पर 79% बचत बहुत जुड़ती है — अगर आपका वर्कलोड प्रति माह 10M R1 आउटपुट tokens है, तो अंतर है QSP पर $17/माह बनाम Fireworks पर $80/माह।
R1 कब अतिरिक्त tokens के लायक़ है
R1 इनके लिए इस्तेमाल करें: गणित के वर्ड प्रॉब्लम्स, नवेल एल्गोरिदम डिज़ाइन, लॉजिक पज़ल्स, थ्योरम प्रूविंग, मल्टी-स्टेप टूल प्लानिंग, हार्ड डिबगिंग। ऐसे टास्क जहाँ रीज़निंग स्टेप वह जगह है जहाँ मॉडल अपनी लागत वसूल करता है।
R1 इनके लिए छोड़ें: फ़ैक्चुअल Q&A, कोड कम्पलीशन, सारांश, एंटिटी एक्सट्रैक्शन, सरल क्लासिफ़िकेशन, ट्रांसलेशन। V3 सस्ता है, तेज़ है, और नॉन-रीज़निंग टास्क पर क्वालिटी बराबर है।
कॉस्ट कैलिब्रेशन: एक 2000-शब्द निबंध V3 पर ~600 आउटपुट tokens लेता है ($0.42/1000 निबंध)। R1 पर वही निबंध रीज़निंग ट्रेस सहित ~2500 आउटपुट tokens लेता है ($4.25/1000 निबंध)। 10x प्रीमियम। R1 को तब के लिए रखें जब वह प्रीमियम कुछ ख़रीदता हो।
FAQ
क्या DeepSeek R1, o1 जितना अच्छा है?
प्रकाशित गणित (AIME-2024, MATH-500), कोडिंग (LiveCodeBench, Codeforces), और रीज़निंग (GPQA Diamond) बेंचमार्क्स पर, DeepSeek R1 o1 के कुछ पॉइंट्स के भीतर है और ज़्यादातर पर o1-mini से ज़्यादा है। 35x कम कॉस्ट पर प्रोडक्शन इस्तेमाल के लिए, यह ओपन-सोर्स बराबरी है।
रीज़निंग ट्रेसेज़ कितने लंबे होते हैं?
सामान्य रेंज 500-3000 tokens है। हार्ड समस्याओं (IMO-ग्रेड गणित) के लिए, ट्रेसेज़ 5000 tokens से ज़्यादा हो सकते हैं। सभी रीज़निंग tokens आउटपुट tokens के रूप में बिल होते हैं — कॉस्ट प्रोजेक्शन में इसका हिसाब रखें।
क्या R1 tool calling सपोर्ट करता है?
R1 OpenAI tools array स्वीकार करता है लेकिन tool calling पर V3 से कम रिलायबल है। एजेंट लूप्स के लिए, tool-calling एग्ज़ीक्यूटर के रूप में V3 इस्तेमाल करें और R1 को केवल हार्ड प्लानिंग सब-समस्याओं के लिए इनवोक करें। यह हाइब्रिड पैटर्न दोनों का बेहतरीन देता है।
क्या मैं यूज़र्स से रीज़निंग ट्रेस छुपा सकता हूँ?
हाँ। सर्वर-साइड reasoning_content को इग्नोर करें और केवल content लौटाएँ। आप रीज़निंग tokens के लिए भी चार्ज देते हैं क्योंकि R1 को जवाब तक पहुँचने के लिए उन्हें जेनरेट करना पड़ता है — कोई सस्ता "skip thinking" मोड नहीं है।
संबंधित
$1 मुफ़्त पर रीज़निंग शुरू करें
openai SDK बिना बदलाव काम करता है; model="deepseek-r1" पास करें।