DeepSeek R1 किस चीज़ के लिए अच्छा है?

DeepSeek R1 एक रीज़निंग मॉडल है जो रीइन्फ़ोर्समेंट लर्निंग से ट्रेन किया गया है ताकि जवाब देने से पहले एक्सप्लिसिट chain-of-thought प्रोड्यूस करे। यह गणित (AIME, MATH), कॉम्पिटिटिव प्रोग्रामिंग (Codeforces), लॉजिक पज़ल्स, फ़ॉर्मल प्रूफ़्स, और मल्टी-स्टेप प्लानिंग में उत्कृष्ट है। जिन टास्क में जवाब की क्वालिटी रीज़निंग प्रोसेस पर निर्भर करती है, R1 उनमें DeepSeek V3 जैसे नॉन-रीज़निंग मॉडलों से बेहतर प्रदर्शन करता है, 3-5x ज़्यादा आउटपुट tokens की लागत पर।

DeepSeek R1 की प्राइसिंग OpenAI o1 से कैसी तुलनीय है?

OpenAI o1 की क़ीमत $15 प्रति मिलियन इनपुट tokens और $60 प्रति मिलियन आउटपुट tokens है। QuickSilver Pro पर DeepSeek R1 की क़ीमत $0.40 इनपुट और $1.70 आउटपुट प्रति मिलियन tokens है। वही वर्कलोड के लिए, R1 इनपुट पर ~37x सस्ता और आउटपुट पर ~35x सस्ता है — तुलनीय गणित और कोडिंग बेंचमार्क प्रदर्शन के साथ।

रीज़निंग ट्रेस कैसे ऐक्सेस करूँ?

DeepSeek R1 मेसेज ऑब्जेक्ट में content के साथ-साथ एक reasoning_content फ़ील्ड लौटाता है। reasoning_content में chain-of-thought ट्रेस होता है; content में फ़ाइनल जवाब। दोनों आउटपुट tokens के रूप में बिल होते हैं। अगर आपको केवल जवाब चाहिए तो reasoning_content को डिस्कार्ड कर सकते हैं — कॉस्ट वही रहती है।

क्या सरल सवालों के लिए R1 ज़रूरत से ज़्यादा है?

हाँ। R1 छोटे सवालों के लिए भी एक लंबा chain-of-thought जेनरेट करता है, जो व्यर्थ आउटपुट कॉस्ट है। फ़ैक्चुअल Q&A, सरल सारांश, या कैज़ुअल चैट के लिए, R1 ($1.70 प्रति 1M आउटपुट) के बजाय DeepSeek V3 ($0.70 प्रति 1M आउटपुट) इस्तेमाल करें। R1 को ऐसी समस्याओं के लिए रखें जहाँ रीज़निंग स्टेप मैटेरियली जवाब की क्वालिटी बदलता है।

होम / यूज़ केसेज़ / रीज़निंग के लिए DeepSeek R1

यूज़ केस · रीज़निंग और गणित

रीज़निंग के लिए DeepSeek R1

DeepSeek R1 एक ओपन-सोर्स रीज़निंग मॉडल है जो RL से ट्रेन किया गया है ताकि एक्सप्लिसिट chain-of-thought एमिट करे। यह AIME और MATH बेंचमार्क्स पर OpenAI o1 के साथ प्रतिस्पर्धी है, जबकि लागत ~35x कम: QuickSilver Pro पर $0.40 इनपुट / $1.70 आउटपुट प्रति 1M tokens बनाम o1 का $15 / $60। गणित, कोड चैलेंजेज़, और लॉजिक-हेवी एजेंट लूप्स के लिए, R1 ओपन-सोर्स डिफ़ॉल्ट है।

R1 में क्या अच्छा है

गणित

AIME-2024, MATH-500, और Olympiad-लेवल समस्याओं पर मज़बूत। रीज़निंग ट्रेस derivations से गुज़रता है; फ़ाइनल जवाब content में दिखता है।

एल्गोरिदम

कॉम्पिटिटिव-प्रोग्रामिंग-ग्रेड कोड जेनरेशन। LiveCodeBench और Codeforces बेंचमार्क स्कोर o1 की बराबरी करते हैं। नवेल-एल्गोरिदम टास्क के लिए V3 से बेहतर; CoT के कारण धीमा।

मल्टी-स्टेप प्लानिंग

एजेंट लूप्स में उपयोगी जहाँ प्लानर को एक्ट करने से पहले डीकम्पोज़ करना हो। हर प्लानिंग कॉल में एक्सप्लिसिट रीज़निंग होती है, जो tool-use निर्णयों में सुधार करती है।

Quickstart: एक गणित समस्या हल करें

Python · openai SDK

from openai import OpenAI

client = OpenAI(
    base_url="https://api.quicksilverpro.io/v1",
    api_key="sk-qsp-...",
)

resp = client.chat.completions.create(
    model="deepseek-r1",
    messages=[{
        "role": "user",
        "content": "A box has 12 red and 8 blue balls. Three drawn without replacement. Probability exactly two are red?",
    }],
)

# Chain-of-thought रीज़निंग:
print(resp.choices[0].message.reasoning_content)

# फ़ाइनल जवाब:
print(resp.choices[0].message.content)

print(f"Output tokens: {resp.usage.completion_tokens}")
print(f"Cost: ${resp.usage.cost:.6f}")

R1 reasoning_content (thinking trace) को content (फ़ाइनल जवाब) से अलग लौटाता है। दोनों आउटपुट tokens के रूप में बिल होते हैं। सामान्य रीज़निंग ट्रेसेज़ 500–3000 tokens होते हैं।

प्राइसिंग

प्रोवाइडर	इनपुट / 1M	आउटपुट / 1M	आउटपुट vs QSP
QuickSilver Pro	$0.40	$1.70	—
OpenRouter	$0.50	$2.15	+26%
DeepInfra	$0.55	$2.19	+29%
Together AI	$3.00	$7.00	4.1x
Fireworks AI	$3.00	$8.00	4.7x
OpenAI o1	$15.00	$60.00	35x

चूँकि R1 लंबे रीज़निंग ट्रेसेज़ जेनरेट करता है (अक्सर 1000-3000 अतिरिक्त आउटपुट tokens), आउटपुट कॉस्ट हावी रहती है। Fireworks vs आउटपुट पर 79% बचत बहुत जुड़ती है — अगर आपका वर्कलोड प्रति माह 10M R1 आउटपुट tokens है, तो अंतर है QSP पर $17/माह बनाम Fireworks पर $80/माह।

R1 कब अतिरिक्त tokens के लायक़ है

R1 इनके लिए इस्तेमाल करें: गणित के वर्ड प्रॉब्लम्स, नवेल एल्गोरिदम डिज़ाइन, लॉजिक पज़ल्स, थ्योरम प्रूविंग, मल्टी-स्टेप टूल प्लानिंग, हार्ड डिबगिंग। ऐसे टास्क जहाँ रीज़निंग स्टेप वह जगह है जहाँ मॉडल अपनी लागत वसूल करता है।

R1 इनके लिए छोड़ें: फ़ैक्चुअल Q&A, कोड कम्पलीशन, सारांश, एंटिटी एक्सट्रैक्शन, सरल क्लासिफ़िकेशन, ट्रांसलेशन। V3 सस्ता है, तेज़ है, और नॉन-रीज़निंग टास्क पर क्वालिटी बराबर है।

कॉस्ट कैलिब्रेशन: एक 2000-शब्द निबंध V3 पर ~600 आउटपुट tokens लेता है ($0.42/1000 निबंध)। R1 पर वही निबंध रीज़निंग ट्रेस सहित ~2500 आउटपुट tokens लेता है ($4.25/1000 निबंध)। 10x प्रीमियम। R1 को तब के लिए रखें जब वह प्रीमियम कुछ ख़रीदता हो।

FAQ

क्या DeepSeek R1, o1 जितना अच्छा है?

प्रकाशित गणित (AIME-2024, MATH-500), कोडिंग (LiveCodeBench, Codeforces), और रीज़निंग (GPQA Diamond) बेंचमार्क्स पर, DeepSeek R1 o1 के कुछ पॉइंट्स के भीतर है और ज़्यादातर पर o1-mini से ज़्यादा है। 35x कम कॉस्ट पर प्रोडक्शन इस्तेमाल के लिए, यह ओपन-सोर्स बराबरी है।

रीज़निंग ट्रेसेज़ कितने लंबे होते हैं?

सामान्य रेंज 500-3000 tokens है। हार्ड समस्याओं (IMO-ग्रेड गणित) के लिए, ट्रेसेज़ 5000 tokens से ज़्यादा हो सकते हैं। सभी रीज़निंग tokens आउटपुट tokens के रूप में बिल होते हैं — कॉस्ट प्रोजेक्शन में इसका हिसाब रखें।

क्या R1 tool calling सपोर्ट करता है?

R1 OpenAI tools array स्वीकार करता है लेकिन tool calling पर V3 से कम रिलायबल है। एजेंट लूप्स के लिए, tool-calling एग्ज़ीक्यूटर के रूप में V3 इस्तेमाल करें और R1 को केवल हार्ड प्लानिंग सब-समस्याओं के लिए इनवोक करें। यह हाइब्रिड पैटर्न दोनों का बेहतरीन देता है।

क्या मैं यूज़र्स से रीज़निंग ट्रेस छुपा सकता हूँ?

हाँ। सर्वर-साइड reasoning_content को इग्नोर करें और केवल content लौटाएँ। आप रीज़निंग tokens के लिए भी चार्ज देते हैं क्योंकि R1 को जवाब तक पहुँचने के लिए उन्हें जेनरेट करना पड़ता है — कोई सस्ता "skip thinking" मोड नहीं है।

$1 मुफ़्त पर रीज़निंग शुरू करें

openai SDK बिना बदलाव काम करता है; model="deepseek-r1" पास करें।

API की प्राप्त करें