Сценарий · Reasoning и математика

DeepSeek R1 для reasoning

DeepSeek R1 — открытая reasoning-модель, обученная через RL выдавать явный chain-of-thought. Она конкурирует с OpenAI o1 на бенчмарках AIME и MATH, при этом стоит ~в 35 раз дешевле: $0.40 вход / $1.70 выход за 1M токенов на QuickSilver Pro против $15 / $60 у o1. Для математики, задач на код и логики в агентных петлях R1 — дефолт среди открытых моделей.

В чём R1 хорош

Математика

Сильные результаты на AIME-2024, MATH-500 и задачах олимпиадного уровня. Трейс рассуждения проходит через вывод; финальный ответ — в content.

Алгоритмы

Генерация кода уровня соревновательного программирования. Результаты LiveCodeBench и Codeforces конкурируют с o1. Лучше, чем V3, в задачах на новые алгоритмы; медленнее из-за CoT.

Многошаговое планирование

Полезен в агентных петлях, где планировщик должен декомпозировать задачу перед действием. Каждый вызов планирования содержит явное рассуждение, что улучшает решения по использованию инструментов.

Quickstart: решаем задачу по математике

Python · openai SDK
from openai import OpenAI

client = OpenAI(
    base_url="https://api.quicksilverpro.io/v1",
    api_key="sk-qsp-...",
)

resp = client.chat.completions.create(
    model="deepseek-r1",
    messages=[{
        "role": "user",
        "content": "A box has 12 red and 8 blue balls. Three drawn without replacement. Probability exactly two are red?",
    }],
)

# Chain-of-thought reasoning:
print(resp.choices[0].message.reasoning_content)

# Final answer:
print(resp.choices[0].message.content)

print(f"Output tokens: {resp.usage.completion_tokens}")
print(f"Cost: ${resp.usage.cost:.6f}")

R1 возвращает reasoning_content (трейс мышления) отдельно от content (финальный ответ). Оба тарифицируются как выходные токены. Типичные трейсы — 500–3000 токенов.

Цены

Провайдер Вход / 1M Выход / 1M Выход к QSP
QuickSilver Pro $0.40 $1.70
OpenRouter$0.50$2.15+26%
DeepInfra$0.55$2.19+29%
Together AI$3.00$7.004.1x
Fireworks AI$3.00$8.004.7x
OpenAI o1$15.00$60.0035x

Поскольку R1 генерирует длинные reasoning-трейсы (часто 1000-3000 дополнительных выходных токенов), стоимость выхода доминирует. Экономия 79% на выходе по сравнению с Fireworks складывается: если нагрузка — 10M выходных токенов R1 в месяц, разница составляет $17/мес на QSP против $80/мес на Fireworks.

Когда R1 стоит дополнительных токенов

Используйте R1 для: текстовых математических задач, проектирования новых алгоритмов, логических головоломок, доказательства теорем, многошагового планирования с инструментами, сложной отладки. Задач, где шаг рассуждения — то, ради чего модель и нужна.

Не используйте R1 для: фактических Q&A, дополнения кода, суммаризации, извлечения сущностей, простой классификации, перевода. V3 дешевле, быстрее, и качество эквивалентно на не-reasoning задачах.

Калибровка стоимости: эссе в 2000 слов занимает у V3 ~600 выходных токенов ($0.42/1000 эссе). R1 на том же эссе — ~2500 выходных токенов с учётом reasoning-трейса ($4.25/1000 эссе). Премия в 10 раз. Оставьте R1 для случаев, когда эта премия реально что-то даёт.

FAQ

DeepSeek R1 так же хорош, как o1?

На опубликованных бенчмарках по математике (AIME-2024, MATH-500), коду (LiveCodeBench, Codeforces) и reasoning (GPQA Diamond) DeepSeek R1 отстаёт от o1 на несколько очков и превосходит o1-mini в большинстве. В production-использовании при 35-кратно меньшей цене — это открытый эквивалент.

Какой длины reasoning-трейсы?

Типичный диапазон — 500-3000 токенов. Для сложных задач (уровня IMO по математике) трейсы могут превышать 5000 токенов. Все reasoning-токены тарифицируются как выходные — учитывайте это в прогнозах стоимости.

Поддерживает ли R1 tool calling?

R1 принимает OpenAI-массив tools, но менее надёжен в вызове инструментов, чем V3. В агентных петлях используйте V3 как исполнителя вызовов инструментов и вызывайте R1 только для сложных подзадач планирования. Гибридный паттерн даёт лучшее от обоих.

Можно ли скрыть reasoning-трейс от пользователей?

Да. Игнорируйте reasoning_content на сервере и возвращайте только content. Вы всё равно платите за reasoning-токены, потому что R1 должен их сгенерировать, чтобы дойти до ответа — дешёвого режима «пропустить размышление» нет.

Смежные страницы

Начните reasoning на $1 бесплатно

SDK openai работает без изменений; передайте model="deepseek-r1".

Получить API-ключ