推論モデルとは｜deepseek-r1とqwen3 thinkingのRTX 5080実測VRAM消費とtokens/sec差を解説

推論モデルとは、回答前に内部でthinking連鎖を展開して論理を組み立てるLLM群のこと。

ローカルで推論モデルを動かそうとして、Web 上の「VRAM 5.2GB で足りる」という Ollama 公式記載 (deepseek-r1:8b Q4_K_M GGUF) を信じて 8GB クラスの GPU を買ったのに、実際には 10GB 前後を消費して挙動が苦しくなる——こんなケースが起きやすいのが推論モデル。当サイトの検証環境 (RTX 5080 16GB / RTX 5060 Ti 16GB / i7-14700F / RAM 96GB) で deepseek-r1:8b と qwen3:14b thinking モードを実測したところ、Web 一般値と無視できない差が出たと報告できる。

この記事の要点

推論モデルは thinking 連鎖を内部展開するため、同パラメータ数の対話モデルより VRAM 消費が膨らむ
deepseek-r1:8b は thinking 常時 ON、qwen3 は thinking モード切替が可能という設計差がある
Ollama 公式 GGUF サイズ (deepseek-r1:8b Q4_K_M は約 5.2 GB) の約 1.5〜2 倍を見積もるのが現実的な選定ラインになる
当サイト RTX 5080 実測値で deepseek-r1:8b は VRAM 10.1GB・約 104 tok/s、qwen3:14b thinking は 10.2GB・約 74 tok/s

なお Ollama の deepseek-r1:8b は、 DeepSeek-R1 (671B パラメータの本体モデル) を Llama-3.1-8B ベースに蒸留した派生モデル (DeepSeek-R1-Distill-Llama-8B) が実体である。 671B 本体とは別物のため、性能や挙動も異なる点に留意してほしい。

推論モデルとは｜一言で言うと
推論モデルの仕組みをもう少し詳しく
1. deepseek-r1:8b と qwen3:14b の設計上の違い
2. thinking モードが VRAM に与える影響
推論モデルと通常の LLM の違い
RTX 5080 で実測した deepseek-r1 と qwen3 thinking
VRAM 容量別の動作目安
RTX 5060 Ti 16GB での運用見込み｜エントリー 16GB GPU の位置づけ
文脈長と VRAM の関係
用途別の推論モデル選定ガイド
量子化レベルと推論モデルの精度バランス
thinking 出力の制御と運用上の工夫
まとめ
参考

推論モデルとは｜一言で言うと

推論モデル (reasoning LLM) とは、回答を出す前に思考過程 (thinking) を内部展開し、その推論を経由して結論を返す LLM 群のこと。OpenAI の o1 系列や DeepSeek-R1 がこの設計の代表例で、通常の対話モデルに比べて論理推論・数学・コード生成の正答率が高くなる代わりに、生成トークン数と VRAM 消費が増える性質を持つとされる。

ローカル環境で動かす場合、tokens/sec だけを見ても実用感はつかめない。thinking 部分はユーザーに直接見えない場合があるとはいえ、内部的にはトークンを生成しているため、出力全体の体感速度は TTFT (最初のトークンまでの時間) + thinking 出力 + 最終回答の合算で評価する必要がある。

推論モデルの仕組みをもう少し詳しく

推論モデルとは、Chain-of-Thought (思考連鎖) を学習段階で内蔵し、推論時に自動展開する設計の LLM のこと。通常モデルとの最大の違いは、回答プロセスそのものが学習対象になっている点になる。

deepseek-r1:8b と qwen3:14b の設計上の違い

deepseek-r1 (Hugging Face モデルカード) によれば、deepseek-r1 は thinking 出力が常時 ON で、回答前に必ず <think>…</think> タグで囲まれた思考過程を展開する仕様になっているとされる。一方の Ollama 公式ライブラリの記述によれば、qwen3 は thinking モードを切り替えて使える切替式として提供されており、用途に応じて推論コストを調整できる構造になっているという。

thinking モードが VRAM に与える影響

thinking が展開されると KV キャッシュが連鎖的に伸び、同パラメータ数の通常モデルより VRAM 使用量が膨らみやすいと報告される。Ollama 公式ライブラリに記載される GGUF サイズ (Q4 量子化重み) は重みの分しか含まないことが多いため、実利用条件の VRAM は GGUF サイズを上回るケースが通例。これが「Web 標準値を信じて GPU を選ぶと足りない」現象の主因とされる。

VRAM 構成要素	通常 LLM	推論モデル
モデル重み (Q4 量子化)	約 5〜6 GB	約 5〜6 GB
KV キャッシュ (推論時)	約 1〜2 GB	約 3〜4 GB (thinking で膨張)
文脈保持領域	約 0.5 GB	約 0.5〜1 GB
thinking 履歴	―	約 1〜2 GB
合計 (本記事 RTX 5080 実測値は推論モデル列 10〜11GB を裏付け)	約 6〜8 GB (一般値)	約 10〜11 GB (本記事実測 10.1GB と整合)

推論モデルと通常の LLM の違い

推論モデルと通常の対話 LLM の違いは、出力前に内部推論を経由するか否かにある。同じ 8B でも消費量と得意分野が大きく分かれるため、用途に応じた使い分けが必須になる。

比較項目	推論モデル (DeepSeek R1 8B / Qwen3 thinking)	通常 LLM (Llama3.1:8b 等)
主な用途	論理推論・数学・コード生成	対話・要約・翻訳
動作の仕組み	thinking 連鎖を内部展開して回答	プロンプト受領 → 直接回答
代表的なツール	deepseek-r1, qwen3 thinking, o1 系列	llama3.1, mistral, gemma3
向いている場面	正答率が重要な業務	即応対話・大量処理
VRAM 消費の傾向	同パラメータ数でも多めとされる	重み + 小さな KV キャッシュ
TTFT (体感応答速度)	遅い (thinking 展開時間)	速い
正答率 (論理問題)	高いとの報告	中

具体的には、社内ナレッジ QA や単純な文章生成なら通常 LLM で十分。一方、数学問題の検算・SQL の最適化・複数ステップを踏むコード設計といった「途中で間違えると致命的な業務」には推論モデルが向いているとされる。

RTX 5080 で実測した deepseek-r1 と qwen3 thinking

推論モデルが実務で動かせるかを判断する指標は、tokens/sec・TTFT・VRAM 使用量の 3 軸になる。当サイトの検証環境 (RTX 5080 16GB / RTX 5060 Ti 16GB / i7-14700F / RAM 96GB / Ollama 0.20.x / NVIDIA Driver 596.21) で実測した結果が以下の通り。

モデル	tokens/sec	TTFT	VRAM 使用量	GPU 温度	消費電力
DeepSeek R1 8B (deepseek-r1:8b)	103.9	9,424 ms	10.1 GB	54.0 °C	264 W
Qwen3 14B (qwen3:14b) thinking	74.2	8,640 ms	10.2 GB	56.0 °C	282 W

ここで押さえておきたいのは、deepseek-r1:8b の VRAM 消費が 10.1 GB になる点。Ollama 公式ライブラリに掲載されている GGUF 公式サイズ (Q4_K_M で約 5.2 GB) と比較すると、当サイト実測は約 2 倍に達した。差分の主因は thinking 履歴と KV キャッシュの加算と推測される。

DeepSeek R1 8B (10.1 GB) と qwen3:14b (10.2 GB) はほぼ同じ VRAM 消費なのに、tokens/sec は 103.9 vs 74.2 で約 1.4 倍の差。8B の deepseek-r1 が thinking 連鎖で KV キャッシュを膨らませた結果、14B 本体の qwen3 とほぼ同じ VRAM 水準に着地している、と読める。

両モデルとも TTFT が約 8.6〜9.4 秒。これは thinking 展開を含めた最初のトークン到達時間で、対話用途で見る TTFT とは性質が異なる指標になる。即応対話用途では「考えている間も何かを表示する」 UI を工夫しないと、待ち時間が体感を悪化させる原因になる。

項目	値
DeepSeek R1 8B 実測 VRAM	10.1 GB (Ollama 公式 GGUF サイズ約 5.2 GB の約 2 倍)
Qwen3 14B thinking 実測 VRAM	10.2 GB
tokens/sec 差	8B 103.9 vs 14B 74.2 (約 1.4 倍)
推奨 GPU VRAM	16 GB 以上 (RTX 5080 / RTX 5070 Ti / RTX 5060 Ti 16GB 等)
計測環境	Ollama 0.20.x / NVIDIA Driver 596.21

VRAM 容量別の動作目安

VRAM 容量別に推論モデルの動作見通しを整理する。

VRAM 容量	動作可能な推論モデル	制約	該当 GPU 例
8 GB 以下	3B〜4B クラス推論特化のみ	thinking 連鎖で頻繁に詰まる	RTX 4060 / RTX 5060
12 GB	deepseek-r1:8b 可、qwen3:8b 可	長文 thinking で限界	RTX 4070 / RTX 4070 Super
16 GB	deepseek-r1:8b / qwen3:14b thinking 余裕	32B 級は不可	RTX 5080 / RTX 5070 Ti / RTX 5060 Ti 16GB
24 GB	32B クラスまで対応	32B Q4 でちょうど	RTX 4090
32 GB 以上	32B クラス + 長文の文脈保持	―	RTX 5090 等の大容量 VRAM 搭載クラス

推論モデルを試す際に押さえておきたいのが、文脈長の設定。Ollama では OLLAMA_CONTEXT_LENGTH 環境変数や num_ctx パラメータで調整できる。thinking 連鎖が長く展開されるモデルでは文脈不足で打ち切りが起きるとの報告があるため、メモリに余裕があれば長めに確保するのが無難。

VRAM が枯渇すると CPU オフロードに切り替わり、tokens/sec が大幅に落ちるケースが報告されている。Web 標準値だけで GPU を選ばず、推論モデルでは目安値の約 1.5 倍を確保するのが安全とされる。

RTX 5060 Ti 16GB での運用見込み｜エントリー 16GB GPU の位置づけ

当サイトの第 2 GPU である RTX 5060 Ti 16GB での同モデル実測値は本記事時点では取得していない。本セクションは VRAM 構造の観点からの予測ベース記述になる点を最初に明示する。

VRAM 使用量はモデル重み + KV キャッシュ + thinking 履歴で決まり、 GPU の演算性能には依存しないため、 RTX 5080 と RTX 5060 Ti で同一モデル・同一文脈長を動かせば VRAM 値はほぼ同等になると見込まれる。一方で tokens/sec は RTX 5080 (Memory Bandwidth 960 GB/s) に対し、RTX 5060 Ti 16GB (約 448 GB/s) はメモリ帯域幅が約半分なので、 KV キャッシュ読み出しがボトルネックになって応答速度は明確に低下する方向に動くと想定される。

結論として、RTX 5060 Ti 16GB は「16GB VRAM 推論モデル運用の最低限ライン」という位置づけになる。具体的な tokens/sec 値は別記事で実測予定としており、本記事ではメモリ予算観点でのみ 16GB クラス GPU の候補として挙げる。

文脈長と VRAM の関係

推論モデルは thinking 連鎖が長く展開されるため、文脈長の設定が VRAM 消費に直結する。一般論として、文脈長を 2 倍にすると KV キャッシュは概ね 2 倍に膨らむ傾向にあるとされる。推論モデルでは thinking 履歴も KV キャッシュに含まれるため、文脈長の設定はメモリ予算と相談しながら決めるのが定石になる。

Ollama 公式ドキュメントによれば現行デフォルト num_ctx は 4,096 トークン。推論モデルは thinking 連鎖が長い問題ではこの 4,096 でも打ち切られやすく、8,192〜16,384 トークン程度が標準運用の現実解とされる。16K 以上の長文推論を扱う場合は、KV キャッシュの伸びを見込んで 16GB 級の VRAM を余裕をもって確保しておきたい。

用途別の推論モデル選定ガイド

thinking 系推論モデルと通常 LLM の選び分け、および推論モデル内でのモデルサイズ選定指針を整理する。

用途	推奨モデル	推奨 VRAM	備考
日常的な対話	llama3.1:8b / qwen3:8b (thinking OFF)	8 GB 以上	応答速度重視
コード生成 (短い断片)	qwen3:14b (thinking OFF)	12 GB 以上	速度との釣り合い
複雑なコード設計	qwen3:14b thinking / deepseek-r1:8b	16 GB 以上	正答率重視
数学・論理問題	deepseek-r1:8b / DeepSeek-R1 32B	16〜24 GB	thinking 常時 ON
長文要約	qwen3:14b (thinking OFF)	12 GB 以上	thinking 不要
SQL 最適化 / クエリ設計	deepseek-r1:8b	16 GB 以上	段階的検証が効く

thinking モードのオン・オフが切り替えられる qwen3 系は、用途ごとに使い分けやすい。深い推論が必要な業務では thinking ON、量を捌きたい場面では thinking OFF、という運用が現実的になる。

量子化レベルと推論モデルの精度バランス

推論モデルは量子化レベルによって VRAM 消費と回答精度の釣り合いが変わる。Ollama 公式ライブラリで提供されている各量子化選択肢を整理する。

量子化レベル	deepseek-r1:8b VRAM	精度低下	推奨用途
Q2_K (最小)	約 3.2 GB (GGUF 公式)	顕著	テスト・実験のみ
Q4_K_M (標準)	約 5.2 GB (Ollama 公式) / 10.1 GB (本記事 RTX 5080 実測)	軽微	標準運用 (本記事計測条件)
Q5_K_M	約 5.8 GB (GGUF 公式) / 未計測	ほぼなし	精度重視
Q8_0	約 8.5 GB (GGUF 公式) / 未計測	ほぼなし	研究用途
FP16 (非量子化)	約 16 GB	―	RTX 5080 では不可

当サイトの実測は Q4_K_M を基準にしている。これは Ollama デフォルトかつ精度と VRAM のバランスが最も実用的な選択肢になる。Q4_K_M GGUF 自体は約 5.2 GB だが、実利用時は KV キャッシュ・thinking 履歴・文脈保持で約 2 倍の 10 GB 前後まで膨らむ。推論モデルでは量子化を Q4 より下げると thinking 連鎖の質が顕著に低下するとの報告があり、Q4 を維持しつつ VRAM 余裕は thinking 履歴と KV キャッシュに振り向けるのが定石になる。Q5_K_M / Q8_0 の実利用時 VRAM は本記事時点では未計測のため、 GGUF 公式サイズに同じ 2 倍ルールを当てるかどうかは別途検証を要する。

thinking 出力の制御と運用上の工夫

deepseek-r1 のように thinking 常時 ON のモデルでも、出力形式を工夫すれば運用負荷を下げられる。実務で使える形式を整理する。

運用形式	方法	適用シーン
thinking タグの非表示	出力から <think>…</think> を正規表現で除去	ユーザー向け UI
thinking 履歴の保存	監査ログとして DB に保存	業務監査・品質確認
thinking 短縮指示	プロンプトで「思考は簡潔に」と明示	応答速度優先
thinking 段階表示	thinking 中を逐次表示	対話 UI 改善
thinking 後処理サマリ	thinking を別 LLM (Haiku 等) で要約	監査要約 + UI

推論モデルの thinking 出力は、業務上の判断トレースとしての価値も持つ。後から「なぜこの結論に至ったか」を追跡できる点は、通常 LLM では得難い特性になる。AI 推論を本番業務に組み込む場合、thinking 履歴を監査ログとして保存しておく運用が推奨される。

まとめ

推論モデルは「対話 LLM と同じ感覚で選ぶと痛い目を見る」性質を持つ領域になる。RTX 5080 で実測した deepseek-r1:8b は約 104 tok/s・VRAM 10.1 GB、Qwen3 14B thinking は約 74 tok/s・VRAM 10.2 GB。Web 上の重みサイズ目安だけを根拠にすると、実利用時の VRAM が約 2 倍まで膨らむケースに対応できないとされる。16GB クラスの GPU を基準に置き、thinking 連鎖の長さを文脈長の設定で制御するのが運用の勘所になる。

まずは推論モデルの定義を理解したうえで、量子化レベルを変えながら自分の環境で VRAM 挙動を確認してみるのが理解への近道になる。当サイトでは RTX 5080 / RTX 5060 Ti 16GB の 2 GPU で各種推論モデルの実測データを継続収集しており、関連記事は Qwen3 vs Gemma LLM 比較および RTX 5080 LLM 比較も参照してほしい。