推論モデルとは?deepseek-r1とqwen3 thinkingの違いをRTX 5080実測で解説

GPU・グラフィックボード

推論モデルとは、回答前に内部でthinking連鎖を展開して論理を組み立てるLLM群である。

ローカルで推論モデルを動かそうとして、Web上の「VRAM 6.2GBで足りる」という記載を信じて16GBクラスのGPUを買ったのに、実際には10GB前後を消費して挙動が苦しくなる——こんなケースが起きやすいのが推論モデル。当サイトの検証環境(RTX 5080 16GB / RTX 5060 Ti 16GB / i7-14700F / RAM 96GB)でdeepseek-r1:8bとqwen3:14b thinkingモードを実測したところ、Web一般値と無視できない差が出ました。

この記事の要点

  • 推論モデルはthinking連鎖を内部展開するため、同パラメータ数の対話モデルよりVRAM消費が膨らむ
  • deepseek-r1:8bはthinking常時ON、qwen3はthinkingモード切替が可能という設計差がある
  • Web掲載のQ4 VRAM値の約1.5倍を見積もるのが現実的な選定ライン

推論モデルとは:一言で言うと

推論モデル(reasoning LLM)とは、回答を出す前に思考過程(thinking)を内部展開し、その推論を経由して結論を返すLLM群のこと。OpenAIのo1系列やDeepSeek-R1がこの設計の代表例で、通常の対話モデルに比べて論理推論・数学・コード生成の正答率が高くなる代わりに、生成トークン数とVRAM消費が増える性質を持ちます。

ローカル環境で動かす場合、tokens/secだけを見ても実用感はつかめません。thinking部分はユーザーに直接見えない場合があるとはいえ、内部的にはトークンを生成しているため、レスポンス全体の体感速度はTTFT(最初のトークンまでの時間)+ thinking出力 + 最終回答の合算で評価する必要があります。

推論モデルの仕組みをもう少し詳しく

推論モデルとは、Chain-of-Thought(思考連鎖)を学習段階で内蔵し、推論時に自動展開する設計のLLMである。通常モデルとの最大の違いは、回答プロセスそのものが学習対象になっている点。

deepseek-r1:8bとqwen3:14bの設計上の違い

deepseek-r1はthinking出力が常時ONで、回答前に必ず<think>…</think>タグで囲まれた思考過程を展開する仕様。一方のqwen3はOllama公式ライブラリの記述上、thinkingモードを切り替えて使えるハイブリッド型として提供されており、用途に応じて推論コストを調整できる構造になっています。

thinkingモードがVRAMに与える影響

thinkingが展開されるとKVキャッシュが連鎖的に伸び、同パラメータ数の通常モデルよりVRAM使用量が膨らみやすい。Web上のVRAM目安値(多くはQ4量子化の重み単体サイズ)は重みの分しか含んでいないことが多いため、実利用条件のVRAMは目安値を上回るケースが通例。これが「Web標準値を信じてGPUを選ぶと足りない」現象の正体です。

推論モデルと通常のLLMの違い

推論モデルと通常の対話LLMの違いは、出力前に内部推論を経由するか否かにある。同じ8Bでも消費リソースと得意分野が大きく分かれるため、用途に応じた使い分けが必須。

比較項目 推論モデル(DeepSeek R1 8B(Ollama: deepseek-r1:8b)) 通常LLM(llama3.1:8b等)
主な用途 論理推論・数学・コード生成 対話・要約・翻訳
動作の仕組み thinking連鎖を内部展開して回答 プロンプト受領→直接回答
代表的なツール deepseek-r1, qwen3 thinking, o1系列 llama3.1, mistral, gemma3
向いている場面 正答率が重要な業務 リアルタイム対話・大量処理
VRAM消費の傾向 同パラメータ数でも多め 重み+小さなKVキャッシュ

具体的には、社内ナレッジQAや単純な文章生成なら通常LLMで十分。一方、数学問題の検算・SQLの最適化・複数ステップを踏むコード設計といった「途中で間違えるとアウトな業務」には推論モデルが向いています。

RTX 5080で実測したdeepseek-r1とqwen3 thinking

推論モデルが実務で動かせるかを判断する指標は、tokens/sec・TTFT・VRAM使用量の3軸。当サイトの検証環境(RTX 5080 16GB / RTX 5060 Ti 16GB / i7-14700F / RAM 96GB / Ollama 0.20.7 / NVIDIAドライバ 596.21)で実測した結果が以下の通り。

モデル tokens/sec TTFT VRAM使用量 GPU温度 消費電力
DeepSeek R1 8B(Ollama: deepseek-r1:8b) 103.9 9424ms 10.1GB 54.0°C 264W
Qwen3 14B(Ollama: qwen3:14b)(thinking) 74.2 8640ms 10.2GB 56.0°C 282W

注目すべきは、deepseek-r1:8bのVRAM消費10.1GB。Ollama公式ライブラリの目安として知られるQ4で約6.2GBという値と比較すると、当サイト実測は約1.6倍(約63%増)に達しました。差分の主因はthinking履歴のKVキャッシュと推測されます。

当サイトの検証環境で生成したAI動画サンプルを以下に置きます。

DeepSeek R1 8B(Ollama: deepseek-r1:8b)(10.1GB)とqwen3:14b(10.2GB)はほぼ同じVRAM消費なのに、tokens/secは103.9 vs 74.2で約1.4倍の差。8Bのdeepseek-r1がthinking連鎖でKVキャッシュを膨らませた結果、14B本体のqwen3とほぼ同じVRAMラインに着地している、と読めます。

両モデルともTTFTが約8.6〜9.4秒。これはthinking展開を含めた最初のトークン到達時間で、対話用途で見るTTFTとは性質が異なる指標。リアルタイム対話用途では「考えている間も何かを表示する」UIを工夫しないと、待ち時間が体感を悪化させる原因になります。

DeepSeek R1 8B(Ollama: deepseek-r1:8b) 実測VRAM 10.1GB(Web目安 約6.2GBの約1.6倍)
Qwen3 14B(Ollama: qwen3:14b) thinking 実測VRAM 10.2GB
tokens/sec差 8B 103.9 vs 14B 74.2(約1.4倍)
推奨GPU VRAM 16GB以上(RTX 5080 / RTX 5070 Ti / RTX 5060 Ti 16GB等)
計測環境 Ollama 0.20.7 / NVIDIAドライバ 596.21

VRAM容量別の動作目安は次の通り。

  • 8GB以下: 推論モデルはほぼ厳しい。3B〜4Bクラスの推論特化モデルが実験範囲
  • 12GB: deepseek-r1:8bは動くが、thinking連鎖が長くなると詰まる場面が出る
  • 16GB: DeepSeek R1 8B(Ollama: deepseek-r1:8b)・Qwen3 14B(Ollama: qwen3:14b) thinkingともに余裕を持って動かせる
  • 24GB以上: 32Bクラスの推論モデルやコンテキスト超長尺にも対応
推論モデルを試す際に押さえておきたいのが、コンテキスト長の設定。OllamaではOLLAMA_CONTEXT_LENGTH環境変数やnum_ctxパラメータで調整できます。thinking連鎖が長く展開されるモデルではコンテキスト不足で打ち切りが起きるため、メモリに余裕があれば長めに確保するのが無難。
VRAMが枯渇するとCPUオフロードに切り替わり、tokens/secが大幅に落ちるケースが報告されています。Web標準値だけでGPUを選ばず、推論モデルでは目安値の約1.5倍を確保するのが安全。

まとめ

推論モデルは「対話LLMと同じ感覚で選ぶと痛い目を見る」性質を持つジャンル。RTX 5080で実測したdeepseek-r1:8bは約104tok/s・VRAM 10.1GB、Qwen3 14B(Ollama: qwen3:14b) thinkingは約74tok/s・VRAM 10.2GB。Web上の重みサイズ目安だけを根拠にすると、実利用時のVRAMが約1.6倍まで膨らむケースに対応できません。16GBクラスのGPUを基準に置き、thinking連鎖の長さをコンテキスト設定でコントロールするのが運用の勘所。まずは推論モデルの定義を理解したうえで、量子化レベルを変えながら自分の環境でVRAM挙動を確認してみるのが理解への近道です。

よくある質問

Q. RTX 5060 Ti 16GBでもdeepseek-r1:8bは動く?

動きます。当サイトの検証環境ではdeepseek-r1:8bの実測VRAM消費が10.1GBなので、16GB搭載のRTX 5060 Ti 16GBなら余裕を持って動作する範囲。tokens/secはRTX 5080より下がる傾向ですが、推論モデルの実用範囲には収まります。

Q. thinkingオフにすればVRAMは減る?

qwen3のようなthinking切替対応モデルでは、オフ時にKVキャッシュの伸びが抑えられるため理論上はVRAM消費が減る方向。ただしdeepseek-r1はthinking常時ONの設計なので、シンプルにオフへ切り替える運用は想定されていません。

Q. Web上のVRAM目安と実測がズレるのはなぜ?

Web上の目安値はQ4量子化の重みサイズだけをカウントしている場合が多いから。実利用時はKVキャッシュ・コンテキスト・thinking履歴が加算されるため、特に推論モデルでは目安値の約1.5〜1.6倍を確保しておくのが現実的です。


当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。

おすすめパーツ 価格まとめ

製品名 カテゴリ スペック 参考価格
RTX 5080 GPU・グラフィックボード NVIDIA GeForce RTX 5080 16GB GDDR7 ¥199,800〜
(kakaku.com最安値・2026/04/29)
RTX 5070 Ti GPU・グラフィックボード NVIDIA GeForce RTX 5070 Ti 16GB GDDR7 ¥158,000〜
(kakaku.com最安値・2026/04/29)

本記事は AIハードウェア図鑑 編集部 が記載時点の情報をもとに執筆。製品アップデートや第三者ベンチマーク・価格・対応ランタイム等の変動で評価が変わる可能性がある。一定期間経過した内容は再検証を推奨する。

タイトルとURLをコピーしました