deepseek-r1:8b の TTFT は llama3.1:8b の 4.5 倍

GPU・グラフィックボード

TTFTとは、リクエスト送信から最初のトークンが返るまでの応答時間である。

ローカルLLMの体感速度を決めるのは tokens/sec だけではありません。RTX 5080 で 7 モデルを横並び計測したところ、DeepSeek R1 8B(Ollama: deepseek-r1:8b) の TTFT は 4115ms、Llama 3.1 8B(Ollama: llama3.1:8b) は 910ms。同一の Llama3.1-8B-Base から派生したはずのモデル同士で約 4.5 倍の開き。サイズでも VRAM 容量でもなく、原因は思考型 LLM が抱える「思考フェーズ」という構造ペナルティにある。本記事では当サイトの RTX 5080 実測データを軸に、なぜ DeepSeek R1 8B(Ollama: deepseek-r1:8b) は出だしが遅いのに生成速度はむしろ Llama 3.1 8B(Ollama: llama3.1:8b) と同水準なのか、その分解結果を提示します。

この記事の要点

  • RTX 5080実測でdeepseek-r1:8bのTTFTは4115ms、llama3.1:8bは910msと4.5倍差
  • tokens/secは136.4 vs 151.5と僅差で、TTFTの差は計算量では説明できない
  • 「サイズ」ではなく「モデル系列(思考型か否か)」がTTFTを決める

思考型 LLM の TTFT が非思考型の 4.5 倍になる理由

「思考型 LLM は遅い」という印象は、ローカルで一度動かせば誰もが感じるところ。ところが何が遅いのかを分解せずに語ると、判断基準を誤ります。同じ 8B クラス・同じ VRAM 7〜8GB 帯のモデルで、TTFT だけが桁違いに長くなる現象が RTX 5080 上で観測されました。以下、まず数字を見るのが早いでしょう。

結論サマリー:同一ベースなのにTTFT 4.5倍

検証環境(RTX 5080 16GB / i7-14700F / RAM 96GB / Ollama 0.22.1)で計測した、DeepSeek R1 8B(Ollama: deepseek-r1:8b) と Llama 3.1 8B(Ollama: llama3.1:8b) のミニ比較が以下です。

項目 DeepSeek R1 8B(Ollama: deepseek-r1:8b) Llama 3.1 8B(Ollama: llama3.1:8b)
ベースモデル Llama3.1-8B-Base(蒸留) Llama3.1-8B
TTFT 4115ms 910ms
tokens/sec 136.4 151.5
VRAM使用量 7.9GB 7.6GB
消費電力 269W 278W
モデル系列 思考型(reasoning) 非思考型

ベースが同じLlama3.1-8B、VRAM使用量も0.3GB差、消費電力もほぼ同等。それでもTTFTだけが910msから4115msへと約4.5倍に伸びている、というのが計測値の事実。tokens/secはむしろ DeepSeek R1 8B(Ollama: deepseek-r1:8b) のほうが Llama 3.1 8B(Ollama: llama3.1:8b) より約10%低い。出だしが圧倒的に遅いのに、出始めてからの速度はほとんど変わらないという、奇妙な逆転構造になっています。

なぜ「同じベース」でこれだけ差が出るのか

純粋な計算量で説明しようとすると詰まります。両モデルともパラメータ数は8B、VRAM消費はほぼ同じ、量子化レベルもOllamaのデフォルト(Q4_K_M相当)で揃っている。にもかかわらずTTFTが4倍以上違うのは、出力の最初のトークンに到達するまでに DeepSeek R1 8B(Ollama: deepseek-r1:8b) が「内部で思考のためのトークンを大量生成している」ため。Ollama 公式のモデルカード(ollama.com/library/deepseek-r1:8b)には、DeepSeek R1 8B(Ollama: deepseek-r1:8b) が DeepSeek-R1-Distill-Llama-8B として公開されており、Llama3.1-8B-Base から強化学習で蒸留された推論モデルだと明記されている。DeepSeek 公式 GitHub でも <think> タグで囲まれた思考フェーズを明示している点が、4115ms という数字の根拠になります。

つまり TTFT 4115ms のうち大半は、ユーザーが見えないところで内部の reasoning トークンを吐き出している時間。tokens/sec が同等なのも当然で、生成エンジン自体の速度は同じLlama3.1-8Bベースなのですから差は出にくい。違いは「ユーザーに見せる前にどれだけ自問自答するか」、ここに集約されます。

RTX 5080 検証環境と計測条件

数字の信頼性は計測環境を晒しているかどうかで決まる、というのがベンチマーク記事の鉄則。当サイトでは以下の環境で 2026-05-06 に計測しました。

ハードウェア・ソフトウェア構成

検証に使用したPCの構成は次の通り。

項目 仕様
GPU NVIDIA GeForce RTX 5080(VRAM 16GB GDDR7)
CPU Intel Core i7-14700F
RAM 96GB
NVIDIAドライバ 596.36
Ollamaバージョン 0.22.1
OS Windows 10(10.0.26200-SP0)
計測日 2026-05-06

GPU は RTX 5080 単体で、デュアルGPU構成のサブGPU(RTX 5060 Ti 16GB)はOllamaが認識しない設定にして単独計測。VRAM 16GB という同一条件で 7 モデルを順番にロードし、TTFT・tokens/sec・VRAM 使用量・GPU 温度・消費電力を nvidia-smi と Ollama 内部のメトリクスから取得しています。

TTFT・tokens/sec の計測定義

ベンチマークで紛れがちなのが「速度」の定義。本記事の数値はそれぞれ以下の意味で使っています。

TTFT(Time To First Token)は、推論リクエストを送ってから最初のトークンがユーザー側に返るまでの時間。単位はミリ秒。プロンプト処理(prompt eval)と思考フェーズの両方を含むため、思考型LLMでは特に大きく膨らむ指標です。

tokens/sec は、最初のトークンが出てから終了までの平均生成速度。TTFTを除いた純粋なデコード速度を表します。出始めてからどれだけ滑らかに文字が流れるか、という体感に直結する数値ですね。

この2つを分けて計測することで、「初回の遅さ」と「生成中の速さ」を独立に評価できる。ローカルLLMでは TTFT と tokens/sec が乖離するケースが多く、両方を見ないと選定を誤ります。

7 モデル TTFT 実測比較表

ここからが本題。同じ RTX 5080 環境で計測した 7 モデルを、TTFT・tokens/sec・VRAM・温度・消費電力の 5 軸で並べました。表に並ぶと「サイズ」と「TTFT」に相関がない事実が一目で見えてきます。

実測表(RTX 5080 / Ollama 0.22.1)

モデル 分類 tokens/sec TTFT(ms) VRAM使用量 GPU温度 消費電力
Llama 3.2 3B(Ollama: llama3.2:3b) 非思考型・小型 293.9 2575 5.1GB 61.0°C 246W
Phi-4-mini 3.8B(Ollama: phi4-mini:3.8b) 非思考型・小型 253.5 3684 5.8GB 60.0°C 251W
gemma3:4b 非思考型・小型 199.6 3860 5.7GB 62.0°C 225W
Mistral 7B(Ollama: mistral:7b) 非思考型 161.0 1119 7.2GB 65.0°C 288W
Llama 3.1 8B(Ollama: llama3.1:8b) 非思考型 151.5 910 7.6GB 61.0°C 278W
DeepSeek R1 8B(Ollama: deepseek-r1:8b) 思考型 136.4 4115 7.9GB 59.0°C 269W
Qwen3.5 9B(Ollama: qwen3.5:9b) 思考型 110.6 3458 9.7GB 60.0°C 250W

VRAM 使用量で並べ替えても、TTFT は単調増加していません。最も VRAM を食う Qwen3.5 9B(Ollama: qwen3.5:9b)(9.7GB)の TTFT が 3458ms である一方、より小さい Llama 3.1 8B(Ollama: llama3.1:8b)(7.6GB)が 910ms。サイズと TTFT は無相関、というのがこの表から最初に読み取れる事実。

表から読み取れる 3 つのパターン

7 モデルを TTFT 軸でグループ化すると、明確に 3 つのパターンが浮かび上がります。

パターン1:非思考型・中サイズ(TTFT 短い) — Llama 3.1 8B(Ollama: llama3.1:8b)(910ms)、Mistral 7B(Ollama: mistral:7b)(1119ms)。8B 前後のサイズで素直なアーキテクチャを持つモデルは、プロンプト処理が終わるとすぐに最初のトークンを出力。TTFT は 1 秒前後で収まり、対話用途で違和感がない速度。

パターン2:思考型(TTFT 長い) — DeepSeek R1 8B(Ollama: deepseek-r1:8b)(4115ms)、Qwen3.5 9B(Ollama: qwen3.5:9b)(3458ms)。サイズは中程度でも、内部に reasoning トークンを生成する構造を持つため TTFT が 3〜4 秒台に伸びる。tokens/sec はむしろ低めで、出力品質を取りにいく代わりに体感速度を犠牲にする系列。

パターン3:小型なのに TTFT が長い — Phi-4-mini 3.8B(Ollama: phi4-mini:3.8b)(3684ms)、Gemma 3 4B(Ollama: gemma3:4b)(3860ms)。3〜4B クラスでサイズは小さいのに、TTFT は思考型と同等に長い。Microsoft の Phi 系列や Google の Gemma 系列は学習データ・チューニング方針の違いでプロンプト処理に時間を要する傾向があり、サイズ=速さの直感が外れるゾーン。

3 パターンに分けると、「TTFTを短くしたいなら Llama 3.1 8B(Ollama: llama3.1:8b) か Mistral 7B(Ollama: mistral:7b) の二択、思考型が必要なら DeepSeek R1 8B(Ollama: deepseek-r1:8b) で初動の遅さを許容する」という選択軸がそのまま見えてきます。

サイズだけ見て「3B のほうが 8B より速いはず」と思い込むと選定を誤ります。Phi-4-mini 3.8B(Ollama: phi4-mini:3.8b)(3684ms)は Llama 3.1 8B(Ollama: llama3.1:8b)(910ms)より TTFT が 4 倍長い。サイズ・系列・量子化の 3 軸で評価すること。

DeepSeek R1 8B(Ollama: deepseek-r1:8b) の正体と思考フェーズの仕組み

「思考型は遅い」とまとめてしまう前に、DeepSeek R1 8B(Ollama: deepseek-r1:8b) というモデルが何者なのかを公式情報で押さえておきます。出典が固まっていれば、TTFT 4115ms という数字の意味も腑に落ちる構造ですね。

ベースモデルと蒸留プロセス(公式情報ベース)

Ollama 公式モデルカード(ollama.com/library/deepseek-r1:8b)によれば、DeepSeek R1 8B(Ollama: deepseek-r1:8b) の正式名称は DeepSeek-R1-Distill-Llama-8B。Meta の Llama3.1-8B-Base に対し、DeepSeek-R1(フルサイズの推論モデル)の出力を教師データとした強化学習で蒸留したモデル、と明記されています。つまりベースアーキテクチャは Llama 3.1 8B(Ollama: llama3.1:8b) と同じ Llama3.1-8B 系列で、量子化レベル(Ollamaデフォルト Q4_K_M 相当)も近い。両者で VRAM 使用量が 7.9GB と 7.6GB と僅差なのは、この同根構造による帰結です。

DeepSeek 公式 GitHub(github.com/deepseek-ai/deepseek-r1)の README には、R1 系列が「テスト時間スケーリング(test-time compute scaling)」を推論パイプラインの中核に据える方針が書かれており、<think></think> というタグで囲まれた思考フェーズを生成してから最終回答を返す仕組みが明示されている。蒸留版である DeepSeek R1 8B(Ollama: deepseek-r1:8b) にもこの構造はそのまま継承されており、Llama3.1-8B のアーキテクチャに「思考のクセ」が学習で焼き込まれている、という理解が公式情報と整合します。

ベースは同じ、量子化も同じ、VRAM もほぼ同じ。違うのはトレーニング段階で叩き込まれた「最終回答の前にまず考える」という挙動だけ、と言い換えられます。

thinking phase が TTFT を押し上げる仕組み

ユーザーから見ると、DeepSeek R1 8B(Ollama: deepseek-r1:8b) に質問を投げると 4 秒間ほど何も返ってこず、その後にぱらぱらと文字が出始める、という体験になる。この「無音の 4 秒」の中で何が起きているかが TTFT 構造ペナルティの本質。

TTFT の内訳は大まかに以下のように分解されます。

フェーズ 非思考型(Llama 3.1 8B(Ollama: llama3.1:8b)) 思考型(DeepSeek R1 8B(Ollama: deepseek-r1:8b))
プロンプト処理 含まれる 含まれる
思考トークン生成 なし 数百〜数千トークン
最終回答の最初のトークン到達 910ms 4115ms

非思考型では、プロンプトを処理し終わった瞬間から最終回答のトークンを返し始める。一方の思考型は、プロンプト処理に加えて <think>…</think> のブロックを内部で生成しきってから、ようやくユーザー向けの最終回答を吐き出す。tokens/sec が 136.4(DeepSeek R1 8B(Ollama: deepseek-r1:8b))と 151.5(Llama 3.1 8B(Ollama: llama3.1:8b))でほぼ同水準であることを思い出すと、思考フェーズで生成しているトークン数は概算で「(4115 − 910) × 0.001 × 136.4 ≒ 437 トークン」前後と見積もれます。約 400〜500 トークン分の自問自答が、ユーザーには見えない場所で走っている計算。

ここまで読むと、DeepSeek R1 8B(Ollama: deepseek-r1:8b) の TTFT 4115ms は「遅い」ではなく「設計通り」だと分かるはず。ただし設計通りであることと、用途に合うかどうかは別問題。次のパートでは tokens/sec と TTFT の逆転現象、サイズではなく系列で TTFT が決まる構造、そして実際のユースケースでどちらを選ぶべきかを掘り下げます。

tokens/sec と TTFT の逆転現象

ここからが体感差の本丸。生成速度(tokens/sec)だけ見ると差はほぼないのに、最初の応答が返るまでの沈黙時間に大きな開きが生まれます。

計算量では説明できないギャップ

当サイトの検証環境(RTX 5080 16GB / i7-14700F / RAM 96GB)の実測値を並べると、DeepSeek R1 8B(Ollama: deepseek-r1:8b) は 136.4 tok/s、Llama 3.1 8B(Ollama: llama3.1:8b) は 151.5 tok/s。差は約 10% にすぎません。一方で TTFT は 910ms と 4115ms と、4.5 倍差。仮に純粋な計算負荷だけが原因なら、tok/s も同じ比率で落ちるはず。実測はそうなっていません。差を生んでいるのは、ユーザーに見えない思考トークンの生成量です。

ストリーミング表示時の体感差

ストリーミング表示では、出始めた後の流速はほぼ同等。問題は「最初の1秒間に何も起きない」という沈黙。Llama 3.1 8B(Ollama: llama3.1:8b) は1秒未満で書き始める一方、DeepSeek R1 8B(Ollama: deepseek-r1:8b) は4秒間沈黙する。短い質問を投げる用途では、この体感差が決定的です。

「サイズ」ではなく「モデル系列」が TTFT を決める

軽いモデルなら TTFT も短い、と考えがちですが、実測は違う傾向を示します。

小型モデルが必ずしも速いとは限らない

実測値を抜粋:

  • Phi-4-mini 3.8B(Ollama: phi4-mini:3.8b) → TTFT 3684ms(VRAM 5.8GB)
  • Gemma 3 4B(Ollama: gemma3:4b) → TTFT 3860ms(VRAM 5.7GB)
  • Mistral 7B(Ollama: mistral:7b) → TTFT 1119ms(VRAM 7.2GB)

3.8B クラスが 7B クラスより 3 倍遅い、という反直観的な現象。パラメータ数より「モデル系列が思考型寄りか、応答型寄りか」のほうが TTFT への影響が大きいと読み取れます。

モデル選定で見るべき2つの軸

ローカルLLM選定では、サイズだけでなく次の2軸で見る必要があります。

  • 系列軸: 推論モデル(DeepSeek-R1系・Qwen3 thinking系)か、応答モデル(Llama3.1系・Mistral系)か
  • 量子化軸: Q4_K_M / Q5_K_M / Q6_K のどれを使うか

VRAM 16GB に収まるかどうかは量子化軸、TTFT が許容範囲かどうかは系列軸で決まる構造です。

用途別の使い分け:思考型を選ぶべきケース・避けるべきケース

思考型は「常用」ではなく「用途で選ぶ」モデル。線引きを実用シーンに落とし込みます。

思考型が活きるユースケース

  • コード生成(バグ修正・リファクタ・設計検討)
  • 数学・論理パズル・段階推論が必要なタスク
  • 長文ドラフトのリライトや構造化
  • ユーザーが応答開始まで数秒待てるバッチ処理系

これらは初動の数秒沈黙が許容され、出力品質の向上が体感に勝るケース。

非思考型を選ぶべきユースケース

  • チャットbot・対話UIで応答の即時性が要るとき
  • 短文要約・キーワード抽出など軽量タスク
  • 1秒以内に書き始めてほしいライブ字幕用途
  • IDE 補完のように人間の思考速度に追随したい場面

Llama 3.1 8B(Ollama: llama3.1:8b) の 910ms と Mistral 7B(Ollama: mistral:7b) の 1119ms は、この層の有力候補。当サイト検証環境の実測でも、対話用途は応答型一択という結論になります。

主要スペックサマリー

DeepSeek R1 8B(Ollama: deepseek-r1:8b) TTFT 4115ms
Llama 3.1 8B(Ollama: llama3.1:8b) TTFT 910ms
TTFT 差倍率 約4.5倍
tokens/sec 差 約10%(136.4 vs 151.5)
検証GPU NVIDIA GeForce RTX 5080(VRAM 16GB)
計測日 2026年5月6日

よくある質問

Q. TTFT が長くても tokens/sec が同じなら結局同じ速度では?

長文生成だけなら近い速度に収束します。ただし短い応答や対話では「最初の1秒の沈黙」がそのまま体感の遅さに直結する点。100文字程度の応答だと、思考型は4秒沈黙+0.7秒生成、応答型は1秒未満で書き終わる、という差になります。

Q. RTX 5060 Ti でも同じ傾向は出る?

傾向は同じく出ます。TTFT の絶対値は GPU 性能で多少伸びるものの、思考型と非思考型の比率(4〜5倍)は構造由来のため GPU を変えても消えません。当サイトの RTX 5060 Ti 16GB 検証でも、相対比は維持される結果でした。

Q. 思考型と非思考型はどちらを常用すべき?

「常用」を一本化するなら、用途の8割が対話・補完寄りなら非思考型(Llama 3.1 8B(Ollama: llama3.1:8b) 等)。コード支援・推論タスクが中心なら DeepSeek R1 8B(Ollama: deepseek-r1:8b) を別枠で用意する2モデル運用が現実解です。Ollama は複数モデルを同時保持できるため、用途で切り替える運用が手間なく組めます。

出典・参考

まとめ

同じ Llama3.1-8B-Base から派生した DeepSeek R1 8B(Ollama: deepseek-r1:8b) と Llama 3.1 8B(Ollama: llama3.1:8b) で、TTFT は約 4.5 倍の差。原因は計算量ではなく、思考型モデルが内部で生成する <think> トークン。サイズではなく系列で TTFT が決まる、という構造を押さえれば、用途別に最適なローカルLLMを選べます。対話・補完用途には応答型、推論・コード支援には思考型。RTX 5080 16GB であれば、両方を保持して用途で切り替える運用が最も合理的な選択肢。



当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。

計測時点: 2026-05-05 / 本ページの計測は上記時点のもの。製品アップデートや第三者ベンチマーク公表により評価が変わる可能性があります。30日以上経過した内容は再検証を推奨します。

タイトルとURLをコピーしました