deepseek-r1:8b の TTFT は llama3.1:8b の 4.5 倍

TTFTとは、リクエスト送信から最初のトークンが返るまでの応答時間である。

ローカルLLMの体感速度を決めるのは tokens/sec だけではありません。RTX 5080 で 7 モデルを横並び計測したところ、DeepSeek R1 8B（Ollama: deepseek-r1:8b）の TTFT は 4115ms、Llama 3.1 8B（Ollama: llama3.1:8b）は 910ms。ベースは異なる（DeepSeek R1 8B は現行 Qwen3 系蒸留、Llama 3.1 8B は Llama 系）ものの、ともに 8B クラスでありながら約 4.5 倍の開き。サイズでも VRAM 容量でもなく、原因は思考型 LLM が抱える「思考フェーズ」という構造ペナルティにある。本記事では当サイトの RTX 5080 実測データを軸に、なぜ DeepSeek R1 8B（Ollama: deepseek-r1:8b）は出だしが遅いのに生成速度はむしろ Llama 3.1 8B（Ollama: llama3.1:8b）と同水準なのか、その分解結果を提示します。

この記事の要点

RTX 5080実測でdeepseek-r1:8bのTTFTは4115ms、llama3.1:8bは910msと4.5倍差
tokens/secは136.4 vs 151.5と僅差で、TTFTの差は計算量では説明できない
「サイズ」ではなく「モデル系列（思考型か否か）」がTTFTを決める

思考型 LLM の TTFT が非思考型の 4.5 倍になる理由
1. 結論サマリー：同一ベースなのにTTFT 4.5倍
2. なぜ「同じベース」でこれだけ差が出るのか
RTX 5080 検証環境と計測条件
1. ハードウェア・ソフトウェア構成
2. TTFT・tokens/sec の計測定義
7 モデル TTFT 実測比較表
1. 実測表（RTX 5080 / Ollama 0.22.1）
2. 表から読み取れる 3 つのパターン
DeepSeek R1 8B（Ollama: deepseek-r1:8b）の正体と思考フェーズの仕組み
1. ベースモデルと蒸留プロセス（公式情報ベース）
2. thinking phase が TTFT を押し上げる仕組み
tokens/sec と TTFT の逆転現象
1. 計算量では説明できないギャップ
2. ストリーミング表示時の体感差
「サイズ」ではなく「モデル系列」が TTFT を決める
1. 小型モデルが必ずしも速いとは限らない
2. モデル選定で見るべき2つの軸
用途別の使い分け：思考型を選ぶべきケース・避けるべきケース
1. 思考型が活きるユースケース
2. 非思考型を選ぶべきユースケース
主要スペックサマリー
まとめ

思考型 LLM の TTFT が非思考型の 4.5 倍になる理由

「思考型 LLM は遅い」という印象は、ローカルで一度動かせば誰もが感じるところ。ところが何が遅いのかを分解せずに語ると、判断基準を誤ります。同じ 8B クラス・同じ VRAM 7〜8GB 帯のモデルで、TTFT だけが桁違いに長くなる現象が RTX 5080 上で観測されました。以下、まず数字を見るのが早いでしょう。

結論サマリー：同一ベースなのにTTFT 4.5倍

検証環境（RTX 5080 16GB / i7-14700F / RAM 96GB / Ollama 0.22.1）で計測した、DeepSeek R1 8B（Ollama: deepseek-r1:8b）と Llama 3.1 8B（Ollama: llama3.1:8b）のミニ比較が以下です。

項目	DeepSeek R1 8B（Ollama: deepseek-r1:8b）	Llama 3.1 8B（Ollama: llama3.1:8b）
ベースモデル	Qwen3 系蒸留（DeepSeek-R1-0528-Qwen3-8B）	Llama3.1-8B
TTFT	4115ms	910ms
tokens/sec	136.4	151.5
VRAM使用量	7.9GB	7.6GB
消費電力	269W	278W
モデル系列	思考型（reasoning）	非思考型

ベースが同じLlama3.1-8B、VRAM使用量も0.3GB差、消費電力もほぼ同等。それでもTTFTだけが910msから4115msへと約4.5倍に伸びている、というのが計測値の事実。tokens/secはむしろ DeepSeek R1 8B（Ollama: deepseek-r1:8b）のほうが Llama 3.1 8B（Ollama: llama3.1:8b）より約10%低い。出だしが圧倒的に遅いのに、出始めてからの速度はほとんど変わらないという、奇妙な逆転構造になっています。

なぜ「同じベース」でこれだけ差が出るのか

純粋な計算量で説明しようとすると詰まります。両モデルともパラメータ数は8B、VRAM消費はほぼ同じ、量子化レベルもOllamaのデフォルト（Q4_K_M相当）で揃っている。にもかかわらずTTFTが4倍以上違うのは、出力の最初のトークンに到達するまでに DeepSeek R1 8B（Ollama: deepseek-r1:8b）が「内部で思考のためのトークンを大量生成している」ため。Ollama 公式のモデルカード（ollama.com/library/deepseek-r1:8b）には、DeepSeek R1 8B（Ollama: deepseek-r1:8b）が現行では DeepSeek-R1-0528-Qwen3-8B（Qwen3-8B ベース）として公開されており、DeepSeek-R1 の出力から蒸留された推論モデルだと明記されている。DeepSeek 公式 GitHub でも <think> タグで囲まれた思考フェーズを明示している点が、4115ms という数字の根拠になります。

つまり TTFT 4115ms のうち大半は、ユーザーが見えないところで内部の reasoning トークンを吐き出している時間。tokens/sec が同等なのも当然で、生成エンジン自体の速度は同じLlama3.1-8Bベースなのですから差は出にくい。違いは「ユーザーに見せる前にどれだけ自問自答するか」、ここに集約されます。

RTX 5080 検証環境と計測条件

数字の信頼性は計測環境を晒しているかどうかで決まる、というのがベンチマーク記事の鉄則。当サイトでは以下の環境で 2026-05-06 に計測しました。

ハードウェア・ソフトウェア構成

検証に使用したPCの構成は次の通り。

項目	仕様
GPU	NVIDIA GeForce RTX 5080（VRAM 16GB GDDR7）
CPU	Intel Core i7-14700F
RAM	96GB
NVIDIAドライバ	596.36
Ollamaバージョン	0.22.1
OS	Windows 10（10.0.26200-SP0）
計測日	2026-05-06

GPU は RTX 5080 単体で、デュアルGPU構成のサブGPU（RTX 5060 Ti 16GB）はOllamaが認識しない設定にして単独計測。VRAM 16GB という同一条件で 7 モデルを順番にロードし、TTFT・tokens/sec・VRAM 使用量・GPU 温度・消費電力を nvidia-smi と Ollama 内部のメトリクスから取得しています。

TTFT・tokens/sec の計測定義

ベンチマークで紛れがちなのが「速度」の定義。本記事の数値はそれぞれ以下の意味で使っています。

TTFT（Time To First Token）は、推論リクエストを送ってから最初のトークンがユーザー側に返るまでの時間。単位はミリ秒。プロンプト処理（prompt eval）と思考フェーズの両方を含むため、思考型LLMでは特に大きく膨らむ指標です。

tokens/sec は、最初のトークンが出てから終了までの平均生成速度。TTFTを除いた純粋なデコード速度を表します。出始めてからどれだけ滑らかに文字が流れるか、という体感に直結する数値ですね。

この2つを分けて計測することで、「初回の遅さ」と「生成中の速さ」を独立に評価できる。ローカルLLMでは TTFT と tokens/sec が乖離するケースが多く、両方を見ないと選定を誤ります。

7 モデル TTFT 実測比較表

ここからが本題。同じ RTX 5080 環境で計測した 7 モデルを、TTFT・tokens/sec・VRAM・温度・消費電力の 5 軸で並べました。表に並ぶと「サイズ」と「TTFT」に相関がない事実が一目で見えてきます。

実測表（RTX 5080 / Ollama 0.22.1）

モデル	分類	tokens/sec	TTFT(ms)	VRAM使用量	GPU温度	消費電力
Llama 3.2 3B（Ollama: llama3.2:3b）	非思考型・小型	293.9	2575	5.1GB	61.0°C	246W
Phi-4-mini 3.8B（Ollama: phi4-mini:3.8b）	非思考型・小型	253.5	3684	5.8GB	60.0°C	251W
gemma3:4b	非思考型・小型	199.6	3860	5.7GB	62.0°C	225W
Mistral 7B（Ollama: mistral:7b）	非思考型	161.0	1119	7.2GB	65.0°C	288W
Llama 3.1 8B（Ollama: llama3.1:8b）	非思考型	151.5	910	7.6GB	61.0°C	278W
DeepSeek R1 8B（Ollama: deepseek-r1:8b）	思考型	136.4	4115	7.9GB	59.0°C	269W
Qwen3.5 9B（Ollama: qwen3.5:9b）	思考型	110.6	3458	9.7GB	60.0°C	250W

VRAM 使用量で並べ替えても、TTFT は単調増加していません。最も VRAM を食う Qwen3.5 9B（Ollama: qwen3.5:9b）（9.7GB）の TTFT が 3458ms である一方、より小さい Llama 3.1 8B（Ollama: llama3.1:8b）（7.6GB）が 910ms。サイズと TTFT は無相関、というのがこの表から最初に読み取れる事実。

表から読み取れる 3 つのパターン

7 モデルを TTFT 軸でグループ化すると、明確に 3 つのパターンが浮かび上がります。

パターン1：非思考型・中サイズ（TTFT 短い） — Llama 3.1 8B（Ollama: llama3.1:8b）（910ms）、Mistral 7B（Ollama: mistral:7b）（1119ms）。8B 前後のサイズで素直なアーキテクチャを持つモデルは、プロンプト処理が終わるとすぐに最初のトークンを出力。TTFT は 1 秒前後で収まり、対話用途で違和感がない速度。

パターン2：思考型（TTFT 長い） — DeepSeek R1 8B（Ollama: deepseek-r1:8b）（4115ms）、Qwen3.5 9B（Ollama: qwen3.5:9b）（3458ms）。サイズは中程度でも、内部に reasoning トークンを生成する構造を持つため TTFT が 3〜4 秒台に伸びる。tokens/sec はむしろ低めで、出力品質を取りにいく代わりに体感速度を犠牲にする系列。

パターン3：小型なのに TTFT が長い — Phi-4-mini 3.8B（Ollama: phi4-mini:3.8b）（3684ms）、Gemma 3 4B（Ollama: gemma3:4b）（3860ms）。3〜4B クラスでサイズは小さいのに、TTFT は思考型と同等に長い。Microsoft の Phi 系列や Google の Gemma 系列は学習データ・チューニング方針の違いでプロンプト処理に時間を要する傾向があり、サイズ＝速さの直感が外れるゾーン。

3 パターンに分けると、「TTFTを短くしたいなら Llama 3.1 8B（Ollama: llama3.1:8b）か Mistral 7B（Ollama: mistral:7b）の二択、思考型が必要なら DeepSeek R1 8B（Ollama: deepseek-r1:8b）で初動の遅さを許容する」という選択軸がそのまま見えてきます。

サイズだけ見て「3B のほうが 8B より速いはず」と思い込むと選定を誤ります。Phi-4-mini 3.8B（Ollama: phi4-mini:3.8b）（3684ms）は Llama 3.1 8B（Ollama: llama3.1:8b）（910ms）より TTFT が 4 倍長い。サイズ・系列・量子化の 3 軸で評価すること。

DeepSeek R1 8B（Ollama: deepseek-r1:8b）の正体と思考フェーズの仕組み

「思考型は遅い」とまとめてしまう前に、DeepSeek R1 8B（Ollama: deepseek-r1:8b）というモデルが何者なのかを公式情報で押さえておきます。出典が固まっていれば、TTFT 4115ms という数字の意味も腑に落ちる構造ですね。

ベースモデルと蒸留プロセス（公式情報ベース）

Ollama 公式モデルカード（ollama.com/library/deepseek-r1:8b）によれば、DeepSeek R1 8B（Ollama: deepseek-r1:8b）は、現行では DeepSeek-R1-0528-Qwen3-8B（Qwen3-8B Base に DeepSeek-R1 の出力を蒸留した推論モデル）を指します。Llama 系をベースにした蒸留版は deepseek-r1:8b-llama-distill-* という別タグで提供されています。両モデルのベースアーキテクチャは異なるが、ともに 8B クラスの蒸留モデルで生成エンジンの規模が近く、量子化レベル（Ollamaデフォルト Q4_K_M 相当）も近い。VRAM 使用量が 7.9GB と 7.6GB と僅差なのは、この規模の近さによる。

DeepSeek 公式 GitHub（github.com/deepseek-ai/DeepSeek-R1）の README には、R1 系列が「テスト時間スケーリング（test-time compute scaling）」を推論パイプラインの中核に据える方針が書かれており、<think> と </think> というタグで囲まれた思考フェーズを生成してから最終回答を返す仕組みが明示されている。蒸留版である DeepSeek R1 8B（Ollama: deepseek-r1:8b）にもこの構造はそのまま継承されており、Llama3.1-8B のアーキテクチャに「思考のクセ」が学習で焼き込まれている、という理解が公式情報と整合します。

ベースは同じ、量子化も同じ、VRAM もほぼ同じ。違うのはトレーニング段階で叩き込まれた「最終回答の前にまず考える」という挙動だけ、と言い換えられます。

thinking phase が TTFT を押し上げる仕組み

ユーザーから見ると、DeepSeek R1 8B（Ollama: deepseek-r1:8b）に質問を投げると 4 秒間ほど何も返ってこず、その後にぱらぱらと文字が出始める、という体験になる。この「無音の 4 秒」の中で何が起きているかが TTFT 構造ペナルティの本質。

TTFT の内訳は大まかに以下のように分解されます。

フェーズ	非思考型（Llama 3.1 8B（Ollama: llama3.1:8b））	思考型（DeepSeek R1 8B（Ollama: deepseek-r1:8b））
プロンプト処理	含まれる	含まれる
思考トークン生成	なし	数百〜数千トークン
最終回答の最初のトークン到達	910ms	4115ms

非思考型では、プロンプトを処理し終わった瞬間から最終回答のトークンを返し始める。一方の思考型は、プロンプト処理に加えて <think>…</think> のブロックを内部で生成しきってから、ようやくユーザー向けの最終回答を吐き出す。tokens/sec が 136.4（DeepSeek R1 8B（Ollama: deepseek-r1:8b））と 151.5（Llama 3.1 8B（Ollama: llama3.1:8b））でほぼ同水準であることを思い出すと、思考フェーズで生成しているトークン数は概算で「(4115 − 910) × 0.001 × 136.4 ≒ 437 トークン」前後と見積もれます。約 400〜500 トークン分の自問自答が、ユーザーには見えない場所で走っている計算。

ここまで読むと、DeepSeek R1 8B（Ollama: deepseek-r1:8b）の TTFT 4115ms は「遅い」ではなく「設計通り」だと分かるはず。ただし設計通りであることと、用途に合うかどうかは別問題。次のパートでは tokens/sec と TTFT の逆転現象、サイズではなく系列で TTFT が決まる構造、そして実際のユースケースでどちらを選ぶべきかを掘り下げます。

tokens/sec と TTFT の逆転現象

ここからが体感差の本丸。生成速度（tokens/sec）だけ見ると差はほぼないのに、最初の応答が返るまでの沈黙時間に大きな開きが生まれます。

計算量では説明できないギャップ

当サイトの検証環境（RTX 5080 16GB / i7-14700F / RAM 96GB）の実測値を並べると、DeepSeek R1 8B（Ollama: deepseek-r1:8b）は 136.4 tok/s、Llama 3.1 8B（Ollama: llama3.1:8b）は 151.5 tok/s。差は約 10% にすぎません。一方で TTFT は 910ms と 4115ms と、4.5 倍差。仮に純粋な計算負荷だけが原因なら、tok/s も同じ比率で落ちるはず。実測はそうなっていません。差を生んでいるのは、ユーザーに見えない思考トークンの生成量です。

ストリーミング表示時の体感差

ストリーミング表示では、出始めた後の流速はほぼ同等。問題は「最初の1秒間に何も起きない」という沈黙。Llama 3.1 8B（Ollama: llama3.1:8b）は1秒未満で書き始める一方、DeepSeek R1 8B（Ollama: deepseek-r1:8b）は4秒間沈黙する。短い質問を投げる用途では、この体感差が決定的です。

「サイズ」ではなく「モデル系列」が TTFT を決める

軽いモデルなら TTFT も短い、と考えがちですが、実測は違う傾向を示します。

小型モデルが必ずしも速いとは限らない

実測値を抜粋:

Phi-4-mini 3.8B（Ollama: phi4-mini:3.8b） → TTFT 3684ms（VRAM 5.8GB）
Gemma 3 4B（Ollama: gemma3:4b） → TTFT 3860ms（VRAM 5.7GB）
Mistral 7B（Ollama: mistral:7b） → TTFT 1119ms（VRAM 7.2GB）

3.8B クラスが 7B クラスより 3 倍遅い、という反直観的な現象。パラメータ数より「モデル系列が思考型寄りか、応答型寄りか」のほうが TTFT への影響が大きいと読み取れます。

モデル選定で見るべき2つの軸

ローカルLLM選定では、サイズだけでなく次の2軸で見る必要があります。

系列軸: 推論モデル（DeepSeek-R1系・Qwen3 thinking系）か、応答モデル（Llama3.1系・Mistral系）か
量子化軸: Q4_K_M / Q5_K_M / Q6_K のどれを使うか

VRAM 16GB に収まるかどうかは量子化軸、TTFT が許容範囲かどうかは系列軸で決まる構造です。

用途別の使い分け：思考型を選ぶべきケース・避けるべきケース

思考型は「常用」ではなく「用途で選ぶ」モデル。線引きを実用シーンに落とし込みます。

思考型が活きるユースケース

コード生成（バグ修正・リファクタ・設計検討）
数学・論理パズル・段階推論が必要なタスク
長文ドラフトのリライトや構造化
ユーザーが応答開始まで数秒待てるバッチ処理系

これらは初動の数秒沈黙が許容され、出力品質の向上が体感に勝るケース。

非思考型を選ぶべきユースケース

チャットbot・対話UIで応答の即時性が要るとき
短文要約・キーワード抽出など軽量タスク
1秒以内に書き始めてほしいライブ字幕用途
IDE 補完のように人間の思考速度に追随したい場面

Llama 3.1 8B（Ollama: llama3.1:8b）の 910ms と Mistral 7B（Ollama: mistral:7b）の 1119ms は、この層の有力候補。当サイト検証環境の実測でも、対話用途は応答型一択という結論になります。

主要スペックサマリー

DeepSeek R1 8B（Ollama: deepseek-r1:8b） TTFT	4115ms
Llama 3.1 8B（Ollama: llama3.1:8b） TTFT	910ms
TTFT 差倍率	約4.5倍
tokens/sec 差	約10%（136.4 vs 151.5）
検証GPU	NVIDIA GeForce RTX 5080（VRAM 16GB）
計測日	2026年5月6日

まとめ

ともに 8B クラスの DeepSeek R1 8B（Ollama: deepseek-r1:8b、現行は Qwen3 系蒸留）と Llama 3.1 8B（Ollama: llama3.1:8b）で、TTFT は約 4.5 倍の差。原因は計算量ではなく、思考型モデルが内部で生成する <think> トークン。サイズではなく系列で TTFT が決まる、という構造を押さえれば、用途別に最適なローカルLLMを選べます。対話・補完用途には応答型、推論・コード支援には思考型。RTX 5080 16GB であれば、両方を保持して用途で切り替える運用が最も合理的な選択肢。

アフィリエイトについて
当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。

計測時点: 2026-05-05 / 本ページの計測は上記時点のもの。製品アップデートや第三者ベンチマーク公表により評価が変わる可能性があります。30日以上経過した内容は再検証を推奨します。