GPUをRTX 4070 SuperからRTX 5060 Ti 16GBに換装したら、14Bモデルの推論速度が14 tokens/secから44 tokens/secへ跳ね上がった。VRAMの差はたった4GB。だが、この4GBがローカルLLMの使い勝手を根本から変えてしまう。
2026年4月現在、RTX 4070 Superは生産終了で中古9万円前後、RTX 5060 Ti 16GBは新品で10.5万円前後。VRAM 12GBと16GB、どちらを選ぶべきか。本記事では同一のOculinkドック(MINISFORUM DEG1)に差し替えて計測した実測データ15モデル分を公開し、その判断材料を提示する。
・RTX 4070 Super(12GB)はCUDAコア数と帯域幅で勝り、8B以下のモデルでは5060 Tiより10〜15%高速
・14Bモデルでオフロードが発生し、推論速度が44 vs 14 tokens/secと約3倍の差に拡大する
・同価格帯で14B以上のモデルを使う予定があるなら、RTX 5060 Ti 16GBを選ぶべき
RTX 4070 SuperとRTX 5060 Ti 16GBのスペック比較
まずは両GPUの基本スペックを並べてみよう。
| 項目 | RTX 4070 Super | RTX 5060 Ti 16GB |
|---|---|---|
| VRAM | 12GB GDDR6X | 16GB GDDR7 |
| CUDAコア数 | 7,168 | 4,608 |
| メモリバス幅 | 192bit | 128bit |
| メモリ帯域幅 | 504 GB/s | 448 GB/s |
| TDP | 220W | 180W |
| 参考価格(2026年4月時点) | 90,000円〜(中古) | 105,000円〜(新品) |
| 販売状況 | 生産終了・中古のみ | 新品販売中 |
| AI用途の目安 | 8Bモデル快適、14B以上は制限あり | 14Bモデル快適、22B以上も動作 |
数字だけ見ると意外な事実が浮かび上がる。CUDAコア数はRTX 4070 Superが7,168で、RTX 5060 Tiの4,608を大幅に上回っている。メモリ帯域幅も504 GB/sと448 GB/sで4070 Superが優位。つまり純粋な演算性能では旧世代の4070 Superのほうが上という構図になる。
では5060 Tiの強みは何か。答えはVRAM容量の一点に集約される。12GBと16GB、このたった4GBの差がローカルLLMでは致命的な分岐点になることを、以下の実測データが証明した。
テスト環境
当サイトの検証環境は以下の通り。
- CPU: Intel Core i7-14700F
- RAM: 96GB DDR5
- GPU1: NVIDIA GeForce RTX 5080 16GB(PCIe x16直結、参考値として計測)
- GPU2: RTX 4070 Super 12GB → RTX 5060 Ti 16GBに換装(MINISFORUM DEG1 Oculink接続)
- ソフトウェア: Ollama 0.20.5 / NVIDIA Driver 595.97 / Windows 11
計測条件は各モデル3回実行のmedian値で、512トークン生成・日本語プロンプトに統一した。RTX 4070 SuperとRTX 5060 Tiは同じOculinkドックに差し替えて計測しているため、接続方式による差は排除されている。
小型モデル(〜8B)の実測——VRAM 12GBでも快適な領域
パラメータ数が8B以下のモデルはVRAM使用量が3〜6GB程度に収まるため、12GBのRTX 4070 Superでも余裕がある。この領域では、CUDAコア数と帯域幅で勝る4070 Superが5060 Tiを上回る結果となった。
| モデル | VRAM使用量 | RTX 4070 Super | RTX 5060 Ti | RTX 5080(参考) |
|---|---|---|---|---|
| phi4-mini:3.8b | 3.5GB | 150 tokens/sec | 137 tokens/sec | 242 tokens/sec |
| gemma3:4b | 3.8GB | 130 tokens/sec | 117 tokens/sec | 194 tokens/sec |
| llama3.1:8b | 5.3GB | 89 tokens/sec | 80 tokens/sec | 146 tokens/sec |
| deepseek-r1:8b | 5.5GB | 82 tokens/sec | 74 tokens/sec | 135 tokens/sec |
phi4-mini:3.8bでは4070 Superが150 tokens/sec、5060 Tiが137 tokens/sec。約10%の差がついた。llama3.1:8bやdeepseek-r1:8bでも同様の傾向で、4070 Superが一貫して10〜15%上回っている。
この差の原因はシンプルで、CUDAコア数が7,168 vs 4,608と1.5倍以上の開きがあること。VRAMに余裕がある限り、モデル全体がGPU上に展開されるため、純粋な演算スループットの差がそのまま速度に反映される。
実用面で考えるとどうか。8Bモデルであればどちらのカードでも70 tokens/sec以上が出ており、体感的にはほぼリアルタイムで応答が返ってくる水準。この領域だけで使うなら、4070 Superの中古を狙うのも合理的な選択と言える。
中型モデル(9B〜14B)の実測——VRAM 12GBの壁が見える領域
モデルサイズが9Bを超えたあたりから、状況が一変する。ここがVRAM 12GBと16GBの本当の分岐点になった。
| モデル | VRAM使用量 | RTX 4070 Super | RTX 5060 Ti | RTX 5080(参考) |
|---|---|---|---|---|
| qwen3.5:9b | 7.7GB | 68 tokens/sec | 60 tokens/sec | 107 tokens/sec |
| gemma4:e4b | 9.5GB | 105 tokens/sec | 92 tokens/sec | 159 tokens/sec |
| gemma3:12b | 8.7GB | 54 tokens/sec | 48 tokens/sec | 92 tokens/sec |
| phi4:14b | 9.4GB | 14 tokens/sec(オフロード) | 44 tokens/sec | 87 tokens/sec |
| qwen3:14b | 9.3GB | 32 tokens/sec | 43 tokens/sec | 84 tokens/sec |
phi4:14bで発生した「オフロードの壁」
注目すべきはphi4:14bの結果。VRAM使用量は9.4GBで、12GBに収まるはずに見える。ところが4070 Superではオフロード(モデルの一部をシステムRAMに退避する処理)が発生し、速度が14 tokens/secまで急落した。5060 Tiの44 tokens/secと比べて約3倍の差がついている。
なぜ9.4GBのモデルが12GBのGPUに収まらないのか。VRAMはモデル本体だけでなく、推論時のKVキャッシュやCUDAコンテキスト、ドライバのオーバーヘッドでも消費される。実効的に使えるVRAMは公称値より1〜2GB少ないのが現実。RTX 4070 Superの「実効上限」は10GB前後と考えるのが安全だろう。
一方、gemma4:e4bは同じ9.5GBのVRAM使用量ながら4070 Superで105 tokens/secと好調な数値を記録した。モデルアーキテクチャやメモリ確保パターンの違いが影響しているとみられる。VRAM使用量が似ていても、すべてのモデルが同じ挙動になるわけではない点に注意してほしい。
qwen3:14bの結果も見逃せない
qwen3:14bはVRAM 9.3GBで、4070 Superでは32 tokens/sec、5060 Tiでは43 tokens/sec。phi4:14bほどの劇的な差ではないが、5060 Tiが約35%高速という結果になった。4070 Superでオフロードは明示的に報告されていないものの、VRAM残量が逼迫するとメモリアクセスの効率が落ちるケースは珍しくない。
ローカルLLMコミュニティでは、Gemma 4系の量子化モデルがBF16版より高速に動作するという報告もある。GGUF形式に量子化されたモデルを選べばVRAM消費をさらに抑えられるため、12GB環境でも中型モデルを活用する余地はゼロではない。ただし、量子化による精度低下とのトレードオフは避けられない。
大型モデル(22B〜)とデュアルGPU構成の実力
22B以上のモデルになると、VRAM 12GBのRTX 4070 Superでは物理的に動かせないケースが出てくる。ここからは5060 Tiの独壇場。
| モデル | VRAM使用量 | RTX 4070 Super | RTX 5060 Ti | RTX 5080(参考) |
|---|---|---|---|---|
| codestral:22b | 12.9GB | —(12GB超) | 31 tokens/sec | 63 tokens/sec |
| gemma4:26b(MoE) | 14.3GB | 20 tokens/sec | 37 tokens/sec | 40 tokens/sec |
| qwen3.5:35b-a3b(MoE) | 14.5GB | 7 tokens/sec | 19 tokens/sec | 20 tokens/sec |
codestral:22bはVRAM 12.9GBを必要とするため、4070 Superではそもそも計測不能。5060 Tiでは当サイトの検証環境で31 tokens/secを記録しており、コード生成の応答としては実用的な速度と言える。
gemma4:26bとqwen3.5:35b-a3bはMoE(Mixture of Experts)アーキテクチャを採用したモデルで、パラメータ数の割にVRAM消費が抑えられている。それでも14GB台のVRAMが必要なため、4070 Superでは大幅なオフロードが発生。特にqwen3.5:35b-a3bは4070 Superで7 tokens/sec、5060 Tiで19 tokens/secと約2.7倍の差がついた。
Redditの海外コミュニティ(r/LocalLLaMA)では、Gemma 4の26Bモデルについて「構造化タスクやコード生成、JSONフォーマットへの追従に優れる一方、エージェント的な複数ステップの推論は3〜4ステップで文脈を見失う」という実使用レポートが共有されている。16GBのVRAMでこのクラスのモデルを動かせるのは、用途を選べば大きなアドバンテージになる。
デュアルGPU構成での差はさらに拡大する
当サイトではRTX 5080をメインGPU、セカンダリとして4070 SuperまたはRTX 5060 Tiを組み合わせたデュアルGPU推論も計測した。
| モデル | 5080 + 4070 Super(合計28GB) | 5080 + 5060 Ti(合計32GB) |
|---|---|---|
| gemma4:26b | 115 tokens/sec | 111 tokens/sec |
| qwen3.5:35b-a3b | 48 tokens/sec | 97 tokens/sec |
| qwen3.5:27b | 3.8 tokens/sec | 27 tokens/sec |
| qwen3:32b | 10.8 tokens/sec | 26 tokens/sec |
衝撃的なのがqwen3.5:27bの結果。合計VRAM 28GB構成(5080+4070S)では3.8 tokens/secしか出ないのに、32GB構成(5080+5060Ti)では27 tokens/secと約7倍の差が生まれた。28GBではモデルがギリギリ収まらず、システムRAMへのオフロードが発生しているためだろう。
gemma4:26bだけは28GB構成でも32GB構成でも同水準(115 vs 111 tokens/sec)。これはMoEアーキテクチャの特性上、14.3GBのVRAMで済むため28GBにも余裕で収まるから。デュアルGPU環境ではモデルのVRAM使用量と合計VRAM容量のマージンが速度を左右する。
用途別おすすめ——RTX 4070 SuperとRTX 5060 Ti、どちらを選ぶか
実測データを踏まえて、用途ごとに明確な結論を出す。
ローカルLLM(8B以下のモデルがメイン)なら → RTX 5070 12GB
8B以下のモデルがメインで、ゲームにも使いたいならRTX 5070 12GB(10.4万円前後)。CUDAコア数が多く8B以下のLLM推論で10〜15%速いうえ、ゲーム性能でも5060 Tiを上回る。AI専用機ではなくゲーミングPCとの兼用なら5070の方が満足度が高い。
ローカルLLM(14B以上を使いたい)なら → RTX 5060 Ti 16GB一択
14Bクラスで3倍の速度差、22B以上は4070 Superでは動かせないモデルが出てくる。今後のLLMはパラメータ数が増える方向にあるため、16GBのVRAMは将来への保険にもなる。迷う余地なし。
画像生成(Stable Diffusion / ComfyUI)がメインなら → RTX 5060 Ti 16GB
SDXL以降のモデルはVRAM消費が大きく、12GBではワークフロー次第でメモリ不足に陥るケースがある。16GBなら余裕を持って作業できる。なお、当サイトの検証環境では、RTX 5080で生成した4K動画が未経験から3ヶ月で66本、商用ストックサービスに採用されている。5060 Tiでも16GBのVRAMを活かした画像・動画生成は十分に実用的。
当サイトの検証環境で生成したAI動画サンプル(RTX 5080で生成した4K 60fps動画)。
AIコーディングツール(Claude Code / Copilot)がメインなら → GPUは不問
Claude CodeやGitHub CopilotはクラウドAPI経由で動作するため、GPU性能はほぼ関係ない。RAM 16GB以上とSSD搭載のPCであれば快適に使える。GPU予算はローカルLLMや画像生成に回したほうが有意義。
予算を最優先するなら → RTX 5070 12GBまたはRTX 5060 Ti 16GB
8Bモデルまでで十分ならRTX 5070 12GB(10万円前後)、14B以上も視野に入れるならRTX 5060 Ti 16GB(10.5万円前後)。どちらも新品で保証が付き、消費電力も4070 Superの220Wより低い。5000円の差でVRAM 4GB増は十分な価値がある。
用途別まとめ表
| 用途 | おすすめGPU | 理由 |
|---|---|---|
| 8B以下のLLM推論 | RTX 5070 12GB | 8B以下の推論速度とゲーム性能で上。AI+ゲーム兼用向き |
| 14B以上のLLM推論 | RTX 5060 Ti 16GB | VRAM不足による速度低下を回避 |
| 画像・動画生成 | RTX 5060 Ti 16GB | SDXL以降は16GB推奨 |
| AIコーディング | どちらでも可 | GPU性能に依存しない |
| デュアルGPU構成のサブ機 | RTX 5060 Ti 16GB | 合計VRAM 32GBで大型モデル対応 |
| 予算重視 | RTX 5060 Ti 16GB | 5070とほぼ同額でVRAM4GB増、AI用途最強 |
| 速度もVRAMも妥協しない | RTX 5070 Ti〜 | 16GB+高CUDAコア数で推論速度とVRAMを両立 |
まとめ:VRAM 12GBと16GBの境界線はどこにあるか
本記事の検証で明らかになった「VRAM 12GBと16GBの境界線」を整理する。
VRAM使用量〜8GB(8B以下のモデル): 4070 Superが10〜15%速い。12GBで十分余裕があり、CUDAコア数の差がそのまま性能差になる。
VRAM使用量9〜10GB(14Bクラス): ここが分岐点。phi4:14bで3倍の速度差が発生するなど、12GBの実効限界に到達するモデルが出てくる。5060 Tiなら余裕を持って動作。
VRAM使用量12GB超(22B以上): 4070 Superでは物理的に動かないモデルがある。codestral:22bのように12.9GBを必要とするモデルは、16GBなければ選択肢にすら入らない。
結論——迷ったらRTX 5060 Ti 16GBを選んでほしい。 8B以下しか使わないと断言できるなら4070 Superの中古も悪くないが、ローカルLLMのモデルは日々大型化している。2026年の今、12GBを新たに買う積極的な理由は薄い。10万円前後の予算なら、新品で保証が付き、将来の大型モデルにも対応できる16GBのほうが後悔しない選択になるはず。
よくある質問
Q. RTX 4070 SuperでOllamaの14Bモデルは動きますか?
動作はする。ただしモデルによってはオフロードが発生し、速度が大幅に低下する。当サイトの検証ではphi4:14bが14 tokens/secまで落ちた。qwen3:14bは32 tokens/secで、使えなくはないがストレスを感じる水準。快適に使いたいなら16GB以上のGPUを検討してほしい。
Q. RTX 5060 TiはOculink接続でも性能は出ますか?
当サイトの検証環境ではMINISFORUM DEG1経由のOculink接続で計測しており、すべての数値がこの接続方式での実測値。PCIe x16直結と比べると帯域は制限されるが、LLM推論はメモリ帯域がボトルネックになりやすいため、Oculink接続でも実用的な速度が出ている。
Q. VRAM 16GBなら70Bモデルも動きますか?
16GB単体では動かない。70BクラスのモデルはQ4量子化でもVRAM 35〜40GBを必要とする。RTX 5090(32GB)やデュアルGPU構成(合計32GB)でもQ4では不足で、Q2/Q3まで量子化を落とせば収まるが精度の劣化が大きい。70Bを実用的に動かすなら48GB以上(NVIDIA A6000やRTX 3090×2のデュアル構成)が現実的な選択肢になる。

当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。
おすすめパーツ 価格まとめ
| 製品名 | カテゴリ | スペック | 参考価格 |
|---|---|---|---|
| RTX 4070 Super | GPU・グラフィックボード | NVIDIA GeForce RTX 4070 Super 12GB GDDR6X | ¥90,000〜(中古相場) |
| RTX 5090 | GPU・グラフィックボード | NVIDIA GeForce RTX 5090 32GB GDDR7 | ¥550,000〜 |
| RTX 5080 | GPU・グラフィックボード | NVIDIA GeForce RTX 5080 16GB GDDR7 | ¥200,000〜 |
| RTX 5070 | GPU・グラフィックボード | NVIDIA GeForce RTX 5070 12GB GDDR7 | ¥104,000〜 |
| RTX 5060 Ti 16GB | GPU・グラフィックボード | NVIDIA GeForce RTX 5060 Ti 16GB GDDR7 | ¥105,000〜 |

