RTX 4070 Super vs RTX 5060 Ti 16GB｜VRAM 12GB vs 16GBのLLM実測比較

GPUをRTX 4070 SuperからRTX 5060 Ti 16GBに換装したら、14Bモデルの推論速度が14 tokens/secから44 tokens/secへ跳ね上がった。VRAMの差はたった4GB。だが、この4GBがローカルLLMの使い勝手を根本から変えてしまう。

2026年4月現在、RTX 4070 Superは生産終了で中古9万円前後、RTX 5060 Ti 16GBは新品で10.5万円前後。VRAM 12GBと16GB、どちらを選ぶべきか。本記事では同一のOculinkドック（MINISFORUM DEG1）に差し替えて計測した実測データ15モデル分を公開し、その判断材料を提示する。

この記事の要点

RTX 4070 Super（12GB）はCUDAコア数と帯域幅で勝り、8B以下のモデルでは5060 Tiより10〜15%高速
14Bモデルでオフロードが発生し、推論速度が44 vs 14 tokens/secと約3倍の差に拡大する
同価格帯で14B以上のモデルを使う予定があるなら、RTX 5060 Ti 16GBを選ぶべき

RTX 4070 SuperとRTX 5060 Ti 16GBのスペック比較
1. テスト環境
小型モデル（〜8B）の実測——VRAM 12GBでも快適な領域
中型モデル（9B〜14B）の実測——VRAM 12GBの壁が見える領域
1. phi4:14bで発生した「オフロードの壁」
2. qwen3:14bの結果も押さえておきたい
大型モデル（22B〜）とデュアルGPU構成の実力
1. デュアルGPU構成での差はさらに拡大する
用途別おすすめ——RTX 4070 SuperとRTX 5060 Ti、どちらを選ぶか
1. 用途別まとめ表
まとめ：VRAM 12GBと16GBの境界線はどこにあるか
1. よくある質問
参考資料

RTX 4070 SuperとRTX 5060 Ti 16GBのスペック比較

まずは両GPUの基本スペックを並べてみよう。

項目	RTX 4070 Super	RTX 5060 Ti 16GB
VRAM	12GB GDDR6X	16GB GDDR7
CUDAコア数	7,168	4,608
メモリバス幅	192bit	128bit
メモリ帯域幅	504 GB/s	448 GB/s
TDP	220W	180W
参考価格（2026年4月時点）	90,000円〜（中古）	105,000円〜（新品）
販売状況	生産終了・中古のみ	新品販売中
AI用途の目安	8Bモデル快適、14B以上は制限あり	14Bモデル快適、22B以上も動作

数字だけ見ると意外な事実が浮かび上がる。CUDAコア数はRTX 4070 Superが7,168で、RTX 5060 Tiの4,608を大幅に上回っている。メモリ帯域幅も504 GB/sと448 GB/sで4070 Superが優位。つまり純粋な演算性能では旧世代の4070 Superのほうが上という構図になる。

では5060 Tiの強みは何か。答えはVRAM容量の一点に集約される。12GBと16GB、このたった4GBの差がローカルLLMでは致命的な分岐点になることを、以下の実測データが証明した。

テスト環境

当サイトの検証環境は以下の通り。

CPU: Intel Core i7-14700F
RAM: 96GB DDR5
GPU1: NVIDIA GeForce RTX 5080 16GB（PCIe x16直結、参考値として計測）
GPU2: RTX 4070 Super 12GB → RTX 5060 Ti 16GBに換装（MINISFORUM DEG1 Oculink接続）
ソフトウェア: Ollama 0.20.5 / NVIDIA Driver 595.97 / Windows 11

計測条件は各モデル3回実行のmedian値で、512トークン生成・日本語プロンプトに統一した。RTX 4070 SuperとRTX 5060 Tiは同じOculinkドックに差し替えて計測しているため、接続方式による差は排除されている。

小型モデル（〜8B）の実測——VRAM 12GBでも快適な領域

パラメータ数が8B以下のモデルはVRAM使用量が3〜6GB程度に収まるため、12GBのRTX 4070 Superでも余裕がある。この領域では、CUDAコア数と帯域幅で勝る4070 Superが5060 Tiを上回る結果となった。

モデル	VRAM使用量	RTX 4070 Super	RTX 5060 Ti	RTX 5080（参考）
phi4-mini:3.8b	3.5GB	150 tokens/sec	137 tokens/sec	242 tokens/sec
gemma3:4b	3.8GB	130 tokens/sec	117 tokens/sec	194 tokens/sec
llama3.1:8b	5.3GB	89 tokens/sec	80 tokens/sec	146 tokens/sec
deepseek-r1:8b	5.5GB	82 tokens/sec	74 tokens/sec	135 tokens/sec

phi4-mini:3.8bでは4070 Superが150 tokens/sec、5060 Tiが137 tokens/sec。約10%の差がついた。llama3.1:8bやdeepseek-r1:8bでも同様の傾向で、4070 Superが一貫して10〜15%上回っている。

この差の原因はシンプルで、CUDAコア数が7,168 vs 4,608と1.5倍以上の開きがあること。VRAMに余裕がある限り、モデル全体がGPU上に展開されるため、純粋な演算スループットの差がそのまま速度に反映される。

実用面で考えるとどうか。8Bモデルであればどちらのカードでも70 tokens/sec以上が出ており、体感的にはほぼリアルタイムで応答が返ってくる水準。この領域だけで使うなら、4070 Superの中古を狙うのも合理的な選択と言える。

中型モデル（9B〜14B）の実測——VRAM 12GBの壁が見える領域

モデルサイズが9Bを超えたあたりから、状況が一変する。ここがVRAM 12GBと16GBの本当の分岐点になった。

モデル	VRAM使用量	RTX 4070 Super	RTX 5060 Ti	RTX 5080（参考）
qwen3.5:9b	7.7GB	68 tokens/sec	60 tokens/sec	107 tokens/sec
gemma4:e4b	9.5GB	105 tokens/sec	92 tokens/sec	159 tokens/sec
gemma3:12b	8.7GB	54 tokens/sec	48 tokens/sec	92 tokens/sec
phi4:14b	9.4GB	14 tokens/sec（オフロード）	44 tokens/sec	87 tokens/sec
qwen3:14b	9.3GB	32 tokens/sec	43 tokens/sec	84 tokens/sec

phi4:14bで発生した「オフロードの壁」

押さえておきたいのはphi4:14bの結果。VRAM使用量は9.4GBで、12GBに収まるはずに見える。ところが4070 Superではオフロード（モデルの一部をシステムRAMに退避する処理）が発生し、速度が14 tokens/secまで急落した。5060 Tiの44 tokens/secと比べて約3倍の差がついている。

なぜ9.4GBのモデルが12GBのGPUに収まらないのか。VRAMはモデル本体だけでなく、推論時のKVキャッシュやCUDAコンテキスト、ドライバのオーバーヘッドでも消費される。実効的に使えるVRAMは公称値より1〜2GB少ないのが現実。RTX 4070 Superの「実効上限」は10GB前後と考えるのが安全だろう。

一方、gemma4:e4bは同じ9.5GBのVRAM使用量ながら4070 Superで105 tokens/secと好調な数値を記録した。モデルアーキテクチャやメモリ確保パターンの違いが影響しているとみられる。VRAM使用量が似ていても、すべてのモデルが同じ挙動になるわけではない点に注意してほしい。

VRAM使用量が10GB前後のモデルは、RTX 4070 Super（12GB）で動くかどうかがモデルごとに異なる。「12GBあるから大丈夫」と思い込まず、実際に動かして確認する必要がある。

qwen3:14bの結果も押さえておきたい

qwen3:14bはVRAM 9.3GBで、4070 Superでは32 tokens/sec、5060 Tiでは43 tokens/sec。phi4:14bほどの劇的な差ではないが、5060 Tiが約35%高速という結果になった。4070 Superでオフロードは明示的に報告されていないものの、VRAM残量が逼迫するとメモリアクセスの効率が落ちるケースは珍しくない。

ローカルLLMコミュニティでは、Gemma 4系の量子化モデルがBF16版より高速に動作するという報告もある。GGUF形式に量子化されたモデルを選べばVRAM消費をさらに抑えられるため、12GB環境でも中型モデルを活用する余地はゼロではない。ただし、量子化による精度低下とのトレードオフは避けられない。

大型モデル（22B〜）とデュアルGPU構成の実力

22B以上のモデルになると、VRAM 12GBのRTX 4070 Superでは物理的に動かせないケースが出てくる。ここからは5060 Tiの独壇場。

モデル	VRAM使用量	RTX 4070 Super	RTX 5060 Ti	RTX 5080（参考）
codestral:22b	12.9GB	—（12GB超）	31 tokens/sec	63 tokens/sec
gemma4:26b（MoE）	14.3GB	20 tokens/sec	37 tokens/sec	40 tokens/sec
qwen3.5:35b-a3b（MoE）	14.5GB	7 tokens/sec	19 tokens/sec	20 tokens/sec

codestral:22bはVRAM 12.9GBを必要とするため、4070 Superではそもそも計測不能。5060 Tiでは当サイトの検証環境で31 tokens/secを記録しており、コード生成の応答としては実用的な速度と言える。

gemma4:26bとqwen3.5:35b-a3bはMoE（Mixture of Experts）アーキテクチャを採用したモデルで、パラメータ数の割にVRAM消費が抑えられている。それでも14GB台のVRAMが必要なため、4070 Superでは大幅なオフロードが発生。特にqwen3.5:35b-a3bは4070 Superで7 tokens/sec、5060 Tiで19 tokens/secと約2.7倍の差がついた。

Redditの海外コミュニティ（r/LocalLLaMA）では、Gemma 4の26Bモデルについて「構造化タスクやコード生成、JSONフォーマットへの追従に優れる一方、エージェント的な複数ステップの推論は3〜4ステップで文脈を見失う」という実使用レポートが共有されている。16GBのVRAMでこのクラスのモデルを動かせるのは、用途を選べば大きなアドバンテージになる。

デュアルGPU構成での差はさらに拡大する

当サイトではRTX 5080をメインGPU、セカンダリとして4070 SuperまたはRTX 5060 Tiを組み合わせたデュアルGPU推論も計測した。

モデル	5080 + 4070 Super（合計28GB）	5080 + 5060 Ti（合計32GB）
gemma4:26b	115 tokens/sec	111 tokens/sec
qwen3.5:35b-a3b	48 tokens/sec	97 tokens/sec
qwen3.5:27b	3.8 tokens/sec	27 tokens/sec
qwen3:32b	10.8 tokens/sec	26 tokens/sec

衝撃的なのがqwen3.5:27bの結果。合計VRAM 28GB構成（5080+4070S）では3.8 tokens/secしか出ないのに、32GB構成（5080+5060Ti）では27 tokens/secと約7倍の差が生まれた。28GBではモデルがギリギリ収まらず、システムRAMへのオフロードが発生しているためだろう。

gemma4:26bだけは28GB構成でも32GB構成でも同水準（115 vs 111 tokens/sec）。これはMoEアーキテクチャの特性上、14.3GBのVRAMで済むため28GBにも余裕で収まるから。デュアルGPU環境ではモデルのVRAM使用量と合計VRAM容量のマージンが速度を左右する。

デュアルGPU構成を将来的に検討しているなら、セカンダリGPUのVRAM容量は特に重要になる。4GBの差が合計VRAMの余裕を決め、大型モデルの動作可否を分ける。

用途別おすすめ——RTX 4070 SuperとRTX 5060 Ti、どちらを選ぶか

実測データを踏まえて、用途ごとに明確な結論を出す。

ローカルLLM（8B以下のモデルがメイン）なら → RTX 5070 12GB

8B以下のモデルがメインで、ゲームにも使いたいならRTX 5070 12GB（10.4万円前後）。CUDAコア数が多く8B以下のLLM推論で10〜15%速いうえ、ゲーム性能でも5060 Tiを上回る。AI専用機ではなくゲーミングPCとの兼用なら5070の方が満足度が高い。

ローカルLLM（14B以上を使いたい）なら → RTX 5060 Ti 16GB一択

14Bクラスで3倍の速度差、22B以上は4070 Superでは動かせないモデルが出てくる。今後のLLMはパラメータ数が増える方向にあるため、16GBのVRAMは将来への保険にもなる。迷う余地なし。

画像生成（Stable Diffusion / ComfyUI）がメインなら → RTX 5060 Ti 16GB

SDXL以降のモデルはVRAM消費が大きく、12GBではワークフロー次第でメモリ不足に陥るケースがある。16GBなら余裕を持って作業できる。なお、当サイトの検証環境では、RTX 5080で生成した4K動画が未経験から3ヶ月で66本、商用ストックサービスに採用されている。5060 Tiでも16GBのVRAMを活かした画像・動画生成は十分に実用的。

当サイトの検証環境で生成したAI動画サンプル（RTX 5080で生成した4K 60fps動画）。

AIコーディングツール（Claude Code / Copilot）がメインなら → GPUは不問

Claude CodeやGitHub CopilotはクラウドAPI経由で動作するため、GPU性能はほぼ関係ない。RAM 16GB以上とSSD搭載のPCであれば快適に使える。GPU予算はローカルLLMや画像生成に回したほうが有意義。

予算を最優先するなら → RTX 5070 12GBまたはRTX 5060 Ti 16GB

8Bモデルまでで十分ならRTX 5070 12GB（10万円前後）、14B以上も視野に入れるならRTX 5060 Ti 16GB（10.5万円前後）。どちらも新品で保証が付き、消費電力も4070 Superの220Wより低い。5000円の差でVRAM 4GB増は十分な価値がある。

用途別まとめ表

用途	おすすめGPU	理由
8B以下のLLM推論	RTX 5070 12GB	8B以下の推論速度とゲーム性能で上。AI+ゲーム兼用向き
14B以上のLLM推論	RTX 5060 Ti 16GB	VRAM不足による速度低下を回避
画像・動画生成	RTX 5060 Ti 16GB	SDXL以降は16GB推奨
AIコーディング	どちらでも可	GPU性能に依存しない
デュアルGPU構成のサブ機	RTX 5060 Ti 16GB	合計VRAM 32GBで大型モデル対応
予算重視	RTX 5060 Ti 16GB	5070とほぼ同額でVRAM4GB増、AI用途最強
速度もVRAMも妥協しない	RTX 5070 Ti〜	16GB+高CUDAコア数で推論速度とVRAMを両立

まとめ：VRAM 12GBと16GBの境界線はどこにあるか

本記事の検証で明らかになった「VRAM 12GBと16GBの境界線」を整理する。

VRAM使用量〜8GB（8B以下のモデル）: 4070 Superが10〜15%速い。12GBで十分余裕があり、CUDAコア数の差がそのまま性能差になる。

VRAM使用量9〜10GB（14Bクラス）: ここが分岐点。phi4:14bで3倍の速度差が発生するなど、12GBの実効限界に到達するモデルが出てくる。5060 Tiなら余裕を持って動作。

VRAM使用量12GB超（22B以上）: 4070 Superでは物理的に動かないモデルがある。codestral:22bのように12.9GBを必要とするモデルは、16GBなければ選択肢にすら入らない。

結論——迷ったらRTX 5060 Ti 16GBを選んでほしい。 8B以下しか使わないと断言できるなら4070 Superの中古も悪くないが、ローカルLLMのモデルは日々大型化している。2026年の今、12GBを新たに買う積極的な理由は薄い。10万円前後の予算なら、新品で保証が付き、将来の大型モデルにも対応できる16GBのほうが後悔しない選択になるはず。

よくある質問

Q. RTX 4070 SuperでOllamaの14Bモデルは動きますか？

動作はする。ただしモデルによってはオフロードが発生し、速度が大幅に低下する。当サイトの検証ではphi4:14bが14 tokens/secまで落ちた。qwen3:14bは32 tokens/secで、使えなくはないがストレスを感じる水準。快適に使いたいなら16GB以上のGPUを検討してほしい。

Q. RTX 5060 TiはOculink接続でも性能は出ますか？

当サイトの検証環境ではMINISFORUM DEG1経由のOculink接続で計測しており、すべての数値がこの接続方式での実測値。PCIe x16直結と比べると帯域は制限されるが、LLM推論はメモリ帯域がボトルネックになりやすいため、Oculink接続でも実用的な速度が出ている。

Q. VRAM 16GBなら70Bモデルも動きますか？

16GB単体では動かない。70BクラスのモデルはQ4量子化でもVRAM 35〜40GBを必要とする。RTX 5090（32GB）やデュアルGPU構成（合計32GB）でもQ4では不足で、Q2/Q3まで量子化を落とせば収まるが精度の劣化が大きい。70Bを実用的に動かすなら48GB以上（NVIDIA A6000やRTX 3090×2のデュアル構成）が現実的な選択肢になる。