AIコーディング用ローカルLLMの必要スペック|RTX 5080実機で7B〜14B級のVRAMと速度を実測

AIコーディング用ローカルLLMの必要スペックをRTX 5080 16GBで検証する記事のアイキャッチ画像 GPU・グラフィックボード

AIコーディング用ローカルLLMの必要スペックとは、コード補完やコード生成を手元のGPUで動かすために要るVRAM容量を中心としたPC要件のこと。

コード補完やコード生成を手元のローカルLLMで動かすなら、GPU選びはVRAM容量からの逆算になります。モデルの重みをVRAMに載せきれるかどうかが、動く・動かないの分かれ目だからです。本記事は当サイトの検証環境(RTX 5080 16GB / i7-14700F / RAM 96GB)で7B〜14B級のローカルLLMを実際に動かし、モデルサイズごとに何GBのVRAMが要り、どれくらいの速度が出るかを数値で示します。なお、Claude CodeやGitHub CopilotのようにAPIをクラウドで叩くツールだけで済むなら、推論はクラウド側で走るのでGPUはほぼ仕事をせず、効くのはCPU・RAM・SSD——その構成はClaude Code推奨スペックの記事に譲り、ここでは「ローカルLLMを動かす・併用する」側のVRAMと実用スペックに絞ります。

この記事の要点

  • ・ローカルLLMでコード補完を動かすなら、VRAM容量が動かせるモデルサイズの上限を決める
  • ・RTX 5080(16GB)実機では7B〜14B級が安定した実用域(毎秒80〜170トークン)。22B級は条件次第、26B級はCPUオフロード前提
  • ・クラウドAPI型(Claude Code・Copilot等)だけならGPU不要でCPU・RAM・SSD中心。その詳細は別記事に

AIコーディングのPC要件は二層|クラウド型はGPU不要、ローカルLLMはVRAM

AIコーディングのPC選びでつまずく原因の大半は、「AIを使う」を一つのワークロードだと思い込むこと。実際には性質の違う二つの処理があります。クラウドで動くAPIベースのツールと、自分のPC上で動くローカルLLM。この二つは要求するパーツが正反対で、ここを分けて考えるだけで予算配分の判断が楽になります。

Claude CodeやGitHub Copilot、Cursorといったツールは推論そのものをクラウド側で実行するため、使うこと自体に高性能GPUは要りません。効くのはCPU・RAM・SSDで、その実用ラインはClaude Code推奨スペックの記事に整理してあります。本記事はそこに「ローカルLLMを動かす・併用する場合」のラインを重ねます。対してOllamaやLM Studioでローカルにモデルを置くと、推論計算はすべて手元のGPUが背負い、モデルの重みをVRAMに載せきれるかどうかが動く・動かないの分かれ目になります。曖昧なまま「両方やりたい」と組むと、どちらにも中途半端な構成になりがちです。

ローカル実行で効くのはVRAM

ローカルLLMに切り替えた瞬間、優先順位はひっくり返ります。モデルの重みをGPUのVRAMに載せられる範囲でしか、快適な速度は出ません。7B(70億パラメータ)クラスを4ビット量子化で動かすなら必要VRAMはおおむね5〜7GB、14B級なら量子化込みで11〜12GB前後が目安。この「載るか載らないか」を決めるのがVRAM容量で、CUDAコア数やクロックは速度の上乗せに効くものの、まず容量の壁を越えないと話が始まりません。

ローカル運用を視野に入れるなら、GPU選びはVRAM容量から逆算する。これが本記事の判断軸になります。

クラウドで足りるか、ローカルLLMが要るか

必要スペックは「どのツールを使うか」より「何をさせるか」で決まります。クラウドAPI型に任せる範囲がクラウドで完結するなら、GPUは判断材料に入りません。手元PCに求められるのは、複数ツールを同時に立ち上げても固まらないRAMと、ファイル操作が引っかからないSSDです。

ローカルLLMの出番が来るのは、別の動機があるときです。社外秘のコードを外部の推論APIへ送りたくない、ネットワークが不安定な環境でも補完を効かせたい、API課金を気にせず大量に試行したい——こうした要件が出てきて初めて、ローカル実行とそのためのVRAMが必要になります。逆に言えば、この動機がなければGPUへの投資は後回しで構いません。自分がどちらの使い方をするのか、ここを最初に決めてください。

クラウドAPI型だけならGPUは不要(詳細は別記事へ)

Claude CodeやCopilotのようなクラウドAPI型を主に使い、ローカルLLMを動かす予定がないなら、GPUに予算を割く必要はありません。効くのはCPU・RAM・SSDで、RAMは16GB(ブラウザ・エディタ・コンテナを並走させるなら32GB)、ストレージはNVMe SSDが起点。GPUは内蔵グラフィックスでも成立します。クラウド型に絞った最低・推奨スペックや、ノートPCでの排熱・バッテリーの注意点はClaude Code推奨スペックの記事に詳しくまとめています。ここから先は、本題である「ローカルLLMを動かすならVRAMはいくつ要るか」に集中します。

ローカルLLMはVRAMがボトルネック|モデルサイズ別の必要VRAM目安

ここからがローカル併用組の本題です。海外のRedditコミュニティ(r/LocalLLaMA)では、「どのハードでローカルAIを組むか」を巡る議論が日常的に交わされていて、共通して浮かび上がるのが「メモリ容量が動かせるモデルサイズを決める」という一点。ある投稿者は128GBの統合メモリ機で120bクラスのモデルが問題なく回ると報告する一方、64GBでは大型モデルに足りないという声も出ています。ディスクリートGPUなら、この「メモリ容量」はそのままVRAM容量を指します。

モデルサイズと必要VRAMの関係を、当サイトの検証環境(RTX 5080 16GB / i7-14700F / RAM 96GB、2026-05計測)で実際に各モデルを起動したときのVRAM使用量とともに整理します。

モデル例 クラス VRAM使用量(実測) 動作する主なAIソフト
Gemma 3 4B(Ollama: gemma3:4b) 4B級 5.1GB Ollama / LM Studio
Mistral 7B(Ollama: mistral:7b) 7B級 6.6GB Ollama / LM Studio
Llama 3.1 8B(Ollama: llama3.1:8b) 8B級 7.0GB Ollama / llama.cpp
Qwen3.5 9B(Ollama: qwen3.5:9b) 9B級 9.0GB Ollama / LM Studio
Gemma 3 12B(Ollama: gemma3:12b) 12B級 10.2GB Ollama / llama.cpp
Phi-4 14B(Ollama: phi4:14b) 14B級 11.4GB Ollama / LM Studio
Codestral 22B(Ollama: codestral:22b) 22B級 14.6GB Ollama / llama.cpp
Gemma 4 26B(Ollama: gemma4:26b) 26B級(MoE) 15.1GB(GPU常駐分) Ollama(タグ表示は約18GB・16GBに収まらずCPUオフロード)

表を見ると、傾向がはっきり読み取れます。7B〜9B級なら7〜9GB前後で収まり、VRAM 12GBのGPUでも余裕。14B級になると11GB台に乗り、VRAM 12GBではコンテキスト長次第でぎりぎり、16GBあれば安心して使えます。22B級は14GB前後で16GBのGPUでも他の処理と取り合いになり、26B級(MoE)はモデル全体が16GBを超えるためCPUオフロードが前提になります。ここでのVRAM使用量は量子化形式・コンテキスト長・KVキャッシュ・GPUオフロード設定・Ollama/llama.cppのバージョンで変動します。本表は当サイト環境での起動時(4ビット量子化)の実測であり、同じモデル名でもタグや実行条件が変わると数GB単位で差が出ることがあります。特に128K/256Kコンテキスト対応モデルは、長いコンテキストを実際に使うとKVキャッシュでVRAMがさらに増えます。

コード補完やオフラインのエージェント用途で実用的なのは、応答速度とのバランスから7B〜14B級。AI支援コーディングをローカルで補うなら、VRAM 16GB級が一つの基準線になります。

量子化でVRAM要件はどこまで下がるか

量子化は、モデルの重みを低いビット精度で表現してVRAM消費を抑える手法です。元のFP16(16ビット)からINT4(4ビット)まで落とすと、必要VRAMはおおむね4分の1近くまで圧縮できる。先の表の使用量は、いずれも一般的な4ビット量子化版での値です。FP16のまま動かそうとすると、7B級でも14GB前後を要求するため、16GBのGPUでは7B〜8Bあたりが上限になってしまいます。

量子化を使えば、VRAM 12GBのGPUでも14B級に手が届き、16GBなら22B級まで視野に入る。ただし精度を落とすほど出力品質には影響が出る方向で、4ビットあたりが実用と品質の妥協点とされます。どのビット数を選ぶかは、速度・容量・品質の三者のトレードオフ。コーディング補完なら4ビット量子化版から試し、出力に不満があれば一段上の精度を検討する流れが現実的です。

VRAMが足りないとどうなる(OOM)

VRAMに重みが載りきらないと、OOM(メモリ不足)でモデルが起動しないか、CPU側のシステムRAMへ重みの一部があふれ出します。後者の状態はOllamaなどが自動でやってくれるものの、GPUとCPU間のデータ往復が発生して速度が劇的に落ちる。VRAMだけで回るときは毎秒数十〜百トークン出ていたものが、あふれた途端に生成速度が大きく低下することがあります。

つまりVRAM容量は「動く・動かない」だけでなく「快適・激遅」の境界でもあります。狙うモデルサイズより一段余裕を持ったVRAMを選んでおくと、コンテキスト長を伸ばしたときや複数モデルを切り替えるときに詰まりにくい。ローカル併用を本気で考えるなら、ここがGPU予算の中心になります。

RTX 5080実機で測ったローカルLLMの速度(当サイト検証環境)

数字で見ると、VRAM 16GB級が7B〜14Bでどこまで実用になるかがはっきりします。以下は当サイトの検証環境(RTX 5080 16GB / i7-14700F / RAM 96GB、2026年5月計測)で測ったローカルLLMの速度です。RTX 5060 Ti を増設した2枚挿しPCですが、このベンチは RTX 5080 単体(CUDA_VISIBLE_DEVICES=0 で固定)で実行し、5060 Ti は使用していません。

モデル パラメータ規模 tokens/sec VRAM使用量
Gemma 3 4B(Ollama: gemma3:4b) 4B 171.8 5.1GB
Mistral 7B(Ollama: mistral:7b) 7B 144.8 6.6GB
Llama 3.1 8B(Ollama: llama3.1:8b) 8B 131.6 7.0GB
DeepSeek R1 8B(Ollama: deepseek-r1:8b) 8B 130.0 7.3GB
Qwen3.5 9B(Ollama: qwen3.5:9b) 9B 98.5 9.0GB
Gemma 3 12B(Ollama: gemma3:12b) 12B 85.8 10.2GB
Phi-4 14B(Ollama: phi4:14b) 14B 82.5 11.4GB

7B〜9B級は毎秒100トークン前後で、短い補完や軽い相談なら待ち時間はかなり小さくなります。今回のPhi-4 14Bでは毎秒80トークン台を記録し、VRAMは11GB前後に収まる。16GBあればこのクラスが余裕を持って動く、というのが実測の結論です。コーディング特化モデル(Codestral 22Bなど)に絞った実測比較はコーディング用ローカルLLMの実測比較で扱っています。

注意したいのが、推論エンジンのバージョンで挙動が変わる点です。Ollama v0.23.2では /api/show レスポンスのキャッシュが追加され、VS Codeなどの連携ツールでモデル情報の読み込み遅延が改善されると説明されています。ただしこれは推論結果そのものをキャッシュする変更ではないため、tokens/secの改善とは分けて見る必要があります。生成速度はドライバやエンジンの更新で多少前後することはありますが、ここで測れたのは速度だけで、出力品質は別の軸。速いから賢いわけではない点も切り分けて考えてください。

統合メモリ型PC(Strix Halo / M5 Pro)という別の選択肢

ディスクリートGPUとは別系統が、統合メモリ型のPC。海外のRedditコミュニティ(r/LocalLLaMA)では、Strix Halo搭載機とMacBook Proのどちらを選ぶか、という議論が続いています。

ある投稿者は128GBのStrix Haloで120B級モデルが快適に回ると報告する一方、64GBでは大型モデルに足りないという声も出ている。これらは個人の体感報告であり、当サイトでの検証値ではない点には留意が必要です。

設計方針の違いはこう整理できます。

項目 ディスクリートGPU型(RTX 5080等) 統合メモリ型(Strix Halo / M5 Pro等)
強み 高いメモリ帯域で推論が速い 大容量メモリで巨大モデルが載る
弱み VRAM容量の上限が低い ディスクリートGPUに比べメモリ帯域で不利になりやすい
向く用途 7B〜14Bを高速に回す 速度より大型モデルを動かすこと優先

速度を取るか、容量を取るか。コーディング補完のように応答速度が効く用途では、帯域に勝るディスクリートGPU型が有利だと筆者は見ています。

スペックを満たした後の落とし穴|モデル導入トラブル

VRAMが足りていても、モデルの取得や起動段階で詰まることがある。当サイトでも Gemma 3 12B(Ollama: gemma3:12b)・Phi-4 14B(Ollama: phi4:14b)・Qwen3 14B(Ollama: qwen3:14b) で、pullや起動に失敗するケースを確認しました。配信経路(Cloudflare R2)の不安定さやmanifest不整合といった取得側の要因が疑われます。なお、Ollama公式リポジトリには gemma3:12b 実行時エラーのIssue #11598も立っていますが、これはpull失敗そのものではなく、実行時に llama runner が落ちる(error:fault)という別系統の報告です。動かない原因をGPU不足と決めつけず、Ollamaのバージョン・モデル取得経路・ランナー側の不具合を切り分けてください。

回避策は、Hugging FaceからGGUF形式の重みを取得し、Modelfileを用意して直接importする方法。これでpullを経由せずに同じモデルを起動できると実測で確認できました。

VRAMが要件を満たしていても、モデル導入で詰まることがある。動かない原因をGPU不足と決めつけず、取得経路のエラーも疑ってください。

用途・予算別の実用スペック早見表

最後に、AI支援コーディング向けの構成を3層で整理します(価格は2026年6月時点の参考)。

タイプ GPU / VRAM RAM ストレージ 想定用途
クラウド主体 不要(内蔵GPUで可) 16GB以上 NVMe SSD Claude Code等のAPI実行
ローカル併用 VRAM 16GB級 32GB以上 NVMe SSD 7B〜14Bの補完を併用
本格ローカル VRAM 16GB以上+大容量 64GB以上 NVMe SSD大容量 大型モデル常用

クラウド主体ならGPUに予算を割く必要はなく、RAMとSSDに振るのが正解。ローカルを併用するならVRAM 16GB級が起点で、ここを削ると後で詰まります。

まとめ

AIコーディング向けにローカルLLMを動かすなら、GPU選びはVRAM容量から逆算するのが基本です。当サイトの検証では、VRAM 16GB級で7B〜14B級が実用域(毎秒80〜170トークン)に収まり、22B級は条件次第、26B級はCPUオフロード前提でした。ローカル併用ならVRAM 16GBを起点に、RAMは最低32GB・できれば64GB以上を見ておくと詰まりにくくなります。一方、Claude CodeやCopilotのようなクラウドAPI型だけで足りるならGPUは不要で、効くのはCPU・RAM・SSD。どちらに比重を置くかで予算の振り先は変わります。ご自身はローカル派とクラウド派、どちらに寄せますか?

よくある質問

Q. RTX 5080(16GB)で22B級・26B級のモデルは動く?

22B級(例: Codestral 22B)はVRAM 14GB前後で16GBに収まりますが、コンテキスト長や他の処理と取り合いになります。26B級(MoE、例: Gemma 4 26B)はモデル全体が16GBを超えるため、CPUオフロードが前提です。コード補完用途で実用に振るなら、速度と容量のバランスから7B〜14B級が扱いやすい範囲です。

Q. ローカルで7Bモデルを動かすにはVRAM何GB?

4ビット量子化版なら8GB前後が目安です。当サイトの検証環境(RTX 5080 16GB)では7B級が毎秒140トークン前後で快適に動きました。

Q. RTX 5080(16GB)で14Bモデルは動く?

動きます。当サイトの検証では量子化済みの14B級がVRAM 11GB前後で収まり、毎秒80トークン台を記録しました。22B級まで視野に入ります。

参考資料

当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。

タイトルとURLをコピーしました