VRAMとは、GPU(グラフィックボード)に搭載された専用メモリで、AI処理に必須のスペックである。
「ローカルでAIを動かしたいのに、モデルを読み込んだ瞬間にエラーで落ちる」——その原因の大半は、VRAMの容量不足にある。VRAMはローカルAI実行における最も重要なスペック要素。この記事では、VRAMの基本的な仕組みからAI用途で必要な容量の目安まで、具体的な数値とともに解説していく。
- VRAMはGPU専用のメモリで、PCのメインメモリ(RAM)とは物理的に別物
- ローカルでAIモデルを動かすにはVRAMにモデル全体を展開する必要があり、容量が足りなければ動作しない
- ローカルLLMなら12GB以上、画像生成なら8GB以上が実用的な目安。API利用(ChatGPT・Claude等)ならVRAMは不要
VRAMとは?通常のメモリ(RAM)との違い
VRAMとは、GPU(グラフィックボード)に搭載された専用メモリで、グラフィック処理やAI計算に使われるデータを一時的に格納する領域のこと。正式名称はVideo Random Access Memoryという。
PCに搭載されているメインメモリ(RAM)は、CPUが使う作業用メモリ。一方、VRAMはGPUだけがアクセスする専用領域で、物理的にもGPUのボード上に実装されている。両者はまったく別のハードウェアであり、「RAMが32GBあるからVRAMは十分」とはならない。
AI処理においてVRAMが決定的に重要な理由は、データの載せ方にある。ローカルでAIモデルを動かす場合、モデルの重み(パラメータ)をVRAM上に丸ごと展開する必要がある。たとえば70億パラメータ(7B)のモデルなら、量子化の方式にもよるが約4〜6GBのVRAMを占有する。容量が足りなければ、そもそもモデルが読み込めない。
ここが初心者にとって最大の落とし穴になる。PC購入時にRAMだけを見てVRAMを確認しなかった結果、「スペックは十分なはずなのにAIが動かない」という事態に陥るケースは珍しくない。
AI用途でVRAMが重要な理由
AIモデルの推論時には、パラメータの重み・KVキャッシュ(過去の会話履歴を保持する領域)・アクティベーション(計算途中のデータ)がすべてVRAM上に展開される。この3要素の合計がVRAM容量を超えた瞬間、モデルは正常に動作しなくなる仕組み。
ただし、すべてのAI利用にVRAMが必要なわけではない。ChatGPT、Claude、GitHub CopilotなどAPI経由で動作するAIツールはクラウド上のGPUを使って処理を行う。この場合、手元のPCにはGPUすら不要で、CPU・RAM・ネットワーク速度が快適さを左右する。VRAMが重要になるのはOllama、llama.cpp、Stable Diffusion、ComfyUIなどローカルでモデルを実行するケースに限られる。
VRAMが足りないとどうなるか
VRAM不足で起きる現象は主に2つ。1つ目がOOM(Out of Memory)エラーで、モデルの読み込み自体が失敗してプロセスが強制終了される。2つ目が、モデルの一部をシステムRAM側に退避させる「オフロード」処理。こちらは動作はするものの、速度が劇的に低下する。
当サイトの検証環境(RTX 5080 16GB + RTX 5060 Ti 16GB / i7-14700F / RAM 96GB)でqwen3:8bを実行したところ、131.5 tokens/secを記録。同じモデルでもVRAM容量を超えてRAMへのオフロードが発生すると、速度が10分の1以下に落ちる事例も観測される。VRAMに載るか載らないかで、体感速度はまったく別物になる。当サイト実機検証(2026-05、Ollama 0.23.3)
KVキャッシュとコンテキスト長の関係
VRAM消費は「モデル本体の重み」だけでは決まらない。Transformer系のLLMは、過去のトークンに対する計算結果(Key/Value)を再利用するためにKVキャッシュと呼ばれる領域を使う。このキャッシュ量はおおむね「2 × レイヤー数 × 隠れ層次元 × コンテキスト長 × データ型バイト数」で計算され、コンテキスト長と線形に増えていく。
たとえばLlama 3.1 8B(32レイヤー・隠れ層4096・GQA採用)でコンテキスト長を8192トークンに設定した場合、KVキャッシュだけでおよそ1GB前後を消費する。これを32768トークンまで拡張すると、4GBほど追加で必要になる計算だ。モデル構造や対応コンテキスト長はMeta公式のLlama 3.1リリースノートに整理されている。
古いMHA(マルチヘッドアテンション)方式のモデルに対し、近年主流のGQA(グループ化クエリアテンション)方式はKVキャッシュを数分の1まで圧縮する。長文プロンプトを多用するなら、GQA対応モデルを選ぶだけでもVRAM消費は大きく変わってくる。Llama 3系・Qwen2.5系などはいずれもGQAを採用しており、同じパラメータ数でも旧世代モデルより長文を扱いやすい。
用途別・VRAMの必要容量の目安
AI用途で必要なVRAM容量は、「何を動かすか」によって大きく異なる。以下の表で用途別の目安を整理した。
| 用途 | 最低VRAM | 推奨VRAM | 代表的なツール |
|---|---|---|---|
| ローカルLLM(7B以下) | 6GB | 8GB以上 | Ollama、llama.cpp、LM Studio |
| ローカルLLM(13B〜14B) | 10GB | 12GB以上 | Ollama、llama.cpp、LM Studio |
| ローカルLLM(26B〜32B) | 16GB | 24GB以上 | Ollama、llama.cpp |
| 画像生成(SD 1.5) | 4GB | 8GB以上 | Stable Diffusion WebUI、ComfyUI |
| 画像生成(SDXL / Flux) | 8GB | 12GB以上 | ComfyUI、Forge |
| 動画生成 | 12GB | 16GB以上 | ComfyUI + Wan2.1等 |
| ファインチューニング | 16GB | 24GB以上 | Unsloth、Axolotl |
| API利用のみ | 不要 | 不要 | ChatGPT、Claude、Copilot |
ChatGPTやClaudeをブラウザから利用するだけなら、VRAMは一切気にしなくてよい。GPU非搭載のノートPCでも問題なく動作する。「自分の用途はAPI利用だけなのか、ローカル実行もしたいのか」をまず整理するのが第一歩。
ローカルLLMで必要なVRAMの目安
ローカルLLMの必要VRAM量は、モデルのパラメータ数と量子化レベルの2つで決まる。量子化とは、モデルの重みデータを低ビットに圧縮してVRAM消費を減らす技術のこと。基本的な仕組みはHugging Face公式の量子化ガイドで体系的に解説されている。
| モデルサイズ | Q4量子化 | Q8量子化 | FP16(非量子化) |
|---|---|---|---|
| 4B(Phi-3 Mini等) | 約3GB | 約5GB | 約8GB |
| 7〜8B(Llama 3.1 8Bなど) | 約5GB | 約9GB | 約16GB |
| 14B(Qwen2.5-14Bなど) | 約9GB | 約15GB | 約28GB |
| 27Bクラスのモデル | 約16GB | 約28GB | 約52GB |
| 70B(Llama 3.1 70Bなど) | 約40GB | 約70GB | 約140GB |
この表が示す通り、量子化によって必要VRAM量は半分以下になる場合もある。Q4量子化であれば、VRAM 16GBのGPUでも27Bクラスのモデルをギリギリ動かせる計算だ。海外のローカルLLMコミュニティでは、14〜27Bクラスのモデルをq4量子化してVRAM 16GB環境で実用的に動かしているユーザーの報告がある。
さらに極端な例として、数百億パラメータ規模のモデルをQ2(2ビット)量子化し、VRAM 48GB環境で動作させたという報告もある。Q2は通常、品質劣化が大きいとされるが、超大型モデルでは劣化が相対的に小さくなるケースがあるとの指摘もある。ただし、これはあくまでハイエンド環境での話であり、一般的にはQ4以上の量子化を選ぶのが無難。
量子化方式の違い(GGUF / GPTQ / AWQ / EXL2)
同じ「Q4量子化」と言っても、内部で使われている量子化アルゴリズムは複数ある。代表的な方式と特性を整理する。
- GGUF: llama.cppが採用する形式。CPU/GPU混在実行に強く、Q4_K_M・Q5_K_M・Q6_K・Q8_0など細かいビット選択が可能。フォーマット仕様はggml公式ドキュメントで公開されている。Ollamaやllama.cpp系ツールで標準的に使われる形式。
- GPTQ: Frantar et al., 2022の論文で提案された方式。レイヤーごとに重要度を評価しながら量子化することで精度劣化を抑える。GPU実行に特化しており、AutoGPTQやExLlamaで利用される。
- AWQ: Lin et al., 2023のAWQ論文で提案されたActivation-aware Weight Quantization。活性化の大きさに応じて重要な重みを保護する手法で、4bit量子化でも比較的高い精度を維持しやすい。
- EXL2: ExLlamaV2が採用する可変ビット量子化。レイヤーごとに2〜8ビットを混在させ、平均ビット数を細かく調整できる。同じVRAM枠でも品質を最大化したい場合に選ばれる。
初心者向けにはGGUF(特にQ4_K_MやQ5_K_M)が扱いやすい。Ollamaで ollama pull qwen2.5:14b などと打つだけで自動的にGGUF形式のモデルがダウンロードされる仕組みになっている。利用可能なモデル一覧はOllama公式ライブラリで確認できる。
画像・動画生成で必要なVRAMの目安
画像生成AIのVRAM消費は、モデルの種類と生成解像度で変わる。SD 1.5(Stable Diffusion 1.5)なら512×512の標準解像度でVRAM 4GB程度から動作可能。一方、SDXLは1024×1024が標準で、最低でも8GB、快適に使うなら12GB以上が必要になる。Stable Diffusion 3.5の詳細仕様はStability AI公式のリリースアナウンスで公開されている。
Black Forest LabsがリリースしたFluxのような最新モデルはさらにVRAMを消費する傾向にある。動画生成(Wan2.1など)に至っては、フレーム数や解像度の設定によっては16GB以上を要求される場合もある。Stable Diffusionの導入を検討している場合、最低でもVRAM 8GB、できれば12GB以上のGPUを用意しておくと安心。
ファインチューニングとQLoRA
モデルを自前データで再学習(ファインチューニング)する場合、必要VRAM量は推論時の数倍に跳ね上がる。全パラメータを更新する学習では、モデル重みに加えて勾配・オプティマイザ状態・アクティベーションのバックワード保持が必要となるためだ。7Bモデルを全層更新する学習であっても、FP16精度で30〜60GB前後のVRAMを要求される。
この壁を一気に下げたのがQLoRA(Dettmers et al., 2023)。元のモデルを4bit量子化したまま凍結し、小さな低ランク行列(LoRA論文 Hu et al., 2021)だけを学習させる仕組みで、7Bモデルのファインチューニングが約6〜8GBのVRAMで動かせるようになった。13B〜14BクラスでもVRAM 12〜16GBで実行可能になり、コンシューマー向けGPUで学習が現実的になっている。
実装面ではUnsloth公式ドキュメントがメモリ使用量と学習速度の両面で参考になる。Unslothは独自カーネルでQLoRA学習のメモリ消費をさらに削減し、同じVRAMで2〜5倍長いコンテキストを扱えるとされる。ただし学習速度は全パラメータ更新より遅く、複雑なタスクでは精度が落ちるケースもある点には注意が必要。
VRAM以外にも注意すべきスペック
VRAMはローカルAI実行の最重要スペックだが、それだけ見ていれば万全というわけではない。見落とされがちなボトルネックが3つある。
1つ目はシステムRAM(メインメモリ)。 llama.cppなどの推論ライブラリでは、コンテキスト長(一度に処理するテキスト量)を大きく設定すると、VRAMとは別にシステムRAMも大量に消費される。llama.cpp公式リポジトリのIssue報告でも、大型モデルで長文プロンプトを処理した際にシステムRAMが枯渇し、プロセスが強制終了されたという報告が複数上がっている。ローカルLLMを快適に動かすなら、システムRAMは最低32GB、できれば64GB以上を確保したい。
2つ目はメモリ帯域幅。 VRAMの「容量」だけでなく「速度」もトークン生成速度に直結する。同じ16GBでも、GDDR6とGDDR6Xでは帯域幅が異なり、生成速度に差が出る。NVIDIA公式のRTX 5080スペックによれば、RTX 5080はGDDR7メモリで960GB/sの帯域幅を備える。当サイトの検証ではRTX 5080でqwen3:8bが131.5 tokens/secを記録したのに対し、RTX 4070 Super(GDDR6X・帯域幅504GB/s)では同モデルで81.1 tokens/secだった。帯域幅が約2倍のGPUで、速度も約1.5倍の差が出ている。
LLM推論はメモリ帯域がボトルネックになる処理として知られる。コア性能を上げても、VRAMから重みを読み出す速度が頭打ちになるためだ。「同じVRAM容量なら帯域幅が速い方が良い」というのは、ローカルLLM選定の基本原則になる。当サイト実機検証(RTX 5080 16GB / RTX 4070 Super 12GB、Ollama 0.23.3)
3つ目はSSD容量。 ローカルAIモデルのファイルサイズは、7Bモデルで約4GB、70Bモデルで約40GBにもなる。複数モデルを使い分けるなら、SSDの空き容量は最低でも100GB以上確保しておくべき。
VRAM容量別・おすすめGPUの選び方
最後に、VRAM容量帯ごとの代表的なGPUと対応可能なAI用途を整理する。2026年5月時点の情報をもとにまとめた。
| VRAM容量 | 代表的なGPU | 対応できるAI用途 | 参考価格帯 |
|---|---|---|---|
| 8GB | RTX 4060 | SD 1.5、7B以下のLLM(Q4) | 4〜5万円 |
| 12GB | RTX 4060 Ti、RTX 4070 Super、RTX 3060 12GB | SDXL、Flux、14BまでのLLM(Q4) | 5〜9万円 |
| 16GB | RTX 5080、RTX 4060 Ti 16GB、RX 7800 XT | 動画生成、26BまでのLLM(Q4) | 7〜15万円 |
| 24GB | RTX 4090、RTX 3090 | 70B LLM(Q4・部分オフロード)、ファインチューニング | 20〜30万円 |
迷ったらVRAM 12GB以上のGPUを選べば、画像生成からローカルLLMまで主要なAI用途の大半をカバーできる。これがもっともわかりやすい結論。
ただし、AIモデルは年々大型化している。2026年に入って26B〜32Bクラスのローカル LLMが急増してきた。予算に余裕があるなら、16GB以上を選んでおくと数年先まで対応力が持続する。逆にAPI利用がメインでローカル実行の予定がなければ、VRAM容量を気にする必要はまったくない。
- VRAMの正式名称
- Video Random Access Memory(GPU専用メモリ)
- ローカルLLM (7B Q4)
- 最低 6GB / 推奨 8GB+
- ローカルLLM (14B Q4)
- 最低 10GB / 推奨 12GB+
- 画像生成 SDXL / Flux
- 最低 8GB / 推奨 12GB+
- 動画生成 (Wan2.1等)
- 最低 12GB / 推奨 16GB+
- QLoRA 7B 学習
- 6〜8GB
- API利用 (ChatGPT等)
- 不要
よくある質問
Q. VRAMとRAM(メインメモリ)は何が違いますか?
VRAMはGPU専用のメモリ、RAMはCPU用のメモリで、物理的に別のハードウェアです。RAMがどれだけ多くても、VRAMの代わりにはなりません。
Q. VRAMが足りない場合、RAMで代用できますか?
完全な代用はできません。llama.cppなどの推論ライブラリはモデルの一部をシステムRAMに退避(オフロード)する機能を持ちますが、処理速度がVRAM実行の10分の1以下に落ちることがあります。動作はするものの、実用的な速度を求めるならVRAMへの収容が必須です。
Q. ローカルでLLMを動かすのに必要な最低VRAMは何GBですか?
7B以下のモデルをQ4量子化で動かす場合、最低6GB・推奨8GB以上が目安です。14Bクラスなら12GB以上、32Bクラスには24GB以上が推奨されます。量子化を活用することで必要VRAM量を大幅に削減できるため、まずQ4量子化で試すのが定番の方法です。
Q. ChatGPTやClaudeを使うだけならVRAMは必要ですか?
不要です。ChatGPTやClaudeはAPI経由でクラウド上のGPUを使って処理するため、手元のPCにGPUがなくても問題なく動作します。VRAMが重要になるのはOllamaやStable DiffusionなどローカルでAIモデルを実行する場合に限られます。
Q. VRAM 8GBでローカルLLMは動かせますか?
7B以下のモデルをQ4量子化すれば動作します。ただし14B以上のモデルは厳しく、画像生成もSDXL以上は快適とは言えません。幅広いAI用途に対応するなら12GB以上を推奨します。
Q. VRAMは増設できますか?
できません。VRAMはGPUのボード上にはんだ付けされており、後から追加や交換は不可能です。VRAM容量を増やすにはGPU自体を買い替える必要があります。
Q. VRAM 16GBと24GBで体感差はありますか?
用途によって大きく変わります。SDXLや14Bまでのローカル LLMが主用途なら16GBで足ります。一方、26B以上のLLMをQ4で動かしたい、QLoRAで7B〜13Bのファインチューニングをしたい、動画生成で高解像度を扱いたい、といった用途では24GBの恩恵が明確に出ます。
Q. 2枚のGPUでVRAMを合算できますか?
用途次第で可能です。llama.cppやvLLMなどの推論ライブラリはマルチGPU対応で、モデルをレイヤー単位で分割して複数GPUに配置できます。ただしGPU間通信がボトルネックになりやすく、速度面では単一の大容量GPUに劣るのが一般的です。SDXLや動画生成のような単一プロセスに最適化された処理では、合算が難しいケースもあります。
Q. ノートPCのGPUでもAIは動きますか?
動きますが、ノートPC向けGPUは同型番のデスクトップ版より性能・VRAM容量ともに低い傾向があります。たとえばノート向け「RTX 4070 Laptop」はVRAM 8GBで、デスクトップ版RTX 4070(12GB)とは別物。AI用途で本格的に使うならVRAM容量を必ず仕様表で確認してください。
まとめ
VRAMはGPU専用のメモリであり、ローカルでAIを動かす際の最重要スペック。容量が足りなければモデルが読み込めず、不足したまま無理に動かしても実用的な速度は得られない。
用途別の目安を改めて整理すると、ローカルLLM(7〜14B)なら12GB以上、画像生成(SDXL / Flux)なら12GB以上、API利用のみならVRAM不要。まずは自分の用途がローカル実行なのかAPI利用なのかを明確にし、ローカル実行が必要なら「動かしたいモデルのパラメータ数」と「量子化レベル」から逆算してVRAM容量を決めるのが確実な選び方になる。
参考資料
- NVIDIA公式: GeForce RTX 5080 製品仕様
- Meta公式: Llama 3.1 リリースノート
- Hugging Face公式: Quantization 概要ドキュメント
- ggml公式: GGUF フォーマット仕様
- GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers (Frantar et al., 2022, arXiv:2210.17323)
- AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration (Lin et al., 2023, arXiv:2306.00978)
- QLoRA: Efficient Finetuning of Quantized LLMs (Dettmers et al., 2023, arXiv:2305.14314)
- LoRA: Low-Rank Adaptation of Large Language Models (Hu et al., 2021, arXiv:2106.09685)
- Ollama公式: モデルライブラリ
- Unsloth公式ドキュメント
- llama.cpp公式リポジトリ
- Stability AI公式: Stable Diffusion 3.5 リリースアナウンス
当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。
本記事は AIハードウェア図鑑 編集部 が記載時点の情報をもとに執筆。製品アップデートや第三者ベンチマーク・価格・対応ランタイム等の変動で評価が変わる可能性がある。一定期間経過した内容は再検証を推奨する。

