VRAM 16GB:RTX 5080 VRAM不足でLLMが起動しないエラーの解決法|原因と対処法を徹底解説

GPU・グラフィックボード

RTX 5080 VRAM不足エラーとは、公称16GBの割り当てから約1.1GBをOSとKVキャッシュが先取りし、実効14.8GBに収まらないモデルが起動拒否される状態のこと。

Ollamaでqwen3:32bを起動しようとしたら、モデルのロードが始まる前に「SKIPPED_VRAM」で止まった。RTX 5080は16GB搭載しているはずなのに、なぜ32Bクラスだけ起動できないのでしょうか。答えは公称容量と実使用可能枠の差にあります。

この記事の要点

  • 最大の原因はVRAM実効上限14.8GBを超えるモデル要求で、Ollamaが事前チェックで起動を拒否する
  • 最初に試すべきは量子化レベルを下げる(Q4_K_M→Q3_K_M)か、MoEアーキテクチャのモデルに切り替える
  • 解決しない場合はCPUオフロード、Oculink経由のデュアルGPU、APIへの切り替えが代替手段

このエラーの症状と確認すべき環境情報

Ollamaやllama.cppでモデルをロードしようとした瞬間、以下のようなログや挙動が出ていれば本記事の対象です。

よくある症状:

  • Ollamaのログに「SKIPPED_VRAM」または「not enough VRAM available」
  • モデルのダウンロードは完了しているのに推論が始まらない
  • ollama run qwen3:32bを実行してもプロンプト入力画面に入らず終了
  • CUDA error: out of memory がモデルロード中に発生
  • ロードは通るが最初のトークン生成後にクラッシュ

これはGPUが壊れているわけでも、ドライバが異常なわけでもありません。RTX 5080の16GB VRAMに対して、モデルの要求量が上回っているのが原因。対処前に自分の環境を次のように確認してください。

対処前に確認してほしい環境情報:

  • OS: Windows 11 / Windows 10 / Linux(本記事の検証環境はWindows 11 25H2・build 26200)
  • GPU: RTX 5080 16GB(nvidia-smiで確認)
  • ドライババージョン: nvidia-smiコマンドで確認(本記事は595.97で検証)
  • Ollamaバージョン: ollama –versionで確認(本記事は0.20.7)
  • 空きVRAM: nvidia-smiの「Memory-Usage」列でアイドル時の使用量を確認

アイドル時にVRAMを1GB以上消費している場合、ブラウザやウィンドウマネージャが先取りしています。ここが実効上限を決めるポイント。

SKIPPED_VRAMで起動拒否される|実効14.8GBの壁が原因

RTX 5080は公称16GB VRAMですが、実機で確認できる容量は15.9GB。ここからWindowsのデスクトップコンポジション、NVIDIAドライバ本体、そしてモデルロード時に確保されるKVキャッシュが引かれます。当サイトの検証環境(RTX 5080 / i7-14700F / 96GB RAM / Ollama 0.20.7 / ドライバ595.97)では、実際にモデル推論に使える枠は約14.8GBでした。

Ollamaはモデルをロードする前に「このモデルを動かすのに何GB必要か」を見積もり、空きVRAMと照合します。足りないと判断したら起動自体を止める。これがSKIPPED_VRAMの正体。out of memoryでクラッシュさせる前に自衛しているだけで、エラーそのものは正常動作の一部です。

公称16GBと実効14.8GBの差は約1.1GB。このマージンを知らずに「16GB VRAMだから17GB要求のモデルは動くはず」と期待すると必ず躓きます。起動できたかどうかを決めるのは14.8GBという実効値。

対処手順:

  1. nvidia-smiでアイドル時のVRAM使用量を確認する。Windowsのデスクトップ効果やブラウザが使っている分を把握
  2. 不要なブラウザタブ・Discord・ハードウェアアクセラレーションが有効なアプリを終了する。空きVRAMを14.8GB以上確保するのが目標
  3. OllamaのOLLAMA_KEEP_ALIVEを短くする。前回ロードしたモデルが常駐してVRAMを占領しているケースあり
  4. 起動したいモデルの「VRAM目安」を確認する。14.8GBを超える値なら物理的に動かない

ステップ2でVRAM使用量が1GB未満まで減らない場合、GPUハードウェアアクセラレーションを使っているバックグラウンドアプリが残っている可能性があります。タスクマネージャの「GPU」タブで使用プロセスを一覧表示できます。

32BクラスDenseモデルが全滅する理由|MoEとの違い

検証環境で実際に起動拒否された3モデルがこちら。

モデル アーキテクチャ 状態 備考
qwen3:32b Dense SKIPPED_VRAM 32B全パラメータが常時アクティブ
gemma4:31b Dense SKIPPED_VRAM 31Bクラスも同様
qwen3.5:27b Dense SKIPPED_VRAM 27BでもQ4換算で16GB超え
codestral:22b Dense OK(14.2GB) 22Bは14.8GB枠に収まる
gemma4:26b MoE OK(14.8GB) 総26Bでも活性パラメータ小
qwen3.5:35b-a3b MoE OK(14.8GB) 総35B・活性3B

27B以上のDenseモデルは全滅。一方で総パラメータが26B・35BあるMoEモデルは動いています。この差がアーキテクチャによる挙動の違いを示す実例。

DenseとMoEでVRAM消費が違う仕組み

Denseモデルは推論時に全パラメータをGPU上に展開する必要があります。32BをQ4_K_M量子化しても実サイズは約19〜20GB前後(willitrunai.comやapxml.comの参照値ではqwen3:32b Q4_K_Mで約19.8GB)となり、14.8GBの枠には収まりません。これが32Bクラス全滅の理由。

MoE(Mixture of Experts)は総パラメータが大きくても、推論時に使う「活性パラメータ」だけを計算します。qwen3.5:35b-a3bは総35Bですが活性は3B。モデル自体のロードは総量ぶん必要ですが、Q4量子化で14.8GBに圧縮できる構造ならVRAM枠にぎりぎり収まります。

対処手順:

  1. ollama listで現在ダウンロードしているモデル一覧を確認
  2. 起動拒否されたモデルを削除する(ollama rm qwen3:32b)。14GB以上のファイルが空きストレージを圧迫
  3. 同じ系列のMoE版か、より小さいサイズに切り替える。qwen3:32b → qwen3.5:35b-a3b(MoE)または qwen3:14b
  4. ロード時にnvidia-smi -l 1で1秒ごとのVRAM推移を観察。14.8GB前後で停止すればOK

ステップ3でMoEモデルに切り替えた場合、速度は落ちる点に注意してください。当サイト検証ではgemma4:26b(MoE)が36.7 tokens/sec、qwen3.5:35b-a3bが18.5 tokens/sec。通常のDense 14Bモデル(qwen3:14bで79.1 tokens/sec)と比べると体感は遅めです。

Codestral 22Bが遅い・TTFTが不安定な場合の対処

22Bクラスは起動できるものの「他サイトが報告する速度に届かない」「TTFT(最初のトークン生成までの時間)が不安定」というケースがあります。当サイトの検証環境ではcodestral:22bで33.3 tokens/sec・VRAM 14.2GB・TTFT 2771msを記録。willitrunai.comが公開しているRTX 5080 16GB環境の報告では51.5 tokens/sec・TTFT 3759msとされており、トークン速度で下回りTTFTでは上回る結果。

この差は量子化設定・Ollamaバージョン・バックエンド(CUDA/cuBLAS)の違いで発生します。測定条件が合わないと単純比較できない点は押さえておきたいところ。

ドライバの再インストール・Ollamaのダウングレードはシステムに影響します。作業前に重要なデータを保存し、復旧できる状態を確保してから進めてください。ドライバ変更後に他のGPU用ソフト(ComfyUIStable Diffusion WebUIなど)が動かなくなるケースも報告されています。

対処手順:

  1. 起動できている場合はnvidia-smiで消費電力を確認する。フルGPU推論時はTDP(360W)の5〜8割程度に張り付くのが目安。100Wを切っているとCPUへの処理退避が混ざっている可能性
  2. OLLAMA_NUM_GPUを最大値に固定する。自動判定に任せると一部の処理ブロックがCPUに逃げることがある
  3. Ollamaのバージョンを確認する。本記事の検証は0.20.7。古いバージョンでは同じモデルでも速度が落ちる報告が複数ある
  4. プロンプト長を短くしてTTFTを測り直す。長文プロンプトはTTFTを大きく押し上げる要因

ステップ2を実行した後、ollama psで「100% GPU」と表示されていれば完全にVRAMに乗っています。「87% GPU / 13% CPU」のような表示が出ていれば、一部がCPUに退避している証拠。この状態だと速度は数分の1まで落ちます。

それでも解決しない場合の代替手段

SKIPPED_VRAMがどうしても消えない、または32Bクラスを動かしたい場合、次の4つの選択肢があります。それぞれの特性を理解した上で選んでください。

選択肢1: 量子化レベルを下げる

Q4_K_MをQ3_K_MやQ2_Kに落とすと、同じモデルでもVRAM要求が2〜4GB減ります。27BクラスのDenseモデルなら14.8GB枠に収まる可能性あり。ただし品質は明確に低下します。コード生成や長文推論では回答精度が目に見えて落ちるため、用途次第。軽い会話用途なら許容範囲の場合もあります。

選択肢2: CPUオフロード

Ollamaやllama.cppは一部の処理ブロックをCPUメモリに退避する機能を持ちます。32Bクラスでも起動自体はできますが、速度は劇的に落ちる。目安としてフルGPU推論時の10〜20%程度まで落ちるのが一般的。また、CPUオフロード時はRAM消費も跳ね上がります。大型モデルのCPUオフロード運用では十数GB〜数十GBのシステムRAMを消費するケースが珍しくないため、AI用途では最低32GB、できれば64GB以上のシステムRAMを用意したいところ。

選択肢3: セカンドGPU追加・Oculink接続

RTX 5080にRTX 5060 Ti 16GBなどを追加してデュアルGPU構成にすると、合計32GB VRAMが使えます。Oculink経由の外付けGPUも選択肢。llama.cppやOllamaは複数GPUへの自動分散に対応しています。32Bクラスを快適に動かしたい場合の本命の解決策。

選択肢4: クラウドAPIへの切り替え

Claude APIやGemini APIなら32Bを超えるモデルも即時利用可能。ローカルGPU不要でノートPCからでも使えます。GPU購入費用と比較してコストが見合う場合は有力な選択肢です。

22Bクラスまでで十分ならRTX 5080で完結。32B以上を主戦場にしたいならRTX 5090(32GB VRAM)かデュアルGPU構成が必要。「動かしたいモデル」起点で判断するのが最短ルート。

まとめ

RTX 5080でVRAM不足エラー(SKIPPED_VRAM、out of memory)が出る最大の原因は、公称16GBと実効14.8GBの差を見落としていること。対処の優先順位は次の通り。

まず空きVRAMをnvidia-smiで確認し、14.8GB以上を確保する。これで9割のケースは起動できるようになります。それでもダメな場合、モデルを14B以下のDenseかMoE版に切り替えるのが次の一手。32Bクラスを諦められない場合のみ、量子化レベルの降格・CPUオフロード・デュアルGPU化を検討する順序になります。

RTX 5080 VRAM(公称) 16GB GDDR7
実機認識容量 15.9GB
推論実効上限 約14.8GB(OS・KVキャッシュ差引後)
動作上限モデル(Dense) codestral:22b(14.2GB / 33.3 tokens/sec)
動作上限モデル(MoE) qwen3.5:35b-a3b(14.8GB / 18.5 tokens/sec)
起動拒否モデル qwen3:32b・gemma4:31b・qwen3.5:27b
TDP 360W
参考価格 200,000円〜(2026年4月時点)

よくある質問

Q. 16GB VRAMでQwen3 32Bを動かす方法はありますか?

Denseの32BをQ4_K_Mで動かすのは不可能です。代替策は3つ。同じQwen系列のMoE版qwen3.5:35b-a3b(14.8GBで動作)に切り替える、量子化をQ2_Kまで下げてCPUオフロードと併用する、RTX 5060 Tiなどを追加してデュアルGPU化する、のいずれか。実用速度を求めるならMoE切り替えが最も無難です。

Q. MoEモデルならなぜ総35Bでも16GBに収まるのですか?

MoEは推論時に全パラメータを使わず、活性パラメータ(Active Parameters)だけを計算します。qwen3.5:35b-a3bは総35Bですが活性は3B。Q4量子化後のモデルサイズが14.8GBの実効枠に収まれば動作します。ただし速度はDense 14Bより遅く、当サイト実測では18.5 tokens/secでした。

Q. RTX 5080とRTX 5090の差は何GBで効きますか?

RTX 5090は32GB VRAMで、RTX 5080の2倍。差が明確に効くのは27B以上のDenseモデル(qwen3:32b・gemma4:31b・qwen3.5:27bなど)を動かしたい場合。22B以下しか使わないならRTX 5080で十分で、価格差(約35万円)に見合いません。70Bクラスや4K動画生成の並列処理が必要ならRTX 5090が本命。

Q. CPUオフロードで32Bモデルは実用速度で動きますか?

実用範囲とは言い難いのが正直なところ。RAMへの一部退避が発生すると、速度はフルGPU時の10〜20%まで落ちるのが一般的です。対話用途なら待てる範囲、コード生成や自動処理では実用に厳しい水準。RAMは最低64GB、できれば96GB以上を用意したいところ。当サイトの検証環境も96GB RAM構成です。

Q. ドライバを更新すればVRAM不足エラーは消えますか?

消えません。SKIPPED_VRAMはドライバの問題ではなく物理的なVRAM容量不足。ドライバ更新で改善するのは起動速度や推論速度の微調整程度。16GBの枠を超えるモデルを動かしたい場合は、モデルサイズを変えるかGPUを変えるしかありません。

当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。

おすすめパーツ 価格まとめ

製品名 カテゴリ スペック 参考価格
RTX 5080 GPU・グラフィックボード NVIDIA GeForce RTX 5080 16GB GDDR7 ¥200,000〜
RTX 5090 GPU・グラフィックボード NVIDIA GeForce RTX 5090 32GB GDDR7 ¥550,000〜
RTX 5070 Ti GPU・グラフィックボード NVIDIA GeForce RTX 5070 Ti 16GB GDDR7 ¥175,000〜

本記事は AIハードウェア図鑑 編集部 が記載時点の情報をもとに執筆。製品アップデートや第三者ベンチマーク・価格・対応ランタイム等の変動で評価が変わる可能性がある。一定期間経過した内容は再検証を推奨する。

タイトルとURLをコピーしました