「ローカルでLLMを動かしたいけど、自分のPCで本当に動くのか分からない」——そんな不安を抱えたままGPUを買うのはリスクが大きい。Ollamaは手軽にローカルLLMを実行できるツールとして人気だが、実際に快適に使えるかどうかはハードウェア次第。本記事では、Ollamaで主要モデルを動かすために必要なGPU・VRAM・メモリの具体的な数値を、モデルサイズ別・用途別に整理した。スペック選びで失敗しないための判断材料として活用してほしい。
OllamaがローカルLLM実行ツールとして選ばれる理由
Ollamaは、大規模言語モデル(LLM)をローカルPC上で手軽に実行するためのオープンソースツール。コマンド一つでモデルのダウンロードから起動まで完結し、複雑な環境構築が不要な点が最大の特徴だ。
対応OSはWindows、macOS、Linuxの3プラットフォーム。NVIDIA GPU、AMD GPU、Apple Siliconのいずれでも動作するため、手持ちのPCで始められるケースが多い。Docker経由での実行にも対応しており、サーバー用途にも適している。
ただし「動く」と「快適に使える」は全く別の話。Ollamaでは量子化(quantization)されたモデルを使うことでVRAM消費を抑えられるが、それでもモデルサイズが大きくなれば相応のハードウェアが求められる。7Bパラメータの小型モデルなら8GBのVRAMで十分だが、70Bクラスを動かそうとすれば48GB以上のVRAMが必要になることも珍しくない。
次のセクションから、具体的なスペック要件を掘り下げていく。
VRAM消費量の基本|量子化レベルとモデルサイズの関係
Ollamaでのスペック選びを理解するには、まずVRAM消費量がどう決まるかを押さえる必要がある。
量子化(Quantization)とは何か
量子化とは、モデルの重みデータの精度を下げることで、ファイルサイズとVRAM消費を削減する技術。元のモデルは通常FP16(16ビット浮動小数点)で学習されているが、これをQ4_K_M(4ビット)やQ5_K_M(5ビット)に変換することで、必要なVRAMを大幅に削減できる。
Ollamaでは、デフォルトで提供されるモデルの多くがQ4_K_M量子化を採用している。この量子化レベルは、品質と効率のバランスが良く、実用的な出力品質を維持しつつVRAM消費を抑えられる点が評価されている。
VRAM消費量の目安計算式
ざっくりとしたVRAM消費量は、以下の計算式で見積もれる。
VRAM消費量(GB)≒ パラメータ数(B)× 量子化ビット数 ÷ 8 + オーバーヘッド(約1〜2GB)
たとえば7Bモデルを4ビット量子化で動かす場合:
- 7 × 4 ÷ 8 + 1.5 ≒ 5.0GB
13Bモデルなら:
- 13 × 4 ÷ 8 + 1.5 ≒ 8.0GB
この計算はあくまで目安であり、モデルのアーキテクチャやコンテキスト長の設定によっても変動する。コンテキスト長を長くすれば、KVキャッシュ分のVRAM消費が上乗せされる点には注意が必要だ。
量子化レベル別のVRAM消費比較
7Bパラメータモデルを例に、量子化レベルごとのVRAM消費と品質の関係を示す。
| 量子化レベル | ファイルサイズ(概算) | VRAM消費(概算) | 品質への影響 |
|---|---|---|---|
| FP16 | 約14GB | 約16GB | 劣化なし |
| Q8_0 | 約7.5GB | 約9GB | ほぼ劣化なし |
| Q5_K_M | 約5.0GB | 約6.5GB | 微小な劣化 |
| Q4_K_M | 約4.0GB | 約5.5GB | わずかな劣化 |
| Q3_K_M | 約3.3GB | 約4.8GB | 体感できる劣化 |
| Q2_K | 約2.7GB | 約4.2GB | 明確な劣化 |
Q4_K_Mが「スイートスポット」と呼ばれる理由は、品質劣化が最小限でありながらVRAM消費を半分以下に抑えられるから。Q3以下になると、特に日本語の出力品質で明らかな低下を感じることが増えてくる。
モデル別の推奨スペック一覧
ここからが本題。Ollamaで利用できる主要モデルについて、推奨スペックを具体的にまとめた。すべてデフォルト量子化(主にQ4_K_M)での数値となっている。
小型モデル(1B〜3B):エントリー向け
| モデル | パラメータ数 | VRAM消費目安 | 推奨GPU |
|---|---|---|---|
| Gemma 2 2B | 2B | 約2.5GB | GTX 1650以上 |
| Phi-3 Mini | 3.8B | 約3.5GB | GTX 1660以上 |
| Llama 3.2 3B | 3B | 約3.0GB | GTX 1660以上 |
| Qwen 2.5 3B | 3B | 約3.0GB | GTX 1660以上 |
CPU推論でもある程度実用的に動作する小型モデル群。統合GPUしか搭載していないノートPCでも、応答速度に目をつぶれば使えなくはない。チャットボットのプロトタイプや、簡単な文章生成タスクに向いている。
中型モデル(7B〜14B):メインストリーム
| モデル | パラメータ数 | VRAM消費目安 | 推奨GPU |
|---|---|---|---|
| Llama 3.1 8B | 8B | 約5.5GB | RTX 3060 12GB以上 |
| Gemma 2 9B | 9B | 約6.0GB | RTX 3060 12GB以上 |
| Mistral 7B | 7B | 約5.0GB | RTX 3060 12GB以上 |
| Qwen 2.5 14B | 14B | 約9.5GB | RTX 4070以上 |
| Phi-3 Medium 14B | 14B | 約9.5GB | RTX 4070以上 |
個人利用で最も人気のあるサイズ帯。8GB以上のVRAMを搭載したGPUがあれば、7B〜8Bクラスは快適に動作する。14Bクラスになると12GB以上のVRAMが望ましい。
Llama 3.1 8BやGemma 2 9Bは、このサイズ帯では出力品質が高く、日本語対応も比較的良好。最初の一台としてはRTX 3060 12GBが費用対効果に優れた選択肢になる。
大型モデル(30B〜70B):ハイエンド
| モデル | パラメータ数 | VRAM消費目安 | 推奨GPU |
|---|---|---|---|
| Llama 3.1 70B | 70B | 約40GB | RTX 3090×2 / A6000 |
| Qwen 2.5 72B | 72B | 約42GB | A6000 / RTX 4090×2 |
| Mixtral 8x7B | 約47B(実効) | 約26GB | RTX 3090以上 |
| Codellama 34B | 34B | 約20GB | RTX 3090 / RTX 4090 |
| DeepSeek-R1 70B | 70B | 約40GB | A6000 / RTX 4090×2 |
70Bクラスのモデルを動かすには、単体GPUではRTX A6000(48GB)やRTX 6000 Ada(48GB)が必要になる。コンシューマ向けGPUで対応するなら、RTX 3090(24GB)やRTX 4090(24GB)を2枚構成にして、モデルを分割ロードする方法がある。
ただしOllamaでのマルチGPU対応は、llama.cppバックエンドの機能に依存しており、設定にはやや手間がかかる。70Bモデルをどうしてもローカルで動かしたい場合は、llama.cppのVRAM管理についても把握しておくとトラブル対処がしやすくなる。
超大型モデル(100B超):プロフェッショナル
| モデル | パラメータ数 | VRAM消費目安 | 推奨GPU |
|---|---|---|---|
| Llama 3.1 405B | 405B | 約230GB | A100×4以上 |
405Bクラスは個人利用の範疇を完全に超えている。マルチGPUサーバーが必須であり、電力消費やランニングコストも考慮すると、APIサービスを利用した方が合理的な判断になるだろう。
GPU選びの実践ガイド|予算別おすすめ構成
予算3万円以下:中古GPUで始める構成
手持ちのPCに中古のGTX 1080 Ti(11GB)やRTX 2080 Ti(11GB)を追加する構成。7Bクラスのモデルなら問題なく動作し、ローカルLLMの入門として十分な体験が得られる。
中古市場では、RTX 3060 12GBが2万円台で見つかることもある。12GBのVRAMを持つこのカードは、コストパフォーマンスの面で現状最も推奨できるエントリーGPUだ。
注意点として、VRAMが8GBのGPUは選択肢がかなり限られる。RTX 3070やRTX 4060はVRAMが8GBしかなく、7Bモデルは動くものの余裕が少ない。VRAM容量は妥協しない方がいい。
予算5〜10万円:新品ミドルレンジ構成
RTX 4060 Ti 16GBや、RTX 4070 12GBあたりが候補になる価格帯。14Bクラスのモデルまで快適に動作し、コーディング支援やRAG(検索拡張生成)パイプラインの構築にも対応できるスペックとなる。
この予算帯で最も汎用性が高いのはRTX 4060 Ti 16GBだろう。16GBのVRAMがあれば、14Bモデルをフル精度に近い形で動かしたり、7Bモデルを長いコンテキスト長で運用したりと、柔軟な使い方が可能になる。
予算15〜25万円:ハイエンド構成
RTX 4090(24GB)を中心とした構成。34Bクラスのモデルまで単体で動作し、推論速度も非常に高速。ゲームとAI両方に使いたい層にとっては、RTX 5070 TiとRTX 3090の比較記事も参考になるはず。
RTX 5090(32GB)が予算内に入るなら、VRAMの余裕がさらに広がる。ただし、RTX 5000シリーズのトラブル事例も報告されているため、購入前にドライバの安定性も確認しておきたい。
予算30万円以上:プロ・研究者向け構成
RTX A6000(48GB)やRTX 6000 Ada(48GB)を選択する価格帯。70Bクラスのモデルが単体GPUで動作する唯一の現実的な選択肢であり、プロの研究開発や、社内向けAIサービスのホスティングに適している。
CPU推論という選択肢|GPUなしでも動かせるケース
OllamaはCPU推論にも対応しており、GPU非搭載のPCでもモデルを動かせる。特にApple Silicon搭載のMacでは、ユニファイドメモリによってGPU並みの効率で推論が可能なケースもある。
Apple Silicon(M1〜M4)での動作
Apple Siliconの場合、CPUとGPUがメモリを共有するため、搭載メモリ量がそのまま「使えるVRAM」に近い役割を果たす。
| チップ | 搭載メモリ | 動作可能なモデル目安 |
|---|---|---|
| M1 / M2(8GB) | 8GB | 7Bクラス(Q4量子化) |
| M1 Pro / M2 Pro(16GB) | 16GB | 14Bクラスまで |
| M1 Max / M2 Max(32GB) | 32GB | 34Bクラスまで |
| M2 Ultra / M3 Ultra(64GB以上) | 64〜192GB | 70Bクラス以上 |
M3 MaxやM4 Maxの32GB以上のモデルは、ローカルLLMの実行環境として非常に優秀。推論速度はNVIDIA GPUに劣るものの、静音性や消費電力の面で大きなアドバンテージがある。
x86 CPU推論の現実
Intel/AMD CPUのみでの推論も不可能ではないが、実用的な速度が出るのは3B以下の小型モデルに限られる。7Bモデルでも1秒あたり数トークンという速度になり、対話的な使い方はストレスが大きい。AVX-512に対応したCPUであれば多少改善するが、GPUの推論速度とは桁違いの差がある。
どうしてもGPUなしで7B以上のモデルを使いたい場合は、Apple Silicon Macの方が圧倒的に現実的な選択肢になるだろう。
システムメモリ(RAM)の要件
GPUのVRAMとは別に、システムメモリ(RAM)の容量も重要。Ollamaはモデルのロード時にシステムメモリも消費するため、VRAMだけでなくRAMにも余裕が必要になる。
モデルサイズ別のRAM推奨値
| モデルサイズ | 最低RAM | 推奨RAM |
|---|---|---|
| 3B以下 | 8GB | 16GB |
| 7B〜8B | 16GB | 32GB |
| 13B〜14B | 16GB | 32GB |
| 30B〜34B | 32GB | 64GB |
| 70B | 64GB | 128GB |
VRAMが不足した場合、Ollamaはモデルの一部をシステムメモリにオフロードする。この「パーシャルオフロード」は動作自体は可能だが、推論速度が大幅に低下する。快適に使いたいなら、モデル全体がVRAMに収まるGPUを選ぶべきだ。
RAMの速度(メモリクロック)も無視できない要素で、DDR5-5600とDDR4-3200ではオフロード時の速度差が体感できるレベルになることもある。
ストレージ要件とモデル管理
見落としがちだが、ストレージの容量と速度もOllamaの使い勝手に影響する。
モデルの保存容量
Ollamaがダウンロードしたモデルは、デフォルトでホームディレクトリ配下に保存される。複数のモデルを試すとなると、それなりのストレージ容量が必要になる。
- 7Bモデル(Q4):約4GB/モデル
- 14Bモデル(Q4):約8GB/モデル
- 70Bモデル(Q4):約40GB/モデル
10個程度のモデルを保持するなら、最低でも100GBの空き容量は確保しておきたい。モデルの格納先はNVMe SSDが望ましく、SATA SSDやHDDではモデルのロード時間が長くなる。初回ロードで数十秒の差が生じるため、体験の質が大きく変わってくる。
モデルの切り替えとメモリ管理
Ollamaはデフォルトで、最後に使用したモデルを5分間メモリに保持する。この設定は環境変数 OLLAMA_KEEP_ALIVE で変更が可能だ。メモリの逼迫が気になる場合は、短めに設定するとよい。
# モデルをすぐにアンロードする設定
OLLAMA_KEEP_ALIVE=0# 30分間保持する設定
OLLAMA_KEEP_ALIVE=30m
複数モデルを頻繁に切り替える用途では、VRAMに余裕のあるGPUを選んでおくと、ロード待ち時間のストレスを軽減できる。
パフォーマンス最適化のポイント
ハードウェアを揃えた後、ソフトウェア側の設定でさらにパフォーマンスを引き出す方法も紹介しておく。
コンテキスト長の調整
デフォルトのコンテキスト長は2048トークンだが、用途によってはこれを拡張したくなる場合がある。コンテキスト長を伸ばすとKVキャッシュのVRAM消費が増加するため、モデル本体のVRAM消費に加えて余裕を確保しなければならない。
# コンテキスト長を8192に設定
ollama run llama3.1 --num-ctx 8192
8192トークンに拡張した場合、追加で1〜3GB程度のVRAM消費が発生する。VRAMが12GBのGPUで7Bモデルを長コンテキストで使うケースでは、ギリギリの運用になる可能性が高いため注意してほしい。
GPU利用率の確認方法
実際にどれだけGPUが使われているかは、以下のコマンドで確認できる。
# NVIDIA GPUの場合
nvidia-smi# 継続的な監視
watch -n 1 nvidia-smi
「GPU-Util」が常に低い値を示している場合、CPUがボトルネックになっている可能性がある。逆に「Memory-Used」が上限に張り付いている場合は、VRAMが不足気味であることを意味する。GPU関連のエラー対処の知識があると、問題の切り分けがスムーズに進む。
同時リクエスト時の注意
OllamaをAPIサーバーとして複数クライアントから利用する場合、同時リクエストごとにKVキャッシュ分のVRAM消費が追加される。2つの同時セッションを処理するだけでも、VRAM消費は1.5〜2倍に膨れ上がることがある。
サーバー用途で運用するなら、単独利用時の推奨スペックより1ランク上のGPUを選んでおくのが安全だ。
まとめ
Ollamaで快適なローカルLLM環境を構築するカギは、使いたいモデルサイズに合ったVRAM容量のGPUを選ぶこと。以下の基準でGPUを選べば、大きく外すことはないだろう。
- 7B〜8Bモデル:VRAM 12GB(RTX 3060 12GB〜)
- 14Bモデル:VRAM 16GB(RTX 4060 Ti 16GB〜)
- 34Bモデル:VRAM 24GB(RTX 4090〜)
- 70Bモデル:VRAM 48GB(RTX A6000〜)
最初の一歩としては、RTX 3060 12GBの中古を入手して7B〜8Bモデルを試すのが最もリスクの少ない方法。物足りなくなったらGPUをアップグレードすればよく、Ollama自体は同じ設定のまま大きなモデルに移行できる。
Apple Silicon Macユーザーなら、16GB以上のモデルを選べばGPU購入なしでローカルLLMを十分に体験できる。まずは ollama run llama3.1 を実行して、ローカルAIの世界に足を踏み入れてみてほしい。
よくある質問(FAQ)
Q: OllamaはGPUなしでも使えますか?
A: 使える。CPU推論に対応しているため、GPUがなくてもモデルの実行は可能。ただし、推論速度はGPU利用時と比べて大幅に遅くなるため、実用的に使えるのは3B以下の小型モデルに限られる。Apple Silicon Macの場合は、ユニファイドメモリの恩恵で7B〜14Bクラスでも実用的な速度が出ることがある。
Q: VRAM 8GBのGPU(RTX 4060やRTX 3070)でOllamaは使えますか?
A: 7Bモデル(Q4量子化)であれば動作するが、コンテキスト長を伸ばしたり複数モデルを切り替えたりする余裕はほとんどない。これからGPUを購入するなら、VRAM 12GB以上のモデルを強く推奨する。8GBでは早い段階で限界を感じるはずだ。
Q: AMD GPUでもOllamaは動きますか?
A: 動作する。OllamaはROCm経由でAMD GPUに対応しており、RX 7900 XTX(24GB)などはVRAM容量の面で優秀な選択肢になる。ただし、NVIDIA GPUと比べるとドライバの安定性やコミュニティの情報量で劣る部分があるため、トラブル対応に多少の手間を覚悟しておく必要がある。
Q: 70Bモデルを動かすのに最も安い方法は何ですか?
A: 中古のRTX 3090(24GB)を2枚用意してマルチGPU構成にする方法が、コスト面では最も現実的。合計48GBのVRAMで70BモデルのQ4量子化を動かせる。ただしマルチGPU構成はセットアップの難易度が上がるため、設定に自信がなければRTX A6000の中古品を1枚入手する方が運用は楽になる。
Q: OllamaとGPUのドライバは最新版にすべきですか?
A: 基本的にはCUDA対応の最新ドライバを推奨するが、リリース直後のドライバは不具合を含んでいることもある。安定版(Studio Driver)を選ぶか、リリースから2〜3週間経過したGame Ready Driverを使うのが無難。特にRTX 5000シリーズでは初期ドライバの不具合が報告されているため、導入前に情報収集しておくとトラブルを回避しやすい。
おすすめパーツ 価格まとめ
| 製品名 | カテゴリ | スペック | 参考価格 |
|---|---|---|---|
| RTX 5090 | GPU・グラフィックボード | NVIDIA GeForce RTX 5090 32GB GDDR7 | ¥350,000〜 |
| RTX 5070 Ti | GPU・グラフィックボード | NVIDIA GeForce RTX 5070 Ti 16GB GDDR7 | ¥130,000〜 |
| RTX 5070 | GPU・グラフィックボード | NVIDIA GeForce RTX 5070 12GB GDDR7 | ¥90,000〜 |
| RTX 4060 Ti | GPU・グラフィックボード | NVIDIA GeForce RTX 4060 Ti 8GB/16GB GDDR6 | ¥60,000〜 |
| RTX 4060 | GPU・グラフィックボード | NVIDIA GeForce RTX 4060 8GB GDDR6 | ¥45,000〜 |
当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。

