VRAM 16GBでGemma 4 12Bを動かす|RTX 5080/5060 Ti実測の速度・VRAMと16GB級LLMの選び方

Gemma 4 12B を VRAM 16GB の RTX 5080 / RTX 5060 Ti で実測 GPU・グラフィックボード

Google が Gemma 4 12B を公開したのが 2026 年 6 月 3 日。エンコーダを持たない統合型のマルチモーダルモデルで、Google 自身が「16GB の VRAM またはユニファイドメモリを積んだノートで動く」サイズだと明言している。つまり最初から想定されているのは、VRAM 16GB 級のグラフィックボードを積んだ手元の PC ということになる。

では実際に、VRAM 16GB 級の環境で Gemma 4 12B はどれくらいの速度で動き、メモリにどれだけ余裕があるのか。ここでは RTX 5080 16GB と、同じ 16GB 搭載でも価格帯の低い RTX 5060 Ti 16GB の二枚を例に、生成速度と VRAM 使用量を実測した。あわせて、同じ 16GB 級でよく使われる 12〜14B クラスの 4 モデルと並べて、どれをどう選ぶかまで整理する。

先に断っておくと、実測したのは速度と VRAM だけだ。Google がうたう品質やマルチモーダル、長文性能は公称値として扱い、実測とは分けて書く。また公開直後ということもあって、手元で動かすツールの対応は数日単位で動いている。その時点で変わりやすい情報は、記事の後半に日付を付けて一つのセクションにまとめた(前半の実測値は測定時の LM Studio とランタイム・GGUF に依存するが、公開直後に動きやすい「どのツールでロードできるか」のほうは後半に切り分けてある)。

先に結論

  • 速度と VRAM の面では、num_ctx 4096 のテキスト生成に限れば、Gemma 4 12B は VRAM 16GB 級に余裕で収まった。RTX 5080 16GB での実測は 73.1 tok/s、VRAM はモデル本体+4K コンテキストで 約 9.0GB(GPU0 全体では約 12.0GB で、うち約 3GB はデスクトップ表示分)。16GB に対してまだ余裕がある。
  • 前世代の gemma3:12b(74.4 tok/s)とほぼ同じ速度。測定したファイルでは VRAM が約 1GB 少なかった(モデル本体で gemma4:12b 約 9.0GB/gemma3:12b 約 10.0GB)。ただし配布元の違う GGUF どうしの比較なので、世代そのものの省 VRAM 化と断定はしない。現行 14B 級の qwen3-14b(71.5 tok/s)とも速度は同等だ。
  • より手頃な RTX 5060 Ti 16GB でも、gemma4:12b は問題なく動いた。同じ 16GB なので VRAM の収まりは 5080 と変わらず(モデル分 約 8.8GB)、速度は 45.7 tok/s と 5080 の約 6 割だった。動かせるモデルの範囲は VRAM で決まるので 5080 と同じで、上位カードは主に速度を買う形になる。
  • 品質・マルチモーダル・256K コンテキスト・推論やエージェント機能は Google の公称で、本記事では検証していない。実測したのはテキスト生成の速度と VRAM だけ。乗り換えの判断材料としては、この実測(測った次元)と公称(測っていない次元)を分けて読んでほしい。
  • 数値は筆者環境での参考測定だ。RTX 5080 16GB・LM Studio の llama.cpp CUDA ランタイム・Q4_K_M・num_ctx 4096・seed42・各 4 回の中央値で取った。GGUF のハッシュや各回の生ログまでは残していないので、絶対値ではなく、揃えた条件で取ったモデル間の大小関係を見る用途で扱ってほしい。
  • 「今すぐ手元で動かす方法」は、記事の後半に「動かすツールと手順」として日付付きでまとめた。公開直後はツールのバージョンによって動いたり動かなかったりするので、そこだけ切り分けてある。

Gemma 4 12B とは何か(Google の公称スペック)

実測の前に「何を動かしているのか」を Google の公開情報で押さえておく。ここから先のスペックは、断りがなければすべて Google 側の発表に基づく公称値で、本記事で実測したものではない。

基本スペック

  • パラメータ数 11.95B の Dense モデル。48 層の decoder-only 構成で、上位の 31B Dense と同系統のデコーダ構造を持つ。
  • 対応する入力はテキスト・画像・音声で、出力はテキスト。加えて、動画はフレーム列として解析できるとされている。画像や音声、動画を生成するモデルではなく、それらを読み取って文章で答える側だ。
  • コンテキスト長は 256K トークン。長い文書やコードベースをまとめて読ませる用途を想定している。ただし 256K・音声対応は Google モデルカード上の公称で、Ollama や一部 GGUF の配布では 128K・テキスト/画像に絞られる経路もある(後半の「動かすツールと手順」で後述)。実際に使える上限とモダリティは、導入する配布元ごとに確認したい。
  • ライセンスは Apache 2.0。歴代 Gemma が独自規約だったことを思うと、商用利用のしやすさという点では扱いやすくなっている。ただし実際に使うときは、公式ライセンス本文・禁止用途のポリシー・配布元ごとの追加条件まで確認しておきたい。
  • Google が掲げるターゲットは「16GB の VRAM またはユニファイドメモリ」。専用 GPU を積んだノートや、16GB 級のデスクトップ向け GPU で動かすことを前提にした位置づけだ。

なぜ 12B で省メモリを狙えるのか

Gemma 4 12B の特徴は、画像・音声用の専用エンコーダを持たないエンコーダレス統合アーキテクチャにある。従来のマルチモーダルモデルは、画像や音声を処理する重いエンコーダを本体とは別に抱えていた。Gemma 4 12B では、Google の開発者向けガイドによれば、ほかの中・大型モデルが 550M 規模の vision encoder を使うところを、12B では 35M 規模の vision embedder で入力を本体へ直接投影する。重い前段を外したぶん、同じパラメータ規模でも本体の容量を言語処理側に回しやすい、という設計だ。

注意機構にも省メモリの工夫が入っている。Google の説明では、局所的なスライディングウィンドウ注意と全体を見るグローバル注意を交互に重ねるハイブリッド構成で、最終層は必ずグローバルにする。これで「軽量モデルの速度と省メモリ」と「長文を扱うのに必要な全体把握」を両立させるという。さらにグローバル層では Key と Value をまとめ、Proportional RoPE(p-RoPE)を使って長文時のメモリを抑える、とされている。256K という長いコンテキストを 12B 級で掲げられる背景には、こうした作り込みがある。

推論とエージェント向けの機能

Gemma 4 は、単に文章を返すだけでなく、段階的に考えてから答える推論モードを備える。エージェント用途では、関数を呼ぶ前に内部で「考える」動きもする、というのが Google の説明だ。あわせて、function calling(構造化されたツール利用)と system role(システム指示)へのネイティブ対応を掲げ、ツールや API を順に呼んでワークフローを回すエージェントを組みやすい、と位置づけている。function calling では JSON schema を使った関数定義にも対応する。コーディング系ベンチマークの改善にも触れている。これらはいずれも公称で、本記事の実測対象ではない。

ファミリーの中での位置づけ

Gemma 4 はサイズ展開が広く、オンデバイス向けの小型 E2B・E4B、今回の 12B Dense、26B の A4B MoE 版、31B の Dense 版がある。Google は「パラメータあたりの賢さ(intelligence-per-parameter)」を前面に出しており、12B については「より大きい 26B MoE モデルに迫る性能を、半分以下のメモリで」と説明している。ファミリー全体では、31B が Arena の text リーダーボードでオープンモデル 3 位、26B が 6 位という位置づけも示している(いずれも公称・第三者ランキング基準)。

このうち、16GB 級の GPU で「中型の主力」として現実的に狙えるのが 12B だ。上位の 31B クラスは 16GB には収まらず、実際に手元の RTX 5080 でも 32B クラスのモデルは軒並み弾かれた。そのあたりの「動く/動かない」の境界線は16GB の壁で SKIPPED になったモデルをまとめた記事で詳しく扱っている。26B の MoE 版については、同じ Gemma 4 系でMoE モデルだけ消費電力が大きく下がる挙動を RTX 5080 で実測した記事もある。どうしても上位サイズを動かしたいなら、GPU を 2 枚にして VRAM を分担させる手もある(ただし VRAM が常に単純合算されるわけではなく、モデル分割やオフロードの設定込みの話だ。RTX 5080+5060Ti で VRAM をプールした実測)。

出典は Google の公式発表(Gemma 4 announcement)、12B を直接扱った発表(Introducing Gemma 4 12B)、開発者向けガイド(Gemma 4 12B: The Developer Guide)、モデルカード(Gemma 4 model card)。スペックの細部はこれらで確認できる。

Gemma 4 12B で何ができるか(16GB の手元 GPU で解決できること)

スペックを押さえたところで、次に気になるのは「で、これで何ができるのか」という点だ。速度・VRAM の面では、後述の実測のとおり 16GB 級で快適に動く土台がある。そのうえで、ローカルのモデル単体を外部連携なしで使う——入力をクラウドに送らず手元で処理し、API 従量課金も発生しない——という前提で、12B クラスが現実的にこなせる用途を挙げておく(ただしクラウドタグや Web 検索・外部 API・テレメトリ・LAN 公開などを使う場合は、外部通信や課金が生じ得る。詳しくは後述の「よくある質問」を参照)。なお、各用途の「出来の良さ(品質)」は本記事では測っていない。ここで示すのは Google の公称機能とローカル LLM 一般の使われ方をもとにした用途の見取り図で、実際に使えるかはご自身のデータで試すのが前提だ。

  • 文章まわりの下作業を手元で。要約、翻訳の下訳、言い換え、メールやドキュメントの文面づくり、アイデア出しといった日常の下ごしらえ。社外に出しづらい下書きでも、ローカル完結なら手元で回せる(外部連携を使う場合の注意は後述の「よくある質問」を参照)。用途を翻訳に絞った実測としては、翻訳用ローカル LLM を RTX 5080 で実測した記事も参考になる。
  • 長い文書をまとめて読ませて、要約・質問する。長い資料・議事録・マニュアル・コードをまとめて投入し、要点抽出や Q&A に使う。Google 公称は 256K コンテキスト(配布によっては 128K)なので、かなりの分量を一度に渡せる。ただし長文ほど VRAM は増えるので、実際に使う長さで余裕を確かめたい(後述の実測は短いコンテキストでの値だ)。
  • 画像・音声・動画を読み取らせる。Gemma 4 12B は画像・音声・動画(フレーム列)を入力として扱える(出力はテキスト)。スクリーンショットや図の内容説明、写真や動画からの情報の読み取り、音声の内容把握といった使い方が想定されている。これは Google の公称機能で、本記事では速度・VRAM のみを実測しており、マルチモーダルの品質や処理時の VRAM は未検証だ。
  • コードの相談に乗ってもらう。Google はコーディング系ベンチマークの改善に触れている。手元のコードを読ませてレビューや修正案を出させたり、小さなスニペットを書かせたり、という用途だ。
  • ツール連携・簡単な自動化(エージェント)。推論モードと function calling・system role へのネイティブ対応(いずれも公称)を使えば、手順を考えてツールや API を順に呼ぶエージェント的な組み方ができるとされる。本格的に使うなら、フレームワークやプロンプト書式と合わせてご自身の用途で検証するのが確実だ。

これらに共通するのは、結局「16GB の普通の GPU で、実用になる賢さのモデルを手元で動かせるのか」という一点だ。速度と VRAM の面では、次に見る実測のとおり土台はある。あとは、上の用途それぞれで品質が足りるかを手元で確かめる——という順番になる。

RTX 5080 と RTX 5060 Ti(16GB)で実測:速度と VRAM

16GB 級のカードとして RTX 5080 16GB と RTX 5060 Ti 16GB の二枚を使い、Gemma 4 12B と、同じ 16GB 級でよく使われる比較用の 4 モデルを同じ条件で計測した。結果は二枚をまとめて一つの表に載せる。

測定条件

  • ハード:RTX 5080 16GB(メイン、GPU0)と RTX 5060 Ti 16GB(筆者環境では Oculink 接続の外付け、GPU1)の二枚。各モデルはどちらか一方のカードに載せて計測した。モデルを載せていない状態の使用量は、5080 側がデスクトップ表示で約 3GB、5060 Ti 側は 0(画面表示には使っていない)。
  • ランタイム:LM Studio の llama.cpp-win-x86_64-nvidia-cuda-avx2@2.13.0(CUDA)。表のモデル名は便宜上の表記で、いずれも LM Studio にロードした GGUF での筆者測定値だ。Ollama のタグをそのまま実行した値ではない。
  • 量子化と配布元:全モデル Q4_K_M。ただし GGUF の配布元はモデルで異なり(gemma4:12b と mistral-nemo は Ollama 系の blob、gemma3:12b・phi-4・qwen3-14b は LM Studio 経由で取得した各公式系)、同じ Q4_K_M でも配布元の違いで多少の差が出る余地はある。量子化方式そのものの選び方は量子化タグの実測比較記事を参照してほしい。
  • サンプリング:固定の日本語プロンプト(ローカル LLM の量子化を初心者向けに説明させる内容)・seed42・temperature 0.7・最大 400 トークン・各 4 回の中央値。num_ctx は全モデル 4096 に固定した。top_p / top_k / repeat_penalty は指定せず LM Studio の既定に従った(Google の推奨サンプリング値とは異なる)。生成スループット自体はサンプリングや thinking 設定でも多少は動くため、ここでは厳密ベンチではなく、条件を揃えた筆者環境の参考比較として読んでほしい。
  • 計測値:速度は LM Studio の REST API が返す統計(stats)の tokens_per_second。各モデル 4 回計測し、中央値を表に載せた。VRAM は nvidia-smi で GPU0 の使用量を測り、モデルを載せていない状態(約 3GB)との差を「モデル分」、その状態の総量を「GPU0 総」として両方を記録した。計測は 1 モデルずつ行い、各モデルの前に前のモデルをアンロードしている。GGUF のファイル名やハッシュ、GPU ドライバ/CUDA バージョン、LM Studio 本体のバージョン、各回の生ログまでは残していないため、同一ファイルでの厳密な再現は保証できない。あくまで条件を揃えた参考比較として扱ってほしい。
  • 計測対象はテキスト生成のスループットのみ。Gemma 4 12B はマルチモーダルだが、ここでは画像・音声の投影部を使わないテキスト推論の速度を測っている。長文コンテキスト時の KV キャッシュや、画像・音声入力、複数モデルの同時実行で増える VRAM は測っていない。

結果(RTX 5080・RTX 5060 Ti)

モデル パラメータ RTX 5080 生成 tok/s RTX 5060 Ti 生成 tok/s VRAM モデル分 位置づけ
gemma4:12b 12B 73.1 45.7 約 9.0GB 新(2026-06-03)・主役
gemma3:12b 12B 74.4 46.4 約 10.0GB 前世代
mistral-nemo:12b 12B 87.2 53.8 約 7.4GB 2024 年のピア
phi-4 14B 63.6 38.3 約 9.4GB Microsoft 系
qwen3-14b 14B 71.5 43.0 約 9.2GB Qwen 系(Apache 2.0)

※ いずれも num_ctx 4096・Q4_K_M・LM Studio(llama.cpp 2.13.0 CUDA)での筆者環境の参考測定。生成 tok/s は各 4 回の中央値で、各モデルの 4 回はいずれも幅 1% 前後に収まった(例:5080 の gemma4:12b は 72.9〜73.2、5060 Ti は 45.7〜45.8)。VRAM モデル分は、モデルを載せていない状態(5080 側は約 3GB、5060 Ti 側は 0)との差で、同じ GGUF なので 5080・5060 Ti でほぼ一致した(差は ±1.5% 程度。5080 側はデスクトップ分を含む GPU0 総だと約 12GB)。Ollama のタグを直接実行した値ではなく、GGUF のハッシュやドライバ・本体バージョン、各回の生ログは未保存のため、厳密な再現用ベンチではなく条件を揃えた比較として見てほしい。

速度の読み方

まず数値の目安として、5080 の gemma4:12b は 73.1 tok/s・TTFT 中央値 63ms で、5080 で測った 5 モデルの中では中位の速度だ。それでも、最初のトークンまで 0.1 秒未満で、そのあとは黙読より速いペースで文章が出てくる計算になる。ただし、ユーザーの体感や会話を続けたときの待ち時間は本記事では測っていないので、体感そのものの評価は未検証として切り分ける。長文を一気に書かせると、生成トークン数に応じて最後まで数秒かかる場面はある。なお速度はサンプリングや thinking 設定、出力長、画像・音声入力、別のランタイムでも変わるので、ここの数値はあくまで num_ctx 4096・テキスト生成という今回の条件での参考だ。

5080 の列で 5 モデルを横に並べると、速度はパラメータ数と単純には比例していない。最速は mistral-nemo(87.2 tok/s)だが、これは 5 モデルの中でいちばん古い。新しめの phi-4 は 14B で、5 モデル中もっとも遅い(63.6 tok/s)。gemma4:12b・gemma3:12b・qwen3-14b は 71〜74 tok/s に密集していた。この差が実利用でどう感じられるかは、本記事では測っていない。tok/s はパラメータ数だけでなく、アーキテクチャや量子化、ランタイムの最適化具合で決まるので、「新しい=速い」「小さい=速い」とは限らない、という実例になっている。

VRAM の読み方と、コンテキスト長との関係

VRAM は二つの数字で書いた。「モデル分」はモデルを載せていない状態(約 3GB のデスクトップ表示)からの増分で、実質的に「そのモデルが食う量」に近い。「GPU0 総」はデスクトップ分を含んだ総量だ。gemma4:12b は 5080 でモデル分 約 9.0GB、デスクトップ分を含む総量で約 12.0GB。16GB のカードなら、総量で見ても 4GB ほどの空きが残る。

ただし、この数字は num_ctx 4096(短いコンテキスト)での値だという点が重要だ。ローカル LLM の VRAM は、モデル本体ぶんに加えて、入力・出力を保持する KV キャッシュのぶんが乗る。KV キャッシュはコンテキスト長にほぼ比例して増えるので、4096 トークンで測った今回の値は、いわば「下限に近い」消費量だ。これを 128K や 256K といった長いコンテキストで使えば、モデル本体に無視できない量が上乗せされ、16GB の余裕はその分だけ縮む。「16GB で余裕」というのは、あくまで短いコンテキストでのテキスト生成に限った話で、長文を丸ごと読ませる使い方では別途確かめる必要がある。

前世代との比較でいうと、gemma3:12b(74.4 tok/s)と速度はほぼ同じまま、測定したファイルではモデル分 VRAM が約 1GB 少なかった(gemma4:12b 約 9.0GB/gemma3:12b 約 10.0GB)。ただし、ここで比べているのは配布元の異なる GGUF どうしだ。世代そのものが省 VRAM 化したと言い切るには同一配布での再確認がいるが、少なくとも手元で動かす分には gemma4:12b のほうが軽かった。

ここで一点はっきりさせておきたい。今回測ったのは速度と VRAM だけだ。Google がうたう「26B MoE に迫る品質」や推論・エージェント能力、マルチモーダル、256K コンテキストといった価値は、この表のどこにも表れていない。「前世代と同速で、測ったファイルでは少し省 VRAM」だから「乗り換えれば得」とまでは、この実測からは言えない。品質や新機能が実際に効くかどうかは、用途ごとに別途確かめる必要がある。速度・VRAM 以外の次元は、本記事では未検証として切り分けておく。

RTX 5080 と RTX 5060 Ti、どこが違ったか

上の表を二枚のカードで見比べると、読み取れることは二つある。

一つは VRAM の収まりはほぼ同じだという点だ。同じ GGUF を載せているので当然だが、gemma4:12b はどちらもモデル分で約 9GB 前後(差は ±1.5% 程度)。16GB という容量が同じなら、収まるかどうか(=動かせるモデルの範囲)は 5080 でも 5060 Ti でも変わらない。

もう一つは 速度はおおむね 5080 の 6 割前後だという点。gemma4:12b は 5060 Ti で 45.7 tok/s、5080(73.1)の約 62% だった。ほかのモデルも 60〜63% に揃っている。NVIDIA の公式スペックでは、メモリ帯域は RTX 5080 が約 960 GB/s、RTX 5060 Ti 16GB が約 448 GB/s と差があり、これが速度差の一因になっている可能性はある。ただし本記事では、メモリ帯域・GPU コア性能・Oculink 接続といった要因を分離して測ってはいないので、原因の特定まではしていない(測ったのは、同条件での各カードの tok/s だ)。

とはいえ 45 tok/s は黙読より速いペースで、テキストチャットなら待ち時間は気になりにくい数値だ(体感そのものは 5080 と同様に測っていない)。整理すると、同じ 16GB なら 5060 Ti でも gemma4:12b は問題なく動き、5080 を選ぶと速度がおおむね 1.6 倍になるが、動かせるモデルの範囲は変わらない。予算を速度に振るか別の用途に回すか、という判断材料になる。

16GB 級で何を選ぶか

今回の 5 モデルを、16GB 級カードで使う前提で整理しておく。以下は速度・VRAM の実測に筆者の運用上の目安を添えたもので、品質・安定性そのものは本記事では実測していない。推奨というより、選定の観点として読んでほしい。

選ぶときに見る軸

16GB 級で 12〜14B クラスを選ぶとき、効いてくるのはだいたい次の 4 つだ。速度(tok/s)は今回の帯(5080 では最も遅い phi-4 でも 63.6 tok/s)では差が付きにくく、ここで優劣を決める要素にはなりにくい(カードを RTX 5060 Ti 16GB に落とすと全体で 6 割ほどの速度になるが、モデル間の傾向と動かせる範囲は同じだ)。VRAM の余りは、長いコンテキストを使う・画像生成ツールと同居させる・複数モデルを並べる、といった場面で効く(余りが大きいほど無理が利く)。ライセンスは商用利用や再配布をするなら最初に見る(gemma4:12b と qwen3-14b は Apache 2.0)。最後に用途との相性だ。以下の用途別の当てはめは、各モデルの公式スペック・ライセンス情報と、本記事で測った速度・VRAM に基づく筆者の選定観点で、品質そのものを本記事で比較したわけではない。

モデル別の位置づけ

  • Google 公称のマルチモーダルや 256K コンテキスト、推論・エージェント機能を試したいなら gemma4:12b。速度は中位で、測定したファイルでは省 VRAM だった。新しいぶん、後述のとおり動かすツールのバージョンには少し気を使う。とくに音声や 256K を使うなら、配布経路によって 128K・テキスト/画像に制限される点を確認しておきたい。速度・VRAM 以外(品質・長文・画像・音声)は本記事では未評価だ。
  • 枯れた構成で手堅く回したいなら gemma3:12b。速度は gemma4:12b とほぼ同じ(本記事の実測範囲)。前世代なので対応済みのツールや事例に触れやすく、少なくとも新アーキの対応待ちというリスクは小さい。すでに gemma3:12b で困っていないなら、新世代のツール周りが落ち着くまで使い続けるのも合理的だ。安定性そのものを比べたわけではない。
  • Apache 2.0 の 14B 級が欲しいなら qwen3-14b。ライセンスは Apache 2.0 で、速度は gemma4:12b と同程度(実測)。速度・VRAM 以外の運用品質は本記事では評価していない。
  • Microsoft 系を使いたいなら phi-4(14B)。今回の 5 モデルでは最も遅かった(63.6 tok/s)が、それでも対話で困る速度ではない。
  • とにかく速度を取るなら mistral-nemo。5 モデル中いちばん速く、VRAM も軽い。ただし最も古いモデルでもある。Mistral 公式では 2026 年 5 月 22 日に非推奨化され、後継として Ministral 3 8B が案内されている。ローカルでは引き続き動くものの、新規に主力として選ぶなら後継や用途の制約も確認しておきたい。

12B が向かない場面

用途によっては、12B が最適とは限らない。要約や簡単なチャットなど軽い用途なら、7〜9B クラスでも足りることが多く、そのぶん VRAM をさらに空けられる。逆に、もっと高い品質や難しい推論が要るなら 27B クラス以上が欲しくなるが、これは 16GB には素直に載らない。その場合は、量子化を一段下げて押し込むか、GPU を増やして VRAM を分担させるか、といった話になる。量子化での詰め方は量子化の実測比較に、16GB でどこまで動くかの全体像はVRAM 16GB の動く/動かない境界線にまとめてある。

同じ 12〜14B 級でどれを選ぶかは、用途(日本語チャット中心か、コードか、翻訳か)でも変わる。すでに定番化している gemma3:12b・phi4:14b・qwen3:14b の用途別の選び方は12B-14B クラス 3 モデルを RTX 5080 で比較した記事に、日本語チャット用途に絞った比較は日本語ローカル LLM 7 モデルの実測記事にまとめてある。さらに小さい 16GB 級と 12GB 級の境界が気になるならRTX 4070 Super と RTX 5060 Ti 16GB の比較も参考になる。

【2026 年 6 月 4 日 時点】Gemma 4 12B を動かすツールと手順

このセクションは時点情報です。最終確認:2026 年 6 月 4 日。公開直後のため、ツールの対応状況は短期間で変わります。利用前に各ツールの公式で最新バージョンを確認してください。

ここまでの実測や選び方は、ツールの細かい状況には左右されない。一方で「今このモデルを手元で動かせるか」は、公開直後だとツールのバージョンによって変わる。理由を先に言うと、Gemma 4 は新しいアーキテクチャなので、推論エンジン(llama.cpp など)や GGUF を読む側がその対応を取り込むまで、少し時間差が出るためだ。筆者が測定した数時間のあいだにも状況が動いた。時点を区切って整理しておく。

Ollama:バージョンに依存する

  • 古いバージョンではロードに失敗する。筆者環境の Ollama は少し前の安定バージョン(0.23.3)で、gemma4:12b の blob は取得できても、いざロードすると HTTP 500: unable to load model で失敗した。別に試したプレリリースバージョンは Integer division by zero で落ちた。どちらも新アーキにランタイムが追いついていない状態だ。
  • 新しいバージョンで対応が入った。同じ 6 月 4 日のうちに Ollama のライブラリに gemma4:12b が並び、2026 年 6 月 4 日(JST)に確認した時点では、公式リリース v0.30.3 に gemma4-12b 対応が入っている。ただし、出たての時期はこの後にも修正バージョンが続くことがあるので、利用時は公式リリースで現在の最新バージョンと既知の不具合もあわせて確認してほしい。
  • 使うときはバージョンを確認してから。ollama -v でバージョンを確かめ、古ければ最新バージョンへ更新する。更新後は、実行が ollama run gemma4:12b、事前に取得だけしておくなら ollama pull gemma4:12b だ。

LM Studio:筆者環境では現行の llama.cpp CUDA ランタイムで動いた

本記事の測定は、現行の llama.cpp ランタイムを積む LM Studio で行った。手順はおおむね次の通りだ。

  1. CUDA ランタイムを選ぶ。新しめの llama.cpp ランタイム(ここでは llama.cpp-win-x86_64-nvidia-cuda-avx2@2.13.0)を選択しておく。古いランタイムだと Gemma 4 の新アーキで弾かれることがある。
  2. GGUF を入手してロードする。Gemma 4 12B の GGUF を取得し、GPU に全レイヤーを載せる設定でロードする。num_ctx 4096・テキスト生成・Q4_K_M の構成なら、VRAM 16GB で全レイヤー GPU 載せでも余裕があった。
  3. API の統計で速度を見る。LM Studio のローカル API 経由でチャット補完を投げ、レスポンスに含まれる tokens_per_second を読む。VRAM は nvidia-smi で GPU0 の使用量を確認する。

システムに元から入っている Ollama を入れ替える必要はなく、別ツールとして並べて使える。なお、複数の推論サーバを同時に起動したまま計測すると VRAM の取り合いで数値が乱れるので、測るときは余計なサーバを止めて 1 つだけにしておくと安定する。

配布経路で「使える上限」が変わる

同じ「gemma4:12b」でも、どこから入れるかで仕様が変わることがある。Google のモデルカードでは 12B は 256K コンテキスト・テキスト/画像/音声対応だが、Ollama のライブラリページ上の gemma4:12b は記事執筆時点で 128K コンテキスト・テキスト/画像として掲載されている(手元の LM Studio でロードした GGUF でも、最大コンテキストは 128K だった)。長文や音声を使いたいなら、入れた経路のスペックを必ず確認したほうがいい。逆向きの相性問題もある。新しめのランタイムは Gemma 4 を通せる一方で、古い配布形態の GGUF が新ランタイムで読めないこともある。「新旧どのランタイムでも全モデルが動く」とは限らないので、ツールとモデルの組み合わせは都度確かめるのが安全だ。

要するに、公開直後の数日は「どのツールの・どのバージョンで・どの配布の gemma4:12b を動かすか」で体験が変わる。本記事の数値は、あくまで LM Studio + llama.cpp 2.13.0 ランタイムでの測定値だという前提で読んでほしい。少し時間が経てば、主要ツールの安定バージョンで素直に動くようになっていく可能性が高い(このセクションは時点情報なので、状況が落ち着いたら更新する)。

よくある質問

Q. gemma3:12b から乗り換える価値はありますか?

速度の面では、実測上ほぼ同等(gemma4:12b 73.1 / gemma3:12b 74.4 tok/s)で、測定したファイルでは VRAM がモデル分で約 1GB 軽かった。一方で、マルチモーダル対応・256K コンテキスト・推論やエージェント機能・品質向上は Google の公称で、本記事では検証していない。これらの新機能を実際に使う予定があるなら更新の意味は大きいが、テキストチャットを安定して回したいだけなら、ツールの対応が落ち着くまで gemma3:12b を使い続けるのも合理的な判断だ。

Q. 256K の長文を丸ごと入れても 16GB で足りますか?

本記事で測ったのは num_ctx 4096 の短いコンテキストでの値(モデル分 約 9.0GB)なので、そのままは当てはまらない。コンテキストを伸ばすと KV キャッシュのぶん VRAM が増え、長文ほど大きく上乗せされる。配布によっては最大 128K に制限されている点もあわせて、長文用途では実際に使う長さで測ってみてほしい。長いコンテキストを優先するなら、量子化を下げて本体を軽くし、その分をキャッシュに回す手もある。

Q. 推論モードやエージェント(function calling)も使えますか?

Google は Gemma 4 について、段階的に考える推論モードと、function calling・system role へのネイティブ対応を掲げている。ただしこれらは公称で、本記事では動作や品質を検証していない。エージェント用途で本格的に使うなら、使うフレームワークやプロンプト書式(チャットテンプレート)と合わせて、ご自身の用途で試すのが確実だ。

Q. 画像・音声・動画のマルチモーダルも 16GB で動きますか?

本記事で実測したのはテキスト生成のスループットだけで、画像・音声・動画の入力は計測していない。これらを扱う場合は投影部や追加のバッファでメモリ消費が増えるため、テキストのみで測った約 9.0GB(モデル分)がそのまま当てはまるわけではない。Google は 16GB をターゲットに挙げているが、マルチモーダル時の実使用量はここでは未確認だ。実際に使う構成で測ってみてほしい。なお Gemma 4 12B は画像・音声・動画を「入力として読む」モデルで、それらを生成するわけではない。

Q. 量子化は Q4_K_M でいいのですか?

今回は配布されている Q4_K_M で統一して計測した。16GB 級なら 12B の Q4_K_M はロードに余裕があり、出発点として扱いやすい。VRAM にさらに余裕を持たせたい、あるいは品質を一段詰めたいといった場合の量子化レベルの選び方は、量子化タグごとの VRAM と速度を実測比較した記事で詳しく扱っている。

Q. ローカルで動かせば、入力したデータは外部に出ないと考えていいですか?

ローカルのモデルだけを使い、外部連携の機能を使っていなければ、推論そのものは手元で完結する。ただし「絶対に出ない」と言い切るのは正確ではない。Gemma 4 はツール利用やエージェント用途を想定した機能を持ち、フロントエンドやツールの側に Web 検索・外部 API 連携・テレメトリ送信などが含まれることもある。設定や使い方次第で外部通信は発生し得る。機密データを扱うなら、使うモデルがローカルであることに加えて、外部連携を無効化し、通信やログの設計まで含めて確認するのが筋だ。とくに LM Studio や Ollama を API サーバとして動かす場合は、待ち受けアドレス(localhost か LAN 公開か)・API 認証・ファイアウォールも確認したい。LM Studio の REST API は既定で認証なしなので、必要なら API トークンを有効化しておく。

どの GPU を買うか:RTX 5080 と RTX 5060 Ti

ここまでの実測をふまえると、16GB で Gemma 4 12B クラスを動かすためのカード選びは、おおむね次のように整理できる。どちらも VRAM は 16GB で、動かせるモデルの範囲は同じ。効いてくる違いは速度と価格だ(以下は Amazon アソシエイトのリンクを含む)。

  • 予算を抑えたい・速度は実用域で十分なら RTX 5060 Ti 16GBgemma4:12b で 45.7 tok/s(実測)と、テキストチャットには十分な速さ。16GB なので 12B クラスはひととおり載る。価格を最優先するならこちらだ(RTX 5060 Ti は 8GB 版もあるので、ローカル LLM 用途では必ず 16GB 版を選ぶこと)。
  • 速度や余裕を取りたいなら RTX 5080 16GB同じ 12B クラスを約 1.6 倍の速度(73.1 tok/s)で回せる。画像生成と同時に使う、長めのコンテキストを多用する、といった「余裕」がほしい場面で効いてくる。

繰り返しになるが、どちらを選んでも「動かせるモデルの範囲」は同じ(VRAM が同じ 16GB だから)。上位カードで増えるのは主に速度だ。まずは予算と、速度にどれだけこだわるかで決めるのがわかりやすい。価格は時期や在庫で動くので、最新は各販売ページで確認してほしい。

まとめ

Gemma 4 12B は、VRAM 16GB 級のカードで 73.1 tok/s・モデル分 約 9.0GB(RTX 5080 実測、num_ctx 4096)と、テキスト生成の速度・容量の面では余裕をもって収まる。前世代 gemma3:12b と速度はほぼ同じで、測定したファイルでは VRAM が約 1GB 軽かった(配布元の違う GGUF どうしの比較なので、世代差そのものとは断定しない)。ここで測ったのは速度と VRAM だけで、マルチモーダルや 256K コンテキスト、推論・エージェント機能、「26B MoE に迫る品質」は Google の公称にとどまる。乗り換える価値があるかは、これらを用途に当てて別途確かめる必要がある。

16GB 級で 12〜14B を選ぶなら、今回の帯では速度差が付きにくいので、VRAM の余り・ライセンス・用途との相性で絞り込むのが現実的だ。gemma4:12b は、測ったファイルでは省 VRAM で、公称のマルチモーダルや長文・エージェントといった伸びしろもある選択肢だが、新しいぶん、動かすツールのバージョンには少し気を使う。その「今どのツールで動くか」は時点で変わるので、本記事では後半に日付を付けて分けてある。利用前にはその時点の最新を確認してほしい。VRAM の基礎から押さえたい場合はVRAM とは何かの解説もあわせてどうぞ。

タイトルとURLをコピーしました