RTX 5080で12B-14B級LLMはどれを選ぶ?gemma3・phi4・qwen3のよくある疑問7選

RTX 5080で12B-14B級LLMはどれを選ぶ?gemma3・phi4・qwen3のよくある疑問7選 アイキャッチ GPU・グラフィックボード

12B-14BクラスLLMとは、パラメータ約120〜140億の中規模言語モデルである。

RTX 5080 16GBが手元に届いたら、次に悩むのは中規模LLMの選定。Gemma 3 12B(Ollama: gemma3:12b)・Phi-4 14B(Ollama: phi4:14b)・qwen3:14bの3本は、いずれも16GB枠に余裕で収まる帯ですが、速度・初動の応答時間・消費電力で性格がはっきり分かれます。当サイトの検証環境(RTX 5080 16GB / i7-14700F / RAM 96GB / Ollama 0.21.2)で実測した数値を、読者が実際に検索する形のQ&A 7問にまとめました。動作可否から用途別の選び方、別GPU環境での挙動まで、ピンポイントで答えていきます。

この記事の要点

  • gemma3:12bは91.4 tok/s・265Wで速度と省電力のバランス首位
  • phi4:14bは88.0 tok/sで僅差2位、ただし消費電力は309Wと最大
  • qwen3:14bはTTFT 2877msで初動が遅く、対話用途には不向き

Q1. Gemma 3 12B(Ollama: gemma3:12b)・Phi-4 14B(Ollama: phi4:14b)・qwen3:14bはRTX 5080 16GBで全部動く?

3モデルとも当サイトの検証環境(RTX 5080 16GB / Ollama 0.21.2)で安定動作しました。VRAM使用量はgemma3:12bが10.2GB、phi4:14bが11.4GB、qwen3:14bが11.1GB。16GB枠に対して4〜6GB程度の余裕があり、コンテキスト長を伸ばしたり並行処理を走らせたりする余地も確保できる範囲です。

ただし「動く」と「快適に動く」の間には差がある。VRAM 12GB世代のGPU(RTX 5070やRTX 4070 Super)でも12-14B Q4_K_M量子化モデルは入りますが、コンテキストが伸びるとVRAMがすぐ埋まる構造。RTX 5080の16GBは、この帯のモデルを「日常的に余裕で回せる最小ライン」と考えるのが妥当です。

なおQ8量子化に上げるとサイズがほぼ倍になるため、12-14BをQ8で動かすにはRTX 5090相当のVRAM枠が要る。本記事の数値はすべてOllamaのデフォルトであるQ4_K_M相当で計測しています。Q4で品質が大きく落ちる印象は当環境では確認できず、まずはQ4で運用を始めるのが無難。

Ollama 公式リポジトリの import ドキュメントでは、 デフォルト量子化形式として Q4_K_M (4-bit K-quants medium) が採用されており、 品質と VRAM 占有のバランスを取った形式として位置づけられている Ollama 公式 import.md (量子化形式リファレンス)。 Q5_K_M に上げると 12-14B クラスで 12-14GB に膨らみ、 16GB 枠ではコンテキスト長を絞る必要が出てきます。 Q8_0 まで行くと VRAM 16-20GB が要るため、 RTX 5080 16GB では事実上収まらず、 RTX 5090 32GB 級が必要になります。 量子化はモデル本体の重み行列を低ビット表現に圧縮する仕組みで、 4-bit 領域では K-quants 系 (K_S / K_M / K_L) のうち M が品質と速度の両立で選ばれることが多い帯です。

量子化形式 ビット数 12-14B モデルの VRAM 目安 品質劣化 推奨環境
Q4_K_M 4-bit (混合) 10-12GB 軽微 RTX 5080 16GB 標準
Q5_K_M 5-bit (混合) 12-14GB ほぼ無し 16GB 上限ギリギリ
Q8_0 8-bit 16-20GB 無し RTX 5090 32GB 推奨
F16 (未量子化) 16-bit 24-28GB RTX 6000 Ada 級

Q2. 3モデルの中で一番速いのはどれ?

スループット(tokens/sec)の首位はgemma3:12bで、当サイトの検証環境では平均91.4 tok/sを記録。続いてphi4:14bが88.0 tok/s、qwen3:14bが84.6 tok/sと続きます。差は5〜7%程度で、横並びと言える範囲ですが、序列ははっきりしている。

注目したいのはパラメータ数との関係です。gemma3は12B、残り2本は14Bと約2割多いにもかかわらず、速度差は1割未満。アーキテクチャや量子化の最適化が効いているのが見えます。phi4は14Bでありながらgemma3にわずか3.4 tok/s差まで詰めており、パラメータ密度の高さで殴り合っているのが伝わる数字。

ただし「速度=最良」ではない点に注意してください。次のQ3以降で見るように、TTFTや消費電力を加味すると用途別の最適解は分岐します。同じ7-8Bクラスでもllama3.2:3bが299.1 tok/s、qwen3.5:9bが113.1 tok/sと出ているので、12-14Bは「速度を犠牲にして思考の深さを取る帯」という位置づけ。

tok/s の基準感覚として、 日本語の平均読書速度は秒間 6-9 文字程度に収まる範囲で、 80 tok/s 帯はディスプレイ表示が読み上げ速度を大きく上回るレベル。 リアルタイム対話用途では 30 tok/s 以上で体感快適とされており、 12-14B 帯は速度面でも実用ラインを大きく上回っています。 速度差 5-7% は連続文章生成では誤差範囲、 短文応答ではほぼ判別不能で、 実運用では速度より TTFT と電力で選ぶのが筋になります。

Q3. リアルタイム対話用ならどのモデルがベスト?

リアルタイム対話で最重要なのはTTFT(最初の1トークンが返るまでの時間)です。当サイトの検証環境での計測では、gemma3:12bが1746ms、phi4:14bが1838ms、qwen3:14bが2877ms。qwen3:14bだけがgemma3比で約1.65倍長く、体感差は明確に出ます。

具体的には、ユーザーが質問を投げてから「画面に文字が出始めるまでの待ち時間」が約1.1秒違う計算。1秒以上の沈黙は対話のテンポを壊しやすく、待たされた印象が強くなります。レスポンス重視の用途であれば、gemma3:12bとphi4:14bのどちらかを選ぶのが現実的でしょう。

特に常時起動の対話アシスタントとして使うなら、TTFT・速度・消費電力の3拍子でgemma3:12bが頭ひとつ抜けます。phi4:14bは推論密度を取りたいときの第二候補という位置づけ。qwen3:14bは対話用途では避け、後述の長文・多言語タスクに回すのが当環境での結論です。

TTFTはモデル本体だけでなくシステムプロンプトの長さや初回ロード状況にも左右される。常駐ロード後の連続対話では、初回より2回目以降の方が短くなる傾向があります。

Gemma 3 の公式アナウンスでは、 軽量・低レイテンシ動作が主要な訴求点として明示されており、 オンデバイスから単一 GPU 環境までの対話用途への最適化が設計目標として位置づけられている Google Developers Blog: Introducing Gemma 3。 実測 TTFT 1746ms は、 その設計目標が VRAM 16GB クラスでも数値として再現された結果として読み取れます。 Phi-4 系も TTFT 1838ms と僅差で追従しており、 対話用途では Gemma と Phi のどちらを主軸にしてもユーザー体感は近い帯に収まります。

Q4. コーディング補助で使うならphi4:14bを選んでいい?

コーディング補助では「速度より思考の密度」が効く場面が多い。phi4:14bは当サイトの検証環境で88.0 tok/s(gemma3比 -3.4 tok/s)と速度をわずかに譲るかわりに、関数生成や論理推論で密度を取りに行ける選択肢。phi系列はもともと数学・コード推論を強化した訓練レシピで知られており、14Bながら推論品質で上位帯と競合する報告もあります。

Microsoft Research が公開した Phi-4 のテクニカルレポートでは、 合成データを多用した学習レシピと、 数学・コード分野でのベンチマーク向上を中心的な訓練方針として記述している Abdin et al. (2024). Phi-4 Technical Report. arXiv:2412.08905。 同レポートでは GPQA や MATH 等のベンチマークで上位クラスと競合する数字が報告されており、 ローカルで動かす 14B 帯としてはコード生成・論理推論への適合が公式の設計目標として位置づけられています。 実測で gemma3 に対して 14B 帯としては想定通りのコード生成密度が観測できるのは、 この訓練方針に対応する挙動として読めます。

ただしトレードオフは消費電力。phi4:14bは3モデル中最大の309Wを記録し、gemma3:12bの265Wに対して約17%増。コーディングセッションは長時間動かすことが多く、電力差はワット時で効いてきます。GPU温度も61°Cと他2本より高め。

長時間のペアプロ用途で使うなら、gemma3:12bを主軸にして難しい関数だけphi4:14bに切り替える二刀流が電力的にも実用的。コーディング特化LLM(codestral:22bなど)との比較は別記事で詳しく扱っているので、コード生成専用機を組むつもりならそちらも参考にしてください。

Q5. 長文要約・翻訳ならqwen3:14bを選ぶ意味はある?

qwen3:14bは速度3位・TTFT最遅と数値だけ見ると見劣りしますが、生成が走り出してからの安定性と多言語対応で価値を発揮します。Qwen系列はもともと多言語コーパスでの学習比率が高く、日本語⇔中国語⇔英語の3角翻訳や、長文ドキュメントの構造を保った要約で扱いやすい。

Qwen 公式ブログの Qwen3 発表記事では、 119 言語・方言の対応と長コンテキスト処理を主要強化点として明示しており、 多言語ワークロード向けの設計目標が打ち出されている Qwen Team. Qwen3 公式アナウンス (qwenlm.github.io)。 日本語を含む CJK 圏に欧州主要言語を加えたカバーが安定しており、 ローカル翻訳バッチで実用ラインに乗っているのはこの訓練設計に対応する観測結果です。

長文要約・翻訳のユースケースは「初動の1秒は気にしない、走り出してからの品質と安定性が大事」という性質。バッチ処理で大量のドキュメントを流すなら、TTFT 2877msというオーバーヘッドは1ファイルあたり3秒以下の差にしかなりません。100本処理しても累積5分弱。ここで品質差があれば後工程の修正コストの方がはるかに大きい。

役割分担として「対話=gemma3、コーディング=phi4、長文バッチ=qwen3」と切り分けるのが、当サイトの検証環境で数値が示す結論。逆に対話レスポンスを重視する用途で Qwen3 14B(Ollama: qwen3:14b) を選ぶ理由は薄いと言えます。

用途 推奨モデル 選定理由 注意点
常時起動の対話アシスタント gemma3:12b TTFT 1746ms / 91.4 tok/s / 265W の 3 拍子 大規模コード生成は phi4 に振る
コーディング・関数生成補助 phi4:14b 数学・コード推論の訓練比率が高い 消費電力 309W で発熱大
長文要約・多言語翻訳バッチ qwen3:14b 多言語コーパス学習で日英中対応が安定 TTFT 遅、対話には不向き
軽量応答 (高速優先) qwen3.5:9b 等 113.1 tok/s 級でレスポンス重視 推論密度は 12-14B に劣る

Q6. 消費電力とワットあたり性能はどう違う?

3モデルの消費電力はgemma3:12bが265W、phi4:14bが309W、qwen3:14bが297W。tokens/sec ÷ Wで簡易的に「ワットあたり性能」を出すと、gemma3:12bが約0.345 tok/s/W、phi4:14bが約0.285 tok/s/W、qwen3:14bが約0.285 tok/s/W。電力効率ではgemma3が約2割優位という結果になりました。

電気代に直すと差は意外に小さいですが、長時間ローカル常駐で動かすなら積み上がる。1日8時間の利用でgemma3とphi4の差は約350Wh、月間で約10kWh規模になります。発熱面でもgemma3は54°C、phi4とqwen3は61°Cで7°C差。ファン回転や室温への影響を抑えたいケースでgemma3が有利です。

電源容量に余裕がない構成(650W電源など)では、phi4:14bの309WはGPU側だけでこの数字。CPU・他デバイスを含めた総消費電力に注意してください。RTX 5080のTBP上限は360Wなので、ピーク時は309Wからさらに伸びる場面も想定する必要があります。

NVIDIA の RTX 5080 製品仕様ページでは、 Total Board Power (TBP) が 360W、 推奨電源容量が 850W として明記されている NVIDIA 公式 GeForce RTX 5080 仕様ページ。 推論時の 309W は TBP の約 86% を引いている状態で、 長文生成や並行リクエストで負荷が乗ると TBP 上限近くまで張り付きます。 電源容量とエアフローは仕様通り 850W 級 + ケース内排熱に余裕を持たせた設計が必要です。

電源容量が不足すると、推論ピーク時にPCが落ちる。12-14Bクラスを常用するなら850W以上の電源を推奨します。

Q7. RTX 5060 Ti 16GBや12GB世代のGPUでも同じ序列で動く?

VRAM 16GB枠であれば動作可否の序列は変わりません。当サイトの検証環境のもう1枚、RTX 5060 Ti 16GBでも12-14Bクラス3モデルは収まります。ただし速度はCUDAコア数(4608基、5080の約43%)とメモリ帯域に比例して落ち、RTX 5080比で6〜7割程度のスループットになる想定です。

VRAM 12GBの世代(RTX 5070 / RTX 4070 Super)になると、モデルロード時点でVRAMの大半が埋まり、コンテキスト長を伸ばすとOOMリスクが出てきます。短い対話に絞るなら12GBでも回りますが、ドキュメント要約のような長文用途では16GB以上が安全圏。8GB世代(RTX 5060やRTX 4060)は12-14Bクラスでは事実上選択肢外です。

WccftechによるとIntelの最新ドライバーではArc iGPUにシステムメモリの最大93%まで割当可能との発表もあり、VRAM枠を物理的に拡張する別ルートも出てきました。ただし速度面ではディスクリートGPUに大きく劣るため、12-14Bクラスの常用環境としてはRTX 5060 Ti 16GB以上が現実的な下限と言えます。

VRAM とコンテキスト長の関係は単純な線形ではなく、 KV キャッシュは入力トークン数の増加に応じて積み上がる。 Ollama の README では num_ctx パラメータでコンテキスト長を指定する仕様と、 これが VRAM 要求を引き上げる点が明記されている Ollama 公式 README (num_ctx パラメータ仕様)。 12-14B Q4_K_M で 32k コンテキストを取る場面では、 ベース VRAM 10-12GB に加えて KV キャッシュ分が 2-4GB 上乗せされ、 16GB 枠でも余裕が削られます。

計測条件: コンテキスト長 4096 トークン / 出力 256 トークンの短〜中コンテキスト前提。 KV キャッシュ膨張を含む 32k トークン以上の長文処理では VRAM 要求が増え、 16GB 枠の余裕は数 GB 単位で削られる範囲。

モデル別 主要仕様(当サイトのRTX 5080実測 / 2026-04-29)

Gemma 3 12B(Ollama: gemma3:12b) 91.4 tok/s / TTFT 1746ms / 265W / VRAM 10.2GB
Phi-4 14B(Ollama: phi4:14b) 88.0 tok/s / TTFT 1838ms / 309W / VRAM 11.4GB
Qwen3 14B(Ollama: qwen3:14b) 84.6 tok/s / TTFT 2877ms / 297W / VRAM 11.1GB
計測環境 RTX 5080 16GB / i7-14700F / RAM 96GB / Ollama 0.21.2 / Driver 596.21

まとめ:用途別の最適解を1行ずつ整理

リアルタイム対話で迷ったらgemma3:12b。速度・TTFT・消費電力の3拍子で頭ひとつ抜けています。コーディング補助で推論密度を取りにいくならphi4:14b。電力増(309W)は飲み込む覚悟が要ります。長文要約・多言語翻訳のバッチ処理ならqwen3:14b。初動の遅さは1ファイル単位ではほぼ気にならない。

3モデルとも RTX 5080 16GBで実用域。「TTFT・消費電力・速度のどこを取りにいくか」で選び分けるのが当サイトの検証環境からの結論です。VRAM 12GB世代のGPUでは長文用途で詰みやすく、16GB以上が12-14Bクラスの実用ラインと言えます。それでも解決しない疑問があれば、コーディング特化LLM比較や翻訳用LLM比較の個別記事も合わせて参照してください。

当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。

本記事は AIハードウェア図鑑 編集部 が記載時点の情報をもとに執筆。製品アップデートや第三者ベンチマーク・価格・対応ランタイム等の変動で評価が変わる可能性がある。一定期間経過した内容は再検証を推奨する。

タイトルとURLをコピーしました