RTX 5080で12B-14B級LLMはどれを選ぶ?gemma3・phi4・qwen3のよくある疑問7選

RTX 5080で12B-14B級LLMはどれを選ぶ?gemma3・phi4・qwen3のよくある疑問7選 アイキャッチ GPU・グラフィックボード

12B-14BクラスLLMとは、パラメータ約120〜140億の中規模言語モデルである。

RTX 5080 16GBが手元に届いたら、次に悩むのは中規模LLMの選定。Gemma 3 12B(Ollama: gemma3:12b)・Phi-4 14B(Ollama: phi4:14b)・qwen3:14bの3本は、いずれも16GB枠に余裕で収まる帯ですが、速度・初動の応答時間・消費電力で性格がはっきり分かれます。当サイトの検証環境(RTX 5080 16GB / i7-14700F / RAM 96GB / Ollama 0.21.2)で実測した数値を、読者が実際に検索する形のQ&A 7問にまとめました。動作可否から用途別の選び方、別GPU環境での挙動まで、ピンポイントで答えていきます。

この記事の要点

  • gemma3:12bは91.4 tok/s・265Wで速度と省電力のバランス首位
  • phi4:14bは88.0 tok/sで僅差2位、ただし消費電力は309Wと最大
  • qwen3:14bはTTFT 2877msで初動が遅く、対話用途には不向き

Q1. Gemma 3 12B(Ollama: gemma3:12b)・Phi-4 14B(Ollama: phi4:14b)・qwen3:14bはRTX 5080 16GBで全部動く?

3モデルとも当サイトの検証環境(RTX 5080 16GB / Ollama 0.21.2)で安定動作しました。VRAM使用量はgemma3:12bが10.2GB、phi4:14bが11.4GB、qwen3:14bが11.1GB。16GB枠に対して4〜6GB程度の余裕があり、コンテキスト長を伸ばしたり並行処理を走らせたりする余地も確保できる範囲です。

ただし「動く」と「快適に動く」の間には差がある。VRAM 12GB世代のGPU(RTX 5070やRTX 4070 Super)でも12-14B Q4_K_M量子化モデルは入りますが、コンテキストが伸びるとVRAMがすぐ埋まる構造。RTX 5080の16GBは、この帯のモデルを「日常的に余裕で回せる最小ライン」と考えるのが妥当です。

なおQ8量子化に上げるとサイズがほぼ倍になるため、12-14BをQ8で動かすにはRTX 5090相当のVRAM枠が要る。本記事の数値はすべてOllamaのデフォルトであるQ4_K_M相当で計測しています。Q4で品質が大きく落ちる印象は当環境では確認できず、まずはQ4で運用を始めるのが無難。

Q2. 3モデルの中で一番速いのはどれ?

スループット(tokens/sec)の首位はgemma3:12bで、当サイトの検証環境では平均91.4 tok/sを記録。続いてphi4:14bが88.0 tok/s、qwen3:14bが84.6 tok/sと続きます。差は5〜7%程度で、横並びと言える範囲ですが、序列ははっきりしている。

注目したいのはパラメータ数との関係です。gemma3は12B、残り2本は14Bと約2割多いにもかかわらず、速度差は1割未満。アーキテクチャや量子化の最適化が効いているのが見えます。phi4は14Bでありながらgemma3にわずか3.4 tok/s差まで詰めており、パラメータ密度の高さで殴り合っているのが伝わる数字。

ただし「速度=最良」ではない点に注意してください。次のQ3以降で見るように、TTFTや消費電力を加味すると用途別の最適解は分岐します。同じ7-8Bクラスでもllama3.2:3bが299.1 tok/s、qwen3.5:9bが113.1 tok/sと出ているので、12-14Bは「速度を犠牲にして思考の深さを取る帯」という位置づけ。

Q3. リアルタイム対話用ならどのモデルがベスト?

リアルタイム対話で最重要なのはTTFT(最初の1トークンが返るまでの時間)です。当サイトの検証環境での計測では、gemma3:12bが1746ms、phi4:14bが1838ms、qwen3:14bが2877ms。qwen3:14bだけがgemma3比で約1.65倍長く、体感差は明確に出ます。

具体的には、ユーザーが質問を投げてから「画面に文字が出始めるまでの待ち時間」が約1.1秒違う計算。1秒以上の沈黙は対話のテンポを壊しやすく、待たされた印象が強くなります。レスポンス重視の用途であれば、gemma3:12bとphi4:14bのどちらかを選ぶのが現実的でしょう。

特に常時起動の対話アシスタントとして使うなら、TTFT・速度・消費電力の3拍子でgemma3:12bが頭ひとつ抜けます。phi4:14bは推論密度を取りたいときの第二候補という位置づけ。qwen3:14bは対話用途では避け、後述の長文・多言語タスクに回すのが当環境での結論です。

TTFTはモデル本体だけでなくシステムプロンプトの長さや初回ロード状況にも左右される。常駐ロード後の連続対話では、初回より2回目以降の方が短くなる傾向があります。

Q4. コーディング補助で使うならphi4:14bを選んでいい?

コーディング補助では「速度より思考の密度」が効く場面が多い。phi4:14bは当サイトの検証環境で88.0 tok/s(gemma3比 -3.4 tok/s)と速度をわずかに譲るかわりに、関数生成や論理推論で密度を取りに行ける選択肢。phi系列はもともと数学・コード推論を強化した訓練レシピで知られており、14Bながら推論品質で上位帯と競合する報告もあります。

ただしトレードオフは消費電力。phi4:14bは3モデル中最大の309Wを記録し、gemma3:12bの265Wに対して約17%増。コーディングセッションは長時間動かすことが多く、電力差はワット時で効いてきます。GPU温度も61°Cと他2本より高め。

長時間のペアプロ用途で使うなら、gemma3:12bを主軸にして難しい関数だけphi4:14bに切り替える二刀流が電力的にも実用的。コーディング特化LLM(codestral:22bなど)との比較は別記事で詳しく扱っているので、コード生成専用機を組むつもりならそちらも参考にしてください。

Q5. 長文要約・翻訳ならqwen3:14bを選ぶ意味はある?

qwen3:14bは速度3位・TTFT最遅と数値だけ見ると見劣りしますが、生成が走り出してからの安定性と多言語対応で価値を発揮します。Qwen系列はもともと多言語コーパスでの学習比率が高く、日本語⇔中国語⇔英語の3角翻訳や、長文ドキュメントの構造を保った要約で扱いやすい。

長文要約・翻訳のユースケースは「初動の1秒は気にしない、走り出してからの品質と安定性が大事」という性質。バッチ処理で大量のドキュメントを流すなら、TTFT 2877msというオーバーヘッドは1ファイルあたり3秒以下の差にしかなりません。100本処理しても累積5分弱。ここで品質差があれば後工程の修正コストの方がはるかに大きい。

役割分担として「対話=gemma3、コーディング=phi4、長文バッチ=qwen3」と切り分けるのが、当サイトの検証環境で数値が示す結論。逆に対話レスポンスを重視する用途で Qwen3 14B(Ollama: qwen3:14b) を選ぶ理由は薄いと言えます。

Q6. 消費電力とワットあたり性能はどう違う?

3モデルの消費電力はgemma3:12bが265W、phi4:14bが309W、qwen3:14bが297W。tokens/sec ÷ Wで簡易的に「ワットあたり性能」を出すと、gemma3:12bが約0.345 tok/s/W、phi4:14bが約0.285 tok/s/W、qwen3:14bが約0.285 tok/s/W。電力効率ではgemma3が約2割優位という結果になりました。

電気代に直すと差は意外に小さいですが、長時間ローカル常駐で動かすなら積み上がる。1日8時間の利用でgemma3とphi4の差は約350Wh、月間で約10kWh規模になります。発熱面でもgemma3は54°C、phi4とqwen3は61°Cで7°C差。ファン回転や室温への影響を抑えたいケースでgemma3が有利です。

電源容量に余裕がない構成(650W電源など)では、phi4:14bの309WはGPU側だけでこの数字。CPU・他デバイスを含めた総消費電力に注意してください。RTX 5080のTBP上限は360Wなので、ピーク時は309Wからさらに伸びる場面も想定する必要があります。

電源容量が不足すると、推論ピーク時にPCが落ちる。12-14Bクラスを常用するなら850W以上の電源を推奨します。

Q7. RTX 5060 Ti 16GBや12GB世代のGPUでも同じ序列で動く?

VRAM 16GB枠であれば動作可否の序列は変わりません。当サイトの検証環境のもう1枚、RTX 5060 Ti 16GBでも12-14Bクラス3モデルは収まります。ただし速度はCUDAコア数(4608基、5080の約43%)とメモリ帯域に比例して落ち、RTX 5080比で6〜7割程度のスループットになる想定です。

VRAM 12GBの世代(RTX 5070 / RTX 4070 Super)になると、モデルロード時点でVRAMの大半が埋まり、コンテキスト長を伸ばすとOOMリスクが出てきます。短い対話に絞るなら12GBでも回りますが、ドキュメント要約のような長文用途では16GB以上が安全圏。8GB世代(RTX 5060やRTX 4060)は12-14Bクラスでは事実上選択肢外です。

WccftechによるとIntelの最新ドライバーではArc iGPUにシステムメモリの最大93%まで割当可能との発表もあり、VRAM枠を物理的に拡張する別ルートも出てきました。ただし速度面ではディスクリートGPUに大きく劣るため、12-14Bクラスの常用環境としてはRTX 5060 Ti 16GB以上が現実的な下限と言えます。

よくある質問

Q. Q4ではなくQ8量子化に上げるとどうなりますか?

モデルサイズが約2倍になり、12-14B Q8ではVRAM 20GB前後を要求します。RTX 5080 16GBでは収まらず、RTX 5090 32GB相当の環境が必要。品質向上は微々たるもので、Q4_K_Mで十分実用的というのが当サイトの検証環境での結論です。

Q. RAMは何GB必要ですか?

当サイトの検証環境はRAM 96GBですが、12-14BクラスQ4_K_Mを回すだけならRAM 32GBで足ります。Ollamaがモデルファイルをディスクからロードする際に一時的にRAMを使うため、システム全体で16GBは厳しく、32GB以上を推奨します。

Q. 長文コンテキスト(64k以上)でも同じ性能が出ますか?

本記事の数値は短〜中コンテキスト前提です。Reddit r/LocalLLaMAの報告では、vLLMなど別フレームワークで64kトークン以降にスループットが急落するケースが指摘されており、Ollamaでもコンテキストが長くなれば性能は低下します。長文用途は別途検証が必要です。

Q. ブラウザだけで動く軽量モデルとどう使い分ければいい?

PC Watchによれば、Gemma 4 E2B + WebGPUで動くChrome拡張も登場しており、軽量タスクはブラウザで完結する流れがあります。ただし12-14Bクラスの推論密度は別物で、コーディング補助や長文要約には依然デスクトップGPU環境が必要です。

モデル別 主要仕様(当サイトのRTX 5080実測 / 2026-04-29)

Gemma 3 12B(Ollama: gemma3:12b) 91.4 tok/s / TTFT 1746ms / 265W / VRAM 10.2GB
Phi-4 14B(Ollama: phi4:14b) 88.0 tok/s / TTFT 1838ms / 309W / VRAM 11.4GB
Qwen3 14B(Ollama: qwen3:14b) 84.6 tok/s / TTFT 2877ms / 297W / VRAM 11.1GB
計測環境 RTX 5080 16GB / i7-14700F / RAM 96GB / Ollama 0.21.2 / Driver 596.21

まとめ:用途別の最適解を1行ずつ整理

リアルタイム対話で迷ったらgemma3:12b。速度・TTFT・消費電力の3拍子で頭ひとつ抜けています。コーディング補助で推論密度を取りにいくならphi4:14b。電力増(309W)は飲み込む覚悟が要ります。長文要約・多言語翻訳のバッチ処理ならqwen3:14b。初動の遅さは1ファイル単位ではほぼ気にならない。

3モデルとも RTX 5080 16GBで実用域。「TTFT・消費電力・速度のどこを取りにいくか」で選び分けるのが当サイトの検証環境からの結論です。VRAM 12GB世代のGPUでは長文用途で詰みやすく、16GB以上が12-14Bクラスの実用ラインと言えます。それでも解決しない疑問があれば、コーディング特化LLM比較や翻訳用LLM比較の個別記事も合わせて参照してください。

当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。

おすすめパーツ 価格まとめ

製品名 カテゴリ スペック 参考価格
RTX 5090 GPU・グラフィックボード NVIDIA GeForce RTX 5090 32GB GDDR7 ¥729,800〜
(kakaku.com最安値・2026/04/29)
RTX 5080 GPU・グラフィックボード NVIDIA GeForce RTX 5080 16GB GDDR7 ¥199,800〜
(kakaku.com最安値・2026/04/29)
RTX 5070 GPU・グラフィックボード NVIDIA GeForce RTX 5070 12GB GDDR7 ¥105,000〜

本記事は AIハードウェア図鑑 編集部 が記載時点の情報をもとに執筆。製品アップデートや第三者ベンチマーク・価格・対応ランタイム等の変動で評価が変わる可能性がある。一定期間経過した内容は再検証を推奨する。

タイトルとURLをコピーしました