RTX 5080で最初に入れる7-8BローカルLLMはどれか

GPU・グラフィックボード

7-8BローカルLLMとは、パラメータ数70億〜80億級の中型言語モデルのこと。

phi4-miniやllama3.2:3bでOllamaの動作確認は済んだ。次は少し大きい7-8Bクラスを試したい。ただ、Ollamaライブラリで「7B」「8B」と名のつくモデルだけでも十数種類あり、どれを最初に入れるべきか迷う場面が多いはず。

この記事の要点

  • 7-8Bクラスは3B帯と比べて日本語応答とコード補完の精度が一段上がる
  • RTX 5080VRAM 16GB)の実測ではmistral:7bが156.3tok/sでバランス最良
  • llama3.1:8bはTTFT 831msで対話の体感速度が他を引き離す

7-8Bが「最初の一台」に向く理由

「3B帯で動いたから7-8Bも問題ない」と単純化はできません。VRAM消費は2倍以上、速度は半分前後に落ちます。それでも7-8Bを推す理由は、応答の質が一段違うから。最初に入れる一台として3B帯から飛び級するくらいの意味があります。

3Bから7-8Bに上がると変わること

3B帯のモデルは応答が速く軽い反面、日本語の文脈把握や複数手順を要する推論には弱い。当サイトの検証環境(RTX 5080 16GB / RTX 5060 Ti 16GB / i7-14700F / RAM 96GB / Ollama 0.20.7)では、llama3.2:3bが284.1tok/s、phi4-mini:3.8bが245.4tok/sと圧倒的な速度を出しました。ただし、コード生成で関数のネストが深くなったり、日本語の婉曲表現を読み解いたりする場面では取りこぼしが目立ちます。

7-8Bに上げると、tokens/secは半分前後に落ちるかわりに「文脈の取りこぼし」が明確に減ります。mistral:7bで156.3tok/s、llama3.1:8bで144.1tok/s。人間の読み上げ速度を遥かに超える生成速度なので、体感では十分すぎるほど速い領域です。

VRAM 16GB帯における7-8Bの位置づけ

RTX 5080のVRAMは16GB。Q4_K_M(4bit量子化のうち品質と速度のバランス型)で配布される7-8BモデルはVRAM 5〜10GBに収まり、残った6〜10GBで他のGPU作業(ブラウザのGPUアクセラレーション、ComfyUIの軽量ワークフロー、動画再生など)を同時に走らせる余地が残ります。

「ローカルLLMだけ専用機を組む」のは初手としては過剰でしょう。7-8B Q4の同居ワークロードを前提に機種選定するほうが、入門としては現実的な判断になります。

mistral・llama3.1・deepseek-r1・gemma4を実測比較

ここからは数値で見ていきます。当サイトのRTX 5080検証環境(i7-14700F / RAM 96GB / Ollama 0.20.7 / NVIDIAドライバ596.21)で、同条件・同プロンプトを使い計測した結果。

5指標で見る実測スペック表

モデル tokens/sec TTFT VRAM使用量 GPU温度 消費電力
Mistral 7B(Ollama: mistral:7b) 156.3 12,600ms 6.6GB 51.0°C 272W
Llama 3.1 8B(Ollama: llama3.1:8b) 144.1 831ms 7.1GB 51.0°C 264W
DeepSeek R1 8B(Ollama: deepseek-r1:8b) 103.9 9,424ms 10.1GB 54.0°C 264W
Gemma 4 e4b(4.5B MoE)(Ollama: gemma4:latest) 152.1 11,102ms 5.5GB 50.0°C 205W

数値の読み解き(速度・初動レスポンス・VRAM・電力)

tokens/sec単独で見るとmistral:7bが156.3で頭ひとつ抜けています。ただ、ここで見落としがちなのがTTFT(Time To First Token: 入力送信から最初のトークンが返るまでの時間)。

llama3.1:8bのTTFTは831msと極端に短い数字でした。tokens/secでは144.1とmistralにわずかに届かないものの、「Enterキーを押した瞬間に応答が始まる」体感はllama3.1:8bの圧勝。対話用途では、最初の200文字が返るまでの時間が満足度を大きく左右します。

deepseek-r1:8bは速度こそ103.9tok/sですが、VRAM使用量が10.1GBと突出している点に注意。RTX 5080の16GBに対して6割以上を占有するため、ComfyUIや高負荷ブラウザと併用するとVRAM不足エラーに直面しやすい構成です。

gemma4:latestはVRAM 5.5GB・消費電力205Wと省エネ路線。tokens/secも152.1とmistralに近く、電力効率(性能÷消費電力)では本記事の4モデル中で最も優秀でした。Mistral AIやMetaの公式モデルとは違うアプローチで、夜通し動かすような運用にも向いている1本。

用途別おすすめ|「初手の1本」をどう選ぶか

数値を眺めるだけでは決められない。実際にどう使うかから逆算するのが早道です。

バランス重視ならmistral:7b

何に使うか決まっていないなら、まずはmistral:7bを入れる。156.3tok/sの生成速度はストレスを感じさせず、VRAM 6.6GBは他作業との同居も現実的なライン。Mistral AIが公開している標準的なInstruct(指示応答用にチューニングされた)モデルで、英語・日本語の指示応答とも安定しています。

「初手で迷ったらこれ」と言える1本が欲しいなら、mistral:7bを基準にして他モデルと比較するのが分かりやすい進め方。

対話の体感速度ならllama3.1:8b

チャット中心の使い方なら、TTFT 831msのllama3.1:8bを推します。Meta公式の8Bモデルで、英語の自然さとコード補完のバランスが取れている系統。tokens/secで144前後を出しつつ、初動が1秒未満で返ってくる組み合わせは他モデルでは見られませんでした。

「待ち時間が短い=対話に集中できる」という関係は、ローカルLLMをメインの作業ツールにする人ほど効いてきます。

推論の見える化ならdeepseek-r1:8b

deepseek-r1:8bは「思考過程をテキストで吐き出す」推論型のモデル。質問に対して結論だけでなく、内部で考えたステップを段階的に返してくる仕組みです。学習用途や、AIがどう考えたかを観察したい場面では他に代えがたい存在。

ただしVRAM 10.1GB・103.9tok/sという数字が示す通り、軽快さではmistralやllama3.1に明確に劣ります。「速度より思考の透明性を優先する人向け」の選択肢と整理してください。

VRAM 16GBで7-8Bを動かすときの注意点

7-8Bを入れたら終わり、ではない。実運用で詰まりやすいポイントを整理します。

同居作業を考えたVRAM配分

deepseek-r1:8bは単体で10.1GBを使う構成です。ここにComfyUIでSDXLを動かすと、SDXL自体が8〜10GBを要求するため、RTX 5080の16GBではほぼ確実にVRAM不足を起こします。

LLMと画像生成を同居させたいなら、選択肢は2つ。VRAM 5〜7GB帯のmistral:7bやgemma4:latestを選ぶか、ComfyUI起動中はLLMをメモリ上から外す運用にするか。前者のほうが切り替えコストが低く、楽です。

7-8B Q4と他作業の同居を想定するなら、VRAM 12GB以上が現実的なライン。8GB帯のGPUでは7-8Bを単体起動するだけで上限近くまで埋まります。

ノートPC(8GB帯)で7-8Bを動かす場合の制限

ノートPC向けGPU、たとえばRTX 5060 Laptop GPUなど8GB VRAM帯では、7-8B Q4を1つ常駐させるだけでVRAMの大半が埋まる構成になります。Redditの実機検証報告では、8GB VRAMノートで動画生成系モデルを動かしても、複数モデルの同時起動は厳しいという声が出ている状況。

ノートPCで本格的にローカルLLMを使うなら、VRAM 12GB以上のモバイル上位機か、外付けGPU(Oculink接続のeGPU)を視野に入れるほうが選択肢が広がります。デスクトップとは別物として割り切る判断も現実的です。

検証GPU RTX 5080(VRAM 16GB GDDR7)
計測モデル Mistral 7B(Ollama: mistral:7b) / Llama 3.1 8B(Ollama: llama3.1:8b) / DeepSeek R1 8B(Ollama: deepseek-r1:8b) / Gemma 4 e4b(Ollama: gemma4:latest、約4.5B 実効)
最高速度 Mistral 7B(Ollama: mistral:7b) 156.3tok/s
最短TTFT Llama 3.1 8B(Ollama: llama3.1:8b) 831ms
最大VRAM消費 DeepSeek R1 8B(Ollama: deepseek-r1:8b) 10.1GB
計測日 2026年4月26日

まとめ

7-8BローカルLLMを最初に入れるなら、当サイト検証環境ではmistral:7bが速度・VRAM・電力のバランスで最有力。対話の体感を最優先するならllama3.1:8b、推論ステップを観察したいならdeepseek-r1:8b、省VRAMで他作業と並行したいならgemma4:latestと使い分けるのが現実的です。

まずはmistral:7bを入れて1日触ってみる。物足りなさを感じた点に応じて、対話特化や推論特化に切り替える。この順序が遠回りせずに「自分に合う初手」を見つける近道。コーディング特化や日本語特化の比較は別記事で深掘りしているので、興味のあるテーマから読み進めてみてください。

よくある質問

Q. 7Bと8Bで体感差はありますか?

パラメータ数の差は約14%で、tokens/secの差はモデル間で最大10%程度に収まります。同じQ4_K_M量子化なら体感差は小さい。むしろ学習データやファインチューンの違いが応答品質を左右します。

Q. RTX 5060 Ti 16GBでも同じ結果になりますか?

RTX 5060 TiはRTX 5080と比べてCUDAコア数とメモリ帯域幅が少ないため、同じVRAM 16GBでもtokens/secは下がる傾向があります。具体値はモデル・量子化・コンテキスト長で変動するため、自分の環境で実測するのが最も確実です。

Q. 量子化はQ4_K_Mで十分ですか?

7-8B帯ではQ4_K_Mが速度・品質のバランスで広く使われています。Ollamaのデフォルトもこのレベルが多い。Q5やQ6に上げると品質はわずかに改善しますが、VRAMが1〜2GB増え、tokens/secも数%落ちます。

Q. CPUオフロードしたら速度はどれくらい落ちますか?

OllamaはVRAMが足りない場合に自動でCPUへ一部レイヤーをオフロードします。オフロード比率に比例してtokens/secが大幅に低下するため、可能な限りVRAM内に収まるモデル・量子化を選ぶのが鉄則。

当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。

本記事は AIハードウェア図鑑 編集部 が記載時点の情報をもとに執筆。製品アップデートや第三者ベンチマーク・価格・対応ランタイム等の変動で評価が変わる可能性がある。一定期間経過した内容は再検証を推奨する。

タイトルとURLをコピーしました