llama3.2:3bとは？ドラフト生成で最速のローカルLLM

llama3.2:3bとは、Metaが公開した30億パラメータの軽量ローカルLLMである。

ブログ下書き・議事録要約・メール量産といった「叩き台量産」の用途では、ローカルLLM選定の基準が大きく変わる。コーディングのように1文字違えば動かない世界ではないため、精度よりも生成速度が支配的になるからだ。RTX 5080で14モデルを実測した結果、llama3.2:3bが293.9 tokens/secで首位を獲得し、2位のphi4-mini:3.8b（253.5 tok/s）を約16%引き離した。

この記事の要点

llama3.2:3bはRTX 5080実測で293.9 tokens/secを記録し、ドラフト用途で最速クラス
phi4-mini:3.8bの253.5 tokens/secを約16%上回り、体感の待ち時間が大きく変わる
VRAM 5.1GBのみで動作するため、画像生成など他用途と並列稼働しても干渉が少ない

Llama 3.2 ファミリーと3Bの位置づけ
ドラフト用途で速度が支配的になる理由
1. 叩き台フローでは精度より「待ち時間ゼロ」が効く
2. 14モデル実測で速度トップ4を抽出
量子化とメモリ帯域がトークン速度を決める
RTX 5080実測｜llama3.2:3bが293.9 tok/sで首位
1. phi4-mini:3.8bとの16%差はどこから生まれるか
2. TTFT（最初のトークンが出るまで）の体感差
VRAM 5.1GBが効く｜ComfyUIと並列稼働しても干渉しない
1. 半分以上のVRAMを他用途に回せる
2. デュアルGPU構成での役割分担
用途別プリセット｜要約・ドラフト・翻訳の使い分け
Ollama運用設定｜TTFTを最小化するコツ
トラブルシュート｜速度が出ない・VRAM不足が出る
まとめ
参考資料

Llama 3.2 ファミリーと3Bの位置づけ

Llama 3.2は2024年9月にMetaが発表したオープンソースLLMファミリーで、1B/3Bの軽量テキストモデルと11B/90Bのマルチモーダルモデルが同時公開された。1B/3Bはエッジ・モバイル端末向けに最適化され、上位モデルからの知識蒸留(Knowledge Distillation)とプルーニング(Pruning)を組み合わせて軽量化が施されている。コンテキスト長は公称128,000トークンに対応し、長文要約やマルチターン対話でも実用域に収まる。

Ollamaが配布するllama3.2:3bはQ4_K_M量子化版で、4bit重み圧縮によりVRAM占有量を5GB台に抑えている。INT4精度ながら命令追従品質はFP16版から大きく劣化しないことが、Meta公式の評価指標で示されている。

「Llama 3.2 1B and 3B models are designed to run efficiently on-device, offering low-latency text generation suitable for use cases like summarization, instruction following, and rewriting tasks.」

Meta AI 公式ブログ Llama 3.2 発表記事

ドラフト用途で速度が支配的になる理由

ドラフト生成とは、AIが完成原稿ではなく「人間が手直しする叩き台」を量産する使い方を指す。

ローカルLLMの用途は大きく2系統に分かれる。1つはコード生成や数値計算のように出力の正確性が結果を左右する用途、もう1つはブログ下書きや議事録要約のように人間が後から整える前提の叩き台用途。後者では「待ち時間ゼロ」の体感が生産性に直結する。

CopilotとExcelの組み合わせ検証でも、AIは作業の代行者ではなく「優秀なアシスタント」として叩き台を提示する役割が中心だと指摘されている。ローカルLLMでも同じ。人間が設計し、AIが下書きを高速で吐き出す役割分担が現実的な使い方になる。

叩き台フローでは精度より「待ち時間ゼロ」が効く

500字のメール下書きを想定した場合、200 tok/s台と100 tok/s台では生成完了までに3〜5秒の差が生まれる。1日に何十本も処理する業務では、この差が積み上がって体感を支配する。誤字や表現の硬さは人間が修正する前提なので、若干の品質差より速度差のほうが重い。

14モデル実測で速度トップ4を抽出

当サイトの検証環境（RTX 5080 16GB / RTX 5060 Ti 16GB / i7-14700F / RAM 96GB / Ollama 0.22.1）で14モデルを計測したところ、3〜7Bパラメータ帯のモデルが上位を占めた。逆に14B以上の中規模モデルは80 tok/s前後にとどまり、ドラフト用途では明らかに不利。

量子化とメモリ帯域がトークン速度を決める

30億パラメータのモデルがFP16で動作すると、必要なVRAMは約6GB、メモリ転送量は1トークン生成あたり約6GBに達する。Q4_K_M量子化を適用すると重みが4bit表現に圧縮され、VRAM占有と1トークンあたり転送量はおおむね1/3〜1/4まで縮む。これにより同じGPUでもトークン生成の理論速度が大きく伸びる。

RTX 5080はNVIDIA公式仕様で960GB/sのメモリ帯域を持つ。3B Q4モデルで1トークンあたり約2GBの転送が必要な場合、理論上限は 960÷2 ≈ 480 tok/s 前後となる。実測293.9 tok/sはその約61%を達成しており、残り39%はKVキャッシュの読み書きとサンプリング処理のオーバーヘッドが占める。

同じ計算式を14B級モデルで当てはめると、Q4でも1トークンあたり7〜8GBの転送が必要となり理論上限が120 tok/s前後まで落ちる。実測80 tok/s台に収まるのも帯域律則の説明と整合する。逆に1B級ではさらに帯域要求が下がるため、ドライバや実装が追従できれば400 tok/sを超える余地が残る。

RTX 5080実測｜llama3.2:3bが293.9 tok/sで首位

RTX 5080は16GB GDDR7 VRAMを搭載するBlackwell世代のハイエンドGPUで、3BクラスのLLMでは300 tok/s近い生成速度を引き出せる。

実測結果の上位4モデルは以下の通り。すべて当サイト検証環境（RTX 5080 16GB）で2026-05-06に計測した値です。

モデル	tokens/sec	VRAM使用量	TTFT	用途相性
Llama 3.2 3B（Ollama: llama3.2:3b）	293.9	5.1GB	2575ms	長文ドラフト・メール量産
Phi-4-mini 3.8B（Ollama: phi4-mini:3.8b）	253.5	5.8GB	3684ms	構造化要約・箇条書き整形
gemma3:4b	199.6	5.7GB	3860ms	多言語混在・翻訳
Mistral 7B（Ollama: mistral:7b）	161.0	7.2GB	1119ms	長文の要点抽出

外部の公開ベンチマーク（Microcenter掲載）では、RTX 5080の7-8B Q4_K_M帯が概ね130 tok/s前後とされている。当サイト実測でも8B級のllama3.1:8bは151.6 tok/s、deepseek-r1:8bは136.4 tok/sと近い水準。3B帯の293.9 tok/sは明らかな突出値で、ドラフト用途に振り切ったときの優位性を示す。

phi4-mini:3.8bとの16%差はどこから生まれるか

llama3.2:3bは30億パラメータ、phi4-mini:3.8bは38億パラメータと、サイズ差は約27%。パラメータ数が少ないほど計算量と帯域要求が下がるため、メモリ帯域がボトルネックになりやすい高速生成では3Bが有利になる。VRAM使用量もllama3.2:3bが5.1GB、phi4-mini:3.8bが5.8GBと差があり、計算密度の軽さがそのまま速度に反映された形。

TTFT（最初のトークンが出るまで）の体感差

tokens/sec以外で見落とされやすい指標がTTFT（Time To First Token）。llama3.2:3bは2575ms、mistral:7bは1119msで、最初の1文字が出るまではmistralのほうが早い。短い応答ではTTFTが支配的になるため、長文ドラフトはllama3.2:3b、短い対話レスポンスはmistral:7bという棲み分けも成立する。

VRAM 5.1GBが効く｜ComfyUIと並列稼働しても干渉しない

llama3.2:3bはVRAM 5.1GBで動作するため、16GBクラスGPUの3割しか占有せず、画像生成など他用途を同時に走らせても干渉が起きにくい。

ローカルLLMを使い始めると必ず直面するのが「他のAI処理と同居できるか」という問題。Stable DiffusionやComfyUIで画像を生成しながらドラフトを書きたい場面、議事録要約を回しながら動画素材を作りたい場面など、並列稼働の需要は高い。

半分以上のVRAMを他用途に回せる

RTX 5080の16GB VRAMでllama3.2:3bを常駐させた場合、残りは約10〜11GB。SDXL本体（約7GB）は十分収まり、ComfyUIで画像を生成しながらLLMで原稿を書く運用も現実的。phi4-mini:3.8bやgemma3:4bも6GB前後なので近い使い勝手だが、絶対的な軽さではllama3.2:3bが一歩リード。

mistral:7bやllama3.1:8bは7〜8GB台を消費するため、SDXLとの同時起動でVRAMが逼迫する局面が出てくる。長時間のバッチ処理では3〜4B級を選んだほうが安定するでしょう。

デュアルGPU構成での役割分担

当サイトの検証環境はRTX 5080（16GB）に加えてRTX 5060 Ti（16GB）をOculink接続で運用している。LLMドラフト生成を5060 Ti側に固定し、5080側でComfyUIの動画生成を回す分担構成も可能。3B級なら5060 Tiでも100 tok/s以上を狙えるため、用途を分担すれば「待ち時間ゼロ」と「重い動画生成」を両立できる構成。

実務で使い始める際に知っておくと便利なのがOllamaのモデル常駐設定。環境変数 OLLAMA_KEEP_ALIVE を24時間に伸ばすと、初回ロードのオーバーヘッドが消えて2回目以降のTTFTが大きく短縮される。

用途別プリセット｜要約・ドラフト・翻訳の使い分け

速度トップ4のモデルはそれぞれ得意分野が異なるため、全用途を1モデルでこなすより、用途別に使い分けるほうが品質と速度を両立しやすい。

用途	推奨モデル	理由
ブログ下書き・メール量産	Llama 3.2 3B（Ollama: llama3.2:3b）	単純な日本語ドラフトで最速、文章のつながりが自然
議事録要約・箇条書き整形	Phi-4-mini 3.8B（Ollama: phi4-mini:3.8b）	構造化指示への追従が安定し、整形タスクの崩れが少ない
多言語/翻訳プリセット	Gemma 3 4B（Ollama: gemma3:4b）	多言語コーパスの比率が高く、英日・日中などで自然
長文の要点抽出	Mistral 7B（Ollama: mistral:7b）	TTFT 1119msで反応が速く、長文処理でも破綻が少ない

ブログ下書き・メール量産: Llama 3.2 3B（Ollama: llama3.2:3b）

500〜2000字程度の下書き量産では、生成速度が体感を支配する。llama3.2:3bは293.9 tok/sで2000字規模の出力を数秒で吐き出すため、複数案を比較検討する作業が一気に楽になる。文章のつながりは自然で、軽い手直しで公開レベルに届くケースが多い。

議事録要約・箇条書き整形: Phi-4-mini 3.8B（Ollama: phi4-mini:3.8b）

要約タスクでは「指示通りに構造化できるか」が品質を決める。phi4-mini:3.8bは構造化指示への追従が安定しており、箇条書き出力や見出し付き要約の崩れが少ない。速度253.5 tok/sも十分実用域。

多言語/翻訳プリセット: Gemma 3 4B（Ollama: gemma3:4b）・Mistral 7B（Ollama: mistral:7b）

英語ソースの記事を日本語で要約する、日本語ドラフトを英語化するといった多言語タスクでは、gemma3:4bが安定する。多言語学習の比率が効いて、自然な訳出が得やすい傾向。長文翻訳ではmistral:7bも有力候補。

同じ「3B〜4B」でも品質特性は大きく異なるため、自分の業務テンプレートで一度ずつ試してから常用モデルを決めること。速度だけで選ぶと、要約タスクで構造が崩れて手直しが増える失敗が起こりやすい。

Ollama運用設定｜TTFTを最小化するコツ

Ollamaはデフォルトで5分間アクセスがないとモデルをVRAMからアンロードする。次回の呼び出しでは再ロードが発生し、TTFTが数秒単位で増える原因になる。常駐させたいモデルがある場合は環境変数 OLLAMA_KEEP_ALIVE を24時間に設定すると、再ロードのオーバーヘッドが消える。

設定はWindowsならPowerShellで $env:OLLAMA_KEEP_ALIVE="24h"、Linux/macOSなら export OLLAMA_KEEP_ALIVE=24h をシェル起動時に追加する。サービスとして常駐させる場合は systemd の Environment ディレクティブで指定する形式が公式FAQに記載されている。

並列リクエストを処理する場合は OLLAMA_NUM_PARALLEL を2〜4に上げると、複数のドラフト生成を同時実行できる。ただし並列数を増やすほどVRAMとKVキャッシュが追加で必要になるため、5.1GB×並列数+他用途で16GB枠を超えないよう設計する。コンテキスト長を伸ばす場合は OLLAMA_CONTEXT_LENGTH で上限を引き上げるが、32k以上を常用するならVRAM消費の増加分も実機で確認したほうがいい。

トラブルシュート｜速度が出ない・VRAM不足が出る

VRAMが足りないと表示される

llama3.2:3bは公称5.1GBだが、他のアプリ（Chrome / VSCode / Stable Diffusion）が同時稼働しているとVRAM逼迫が起こる。nvidia-smiで空き容量を確認し、6GB以上の空きがあるかをチェックする。逼迫している場合はChrome等のGPU使用アプリを終了するか、より軽量なqwen3:1.7bなど1B級モデルへの切り替えを検討する。Chromeはハードウェアアクセラレーションを切るだけでも数百MB単位でVRAMが空く場合がある。

tokens/secが想定より遅い

RTX 5080環境で200 tok/s以下しか出ない場合、Ollamaのバージョン、NVIDIAドライバのバージョン、Power Limitの設定値を順に確認する。当サイト計測時はOllama 0.22.1 / NVIDIA 596.36 で安定。バッテリー駆動ノートPCでは省電力モードが速度に直結するため、電源プランを「最高のパフォーマンス」に設定する。Ollamaを再起動するとモデルロード状態がリセットされ、TTFTを含めた初回レスポンスは遅くなる点も計測時の留意事項。

日本語出力が不自然になる

Llama 3.2は上位モデルから日本語性能を引き継いでいるが、3B級では学術的・専門的な日本語表現で破綻するケースがある。プロンプトの先頭に「日本語で出力してください。文体は丁寧な常体で。」のような明示指示を入れると改善する。それでも品質が足りない場合はgemma3:4bやphi4-mini:3.8bへの切り替えが現実的。日本語特化モデル（ELYZA-japanese-Llama等）も選択肢に入る。

まとめ

llama3.2:3bは、RTX 5080実測293.9 tokens/secでドラフト用途の最速クラスに位置する3BパラメータのローカルLLM。phi4-mini:3.8bを約16%上回る速度差は、ブログ下書きや議事録要約のように「叩き台を量産→人が整える」フローで体感生産性を直接押し上げる。

VRAM 5.1GBの軽量性は、画像生成や動画生成との並列稼働を可能にする副次的な強みでもある。まずはllama3.2:3bでドラフト用途の速度を体験し、次にphi4-mini:3.8bやgemma3:4bを用途別に試すと、自分の業務に合わせたモデルプリセットが固まる。OLLAMA_KEEP_ALIVE等の運用設定とQ4_K_M量子化を組み合わせれば、待ち時間を意識せずに使える環境が手に入る。

パラメータ数	30億（3B）
RTX 5080実測速度	293.9 tokens/sec
VRAM使用量	約5.1GB
TTFT	2575ms
得意用途	ブログ下書き・メール量産・長文ドラフト
計測日	2026-05-06（Ollama 0.22.1 / NVIDIA 596.36）