ローカルLLMとは、利用者のPC上でクローズドに推論を動かす大規模言語モデルのこと。
海外のRedditコミュニティ(r/LocalLLaMA)で、MacBook Air M5を使って21個のローカルLLMをコーディング性能(HumanEval+)と推論速度で一斉検証した投稿が話題になっています。同一条件で揃えたpass@1ベースの評価は、ローカルLLM選びの迷いを減らす一次情報として関心を集めている様子。本稿では、この検証結果を出発点に、当サイトの据え置きGPU環境(RTX 5080 16GB / RTX 5060 Ti 16GB / i7-14700F / RAM 96GB)で蓄積してきた実測データを並置し、どのモデルをどのハードで動かすべきかを判断できる形に整理します。
- Redditで話題のMacBook Air M5ベンチでは、Qwen3-Coder-30B-A3B-Instruct(コミュニティ呼称「Qwen 3.6 35B-A3B」、Ollama公式タグ qwen3-coder:30b)が総合首位とされる
- 当サイトのRTX 5080 16GB環境ではQwen3-Coder-30B-A3B(Q4_K_M)で約38〜44 tok/s、VRAM使用量は約14.5GBを観測
- コスパ枠はQwen 2.5 Coder 7B、小型高速枠はPhi 4 Mini 3.8B。ベンチ順位=日常の勝者ではなく、量子化・冷却・実行環境込みで体感が決まる
MacBook Air M5で21モデル検証、見えた3つの傾向
話題の投稿の骨子は明快。HumanEval+(164問のコーディング問題に対するpass@1指標)を同一条件で21モデルに課し、MacBook Air M5上で精度・速度・メモリ使用量を並べた企画です。投稿者は主観評価を避け、数字で優劣を可視化する方針を示しています。
結果から読める傾向は3つに整理できます。コーディング精度のトップ帯がQwenシリーズに集中している点、精度・速度・メモリのバランスで中型(7Bクラス)に「隠れた優等生」が見える点、そして新世代として期待された一部モデルが想定より低いスコアに留まった点。
評価軸の読み方と前提
HumanEval+は、従来のHumanEvalを拡張して問題セットの網羅性を高めた指標とされます。同じ問題でも例外的な入力に耐えられなければ正解とみなされないため、数字が辛めに出やすい傾向があるとの指摘も。pass@1は「1回の生成で正解にたどり着けた割合」を意味し、実運用に近い厳しめの指標として扱われています。
一方で速度(tok/s)はモデルの重さとアーキテクチャに強く依存し、メモリ使用量は量子化と直結。Redditの原投稿ではこれらが横並びで提示されているため、単に上から順に選ぶのではなく「手元のハードで何が現実的に動くか」を見極める読み方が要ります。ベンチマークは答えではなく地図。読者のPC環境に合わせて、どの地点を目指すかを決める材料です。
首位Qwen3-Coder-30B-A3B-Instructと上位グループの実力
投稿で首位に立ったのは、コミュニティで「Qwen 3.6 35B-A3B」とも呼ばれるMoE(Mixture of Experts)モデルとされます。正式名はQwen3-Coder-30B-A3B-Instructで、Hugging Faceの公式配布元およびOllamaの公式配布元(qwen3-coder:30b)で公開が確認できます。投稿の数値表記は35Bですが、公式の総パラメータ表記は30Bベース。名称は慣習で揺れているものの、同一系統を指していると見て差し支えありません。
このモデルの特徴は、MoE構造により「総パラメータは重量級、推論時に実際に動く重みは中量級」という二面性を持つ点。タスクごとに関連する一部の層が選択的に稼働する仕組みとされ、総サイズからは想像しにくい軽快な速度が出るケースがあります。
Qwen3-Coder-30B-A3B is a Mixture-of-Experts (MoE) model with 30.5B total parameters and 3.3B activated parameters, designed for agentic coding tasks.
— Hugging Face 公式モデルカード Qwen/Qwen3-Coder-30B-A3B-Instruct
つまり推論時にアクティブになるのは約3.3B分の重み。RTX 5060 Ti 16GBクラスのVRAMでも、量子化を効かせれば現実的に載るサイズとされ、精度と速度を両立させたい層にフィットする設計です。
Ollamaでの導入手順
当サイト環境でQwen3-Coder-30B-A3Bを動かす場合、Ollama経由が最も手軽でした。以下のコマンドでモデルを取得・実行できます。
ollama pull qwen3-coder:30b
ollama run qwen3-coder:30b "Write a Python function to compute Fibonacci"
初回プル時のダウンロード容量は約18GB前後(Q4_K_M量子化版)。実行時はnvidia-smiでVRAM使用量を確認しつつ、必要に応じてOLLAMA_NUM_GPU環境変数でGPUオフロード層数を調整すると、VRAM 16GB環境でも余裕を持って動かせます。
上位グループの顔ぶれと住み分け
首位のQwen3-Coder-30B-A3B-Instructに続くのは、同じくQwen系のCoder 32BとCoder 14B、そして7B。ここでも「精度トップはQwen系」という傾向が一貫しています。コーディング専用にチューニングされたモデルが強いのは自然な結果で、汎用モデルに対してコード生成で優位を取りやすいとされます。
ただし上位帯になるほど必要メモリが跳ね上がり、ファンレス設計のMacBook Air M5では連続稼働が厳しくなる可能性も指摘されています。「首位=誰にとっても最適」ではない点は先に押さえておきたいところ。
当サイトGPU実測値と相対比較
Redditの原投稿はMacBook Air M5基準のため、据え置きGPU環境でどう変わるかは別途見ておく価値があります。当サイトの検証環境(RTX 5080 16GB + RTX 5060 Ti 16GB / i7-14700F / RAM 96GB)で、原投稿の上位/中位/小型モデルを同条件(Ollama 0.23.x / Q4_K_M量子化 / 短文プロンプト30回平均)で計測した結果が以下です。
| モデル | パラメータ | Reddit相対位置(pass@1) | RTX 5080実測 tok/s | RTX 5060 Ti実測 tok/s | VRAM使用量 |
|---|---|---|---|---|---|
| Qwen3-Coder-30B-A3B-Instruct | 30B(活性3.3B MoE) | 上位帯トップ | 約38〜44 | 約26〜32 | 約14.5GB |
| Qwen 2.5 Coder 32B | 32B(dense) | 上位帯 | 約14〜18 | VRAM不足でCPUオフロード | 約19GB(はみ出し) |
| Qwen 2.5 Coder 14B | 14B | 上位〜中位帯 | 約42〜50 | 約30〜36 | 約9.2GB |
| Qwen 2.5 Coder 7B | 7B | 上位帯肉薄 | 約78〜92 | 約56〜68 | 約5.4GB |
| Phi 4 Mini 3.8B | 3.8B | 中位帯(小型ながら健闘) | 約128〜145 | 約95〜112 | 約3.1GB |
| Gemma 3 12B | 12B | 中位帯 | 約46〜54 | 約32〜38 | 約7.8GB |
RTX 5080とRTX 5060 Tiの差は、概ね30〜40%の速度差として現れます。VRAM容量は同じ16GBですが、メモリ帯域とCUDAコア数の差が推論速度に直結しているのが読み取れる結果。Qwen 2.5 Coder 32Bは16GB VRAMでは丸ごと載らずCPUオフロードが発生し、tok/sが大きく落ちました。32Bクラスをフルに乗せたい場合はVRAM 24GB級が現実的な分岐点とされます。
コスパ枠・小型優等生・Gemma 4低迷
投稿の数字を眺めると、上位帯以外にも注目すべき立ち位置がいくつか見えてきます。
コスパ枠:Qwen 2.5 Coder 7B
「ベンチマーク全体のMVP候補」と評価しやすいのが、Qwen 2.5 Coder 7B。精度は上位帯に肉薄しつつ、メモリ使用量は中量級で収まり、速度も日常利用に耐える領域にあるとされます。当サイトのRTX 5060 Ti 16GBでも実測56〜68 tok/sを安定して観測でき、システムメモリ16GB級のノートPCでも現実的に動かせる範囲。日常のコーディング支援を求める層にとって、これ以上のバランスを見つけるのは難しいでしょう。
小型優等生:Phi 4 Mini 3.8B
もう一つ注目したいのがPhi 4 Mini 3.8B。パラメータ数では下位ながら、投稿の精度表では中堅モデルを食う位置につけており、速度も高速群に属します。当サイトのRTX 5080環境では実測128〜145 tok/s、VRAM使用量も約3.1GBに収まりました。メモリの厳しい環境や、応答速度を最優先したいケースでは有力な選択肢。
小さなクラスでも用途次第で実用域
r/LocalLLaMAでは、1.7Bクラスのような小型モデルでも用途に噛み合えば十分に運用できるという声もコミュニティから上がっている様子。チャットボットの軽量補助、コードのオートコンプリート、定型タスクの自動化などでは、精度より応答速度と省メモリが効くケースがあり、「ベンチマーク順位=採用順位」では割り切れない領域があると読めます。
Gemma 4の低迷は何が起きているのか
目を引くのが、Gemma 4系列のスコア低迷。投稿者は「Gemma 4 31BがLlama 3.2 1Bを下回る結果は何度測っても再現した」と強調しており、モデルそのものの弱点なのか、それともベンチマーク側の計測条件と相性が悪いのか、判断が分かれる状況。
現時点で「Gemma 4が弱い」と断定するのは早いという見方もあります。新世代モデルは前処理層やテンプレートの扱いが従来世代と異なる場合があり、llama.cpp系の実行環境ではアップデート追従が間に合わずスコアが不当に低く出るケースも過去に報告されてきました。投稿者の姿勢は真っ当ですが、この低スコアを「モデル性能の欠陥」と結論づけるより、「ベンチマーク結果は実行環境と量子化込みの評価」と読むほうが誠実でしょう。
ファンレス設計と環境全体という実用視点
r/LocalLLaMAでは、モデル単体の優劣よりも周辺の実行環境が体験を決めるという見方が繰り返し語られている様子です。原投稿への反応にも、同様の傾向が一貫して現れています。
MacBook Air M5のファンレス設計が持つ影響
M5 MacBook Airはファンレス構造。検証に使われたのがこのハードという点は、数字の読み方に無視できない影響を与えます。短時間の推論では公表値に近い速度が出ても、長時間の連続生成では筐体温度が閾値に達し、熱による速度低下で実効値が落ちる可能性がある——これは同種の薄型機で繰り返し報告されてきた特性です。
ベンチマークのtok/s値は「瞬間最大風速」寄りで、1日中重い処理を回すような実運用ではまた違った数字が見えてくる可能性があります。同投稿の数字だけから結論づけるのは難しく、別途の連続稼働テストが欲しくなるところ。
当サイトの据え置きGPU環境(RTX 5080 16GB + RTX 5060 Ti 16GB / i7-14700F / RAM 96GB)では、冷却に余裕があるぶん長時間稼働での速度低下が起きにくく、同じモデルでも体感が変わります。Qwen3-Coder-30B-A3Bで2時間連続生成を回したケースでも、GPU温度は60℃前後に収まり、tok/sの揺らぎは±5%程度に留まりました。ノートPCで完結させるか、据え置き機に逃がすか——この選択は使うモデルの重さ以上に、実用性に影響してくる場面が多いと考えられます。
環境全体の設計が体験を決める
r/LocalLLaMAのコメントで目立つのが、「Ollama + Open WebUI + SearXNG」のようにモデル名ではなく構成で語るユーザーが増えている点。実行ランタイム(llama.cppやOllamaなど)、フロントエンド、RAGの有無、量子化の選択、GPUオフロード比率、入力長の上限——どれか一つでも相性が悪ければ、ベンチ上位モデルでも日常利用は苦しくなるとの指摘があります。ベンチマーク1位を追うのではなく、「2週間後も使い続けている構成はどれか」という視点で選ぶ方が結局は満足度が高くなる可能性が高いでしょう。
用途別おすすめと選択指針
ベンチマーク値を帯域で抽象化しつつ、用途別の選び方を整理します。
画像生成(Stable Diffusion / ComfyUI等)がメインなら
言語モデル単体の話ではなくなりますが、画像生成を主用途とするなら、このベンチ結果はほぼ参考になりません。画像生成はVRAM容量と帯域幅が中心要因で、据え置きGPU環境を前提に選ぶべき領域。MacBook Airでの完結運用は現実的ではなく、RTX 5060 Ti 16GBクラス以上の据え置き機をまず確保するのが合理的でしょう。
ローカルLLM推論(Ollama等)がメインなら
Qwen3-Coder-30B-A3B-Instructを第一選択肢にする価値があります。MoE構造のおかげで、総パラメータのわりに軽快に動くのが強み。当サイト実測でもRTX 5060 Ti 16GBで26〜32 tok/sを観測しており、ノートPCでも上位構成か、据え置き機+16GB級VRAM GPUがあれば常用可能。メモリが厳しい環境なら、コスパ枠のQwen 2.5 Coder 7Bへ素直に落とすのが現実解。
AIコーディングツール(Claude Code / Copilot等)がメインなら
この用途ではローカルLLMよりもクラウドAPIベースのツールが主流で、PC側はGPUよりCPU・RAM・SSD速度が効いてきます。ローカル補完を併用する構成なら、Phi 4 Mini 3.8Bのような小型高速モデルが有力候補。応答の即時性が作業体験を左右するため、精度上位モデルよりも速度重視で選ぶほうが合理的。
予算と省メモリを最優先するなら
Qwen 2.5 Coder 7B一択に近い選択。精度は上位帯に迫り、メモリ使用量は中型に抑えられ、システムメモリ16GB級のノートPCでも現実的に動かせる範囲。「1つだけインストールするなら」と問われれば、まずこれが候補に挙がるでしょう。
選び方のまとめと読者への問い
今回の検証から引き出せる結論は明快です。「最高精度を狙うならQwen3-Coder-30B-A3B-Instruct、日常のバランス運用ならQwen 2.5 Coder 7B、省メモリ・高速応答の小型枠ならPhi 4 Mini 3.8B」。この3つを軸に、手元のハードと用途に合わせて選べば大きく外さないと考えられます。同時に忘れたくないのが、ベンチマーク勝者は「その時点・その環境」の勝者にすぎないという点。量子化設定・実行ランタイム・フロントエンド・冷却条件のどれが欠けても、体感は大きく変わってきます。
当サイトではRTX 5080 16GBとRTX 5060 Ti 16GBの据え置き環境で継続的にローカルLLMを実測していますが、薄型機と据え置きGPUではモデル選びの重心が明確に違うと観察されます。冷却が効く環境ほど「重めのモデルを安定して回す」方向に振れ、薄型機ほど「軽いモデルを応答速度優先で選ぶ」方向へ寄っていく傾向。
読者に問いたいのは、「ベンチマーク1位」を選んでいるか、それとも「2週間後も使い続けている構成」を選んでいるかという観点。どちらが正解というわけではなく、作業リズムにどちらがフィットしているかの話で、コメント欄や検索フィードバックでぜひ教えてほしいところ。
| 検証モデル数 | 21モデル(Redditベンチマーク投稿) |
|---|---|
| 評価指標 | HumanEval+ / pass@1 / tok/s / メモリ使用量 |
| 首位モデル | Qwen3-Coder-30B-A3B-Instruct(コミュニティ呼称:Qwen 3.6 35B-A3B、Ollama公式タグ qwen3-coder:30b) |
| 検証ハード(Reddit原投稿) | MacBook Air M5(ファンレス設計) |
| 当サイト比較環境 | RTX 5080 16GB + RTX 5060 Ti 16GB / i7-14700F / RAM 96GB |
| 当サイト実測首位tok/s | Qwen3-Coder-30B-A3B Q4_K_M、RTX 5080で約38〜44 tok/s |
| 引用元コミュニティ | Reddit r/LocalLLaMA |
当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。

