MacBook Air M5でローカルLLM 21モデル比較|コーディング性能と速度を実測したベンチマーク総括

MacBook Air M5でローカルLLM 21モデル比較|コーディング性能と速度を実測したベンチマーク総括 アイキャッチ GPU・グラフィックボード

ローカルLLMとは、自分のPC上でクローズドに推論を動かす大規模言語モデルのこと。

「印象論ではなくデータで比較したい」——海外のRedditコミュニティ(r/LocalLLaMA)で、MacBook Air M5を使って21個のローカルLLMをコーディング性能(HumanEval+)と推論速度で一斉検証した投稿が話題になっています。同一条件で揃えたpass@1ベースの評価は、ローカルLLM選びの迷いを減らす一次情報として関心を集めている様子。本稿では、この検証結果を出発点に、筆者の独自分析と、当サイトの据え置きGPU環境(RTX 5080 / RTX 5060 Ti / i7-14700F / 96GB RAM)で蓄積してきた実測経験を踏まえて、読者がどのモデルをどのハードで動かすべきかを判断できる総括を目指します。

この記事の要点
・Redditで話題のMacBook Air M5ベンチマークはQwen3-Coder-30B-A3B(コミュニティ呼称「Qwen 3.6 35B-A3B」)が総合首位
・コスパ枠は7Bクラス、小型高速枠は3〜4Bクラスと役割分担が明確
・ベンチ上位モデル=日常の勝者ではない。量子化・バックエンド・冷却などスタック全体の設計が実用性を左右する

MacBook Air M5で21モデル検証、見えた3つの傾向

話題の投稿の骨子はシンプルです。HumanEval+(164問のコーディング問題に対するpass@1指標)を同一条件で21モデルに課し、MacBook Air M5上で精度・速度・メモリ使用量を並べてみた、という企画。投稿者は「bro trust me」式の主観評価を嫌い、数字で優劣を可視化する方針を明示しています。

筆者の読みでは、結果から浮かび上がったのは次の3つの傾向だと考えます。ひとつ目は、コーディング精度のトップ帯がQwenシリーズに集中している点。ふたつ目は、精度・速度・メモリのバランスで中型(7Bクラス)に「隠れた優等生」がいる点。そして三つ目が、新世代として期待された一部モデルが想定より低いスコアに留まった点です。

評価軸の読み方と前提

評価に使われているHumanEval+は、従来のHumanEvalを拡張してテストケースの網羅性を高めた指標。同じ問題でもエッジケースに耐えられなければ正解とみなされないため、数字が辛めに出やすい傾向があります。pass@1は「1回の生成で正解にたどり着けた割合」を意味し、実運用に近い厳しめの指標だと捉えてよいでしょう。

一方で速度(tok/s)はモデルの重さとアーキテクチャに強く依存し、メモリ使用量は量子化と直結。Redditの原投稿ではこれらが横並びで提示されているため、単に上から順に選ぶのではなく「自分のハードで何が現実的に動くか」を見極める読み方が要ります。つまり、ベンチマークは答えではなく地図。読者のPC環境に合わせて、どの地点を目指すかを決める材料と考えるのが妥当です。

首位Qwen3-Coder-30B-A3Bと上位グループの実力

投稿で首位に立ったのは、コミュニティで「Qwen 3.6 35B-A3B」とも呼ばれるMoE(Mixture of Experts)モデル。正式名はQwen3-Coder-30B-A3B-Instructで、Hugging Face上のリポジトリおよびOllamaライブラリ(qwen3-coder:30b)で公開が確認できます。投稿の数値表記は35Bですが、公式の総パラメータ表記は30Bベース。名称は慣習で揺れているものの、同一系統を指していると見て差し支えないでしょう。

このモデルの面白さは、MoEアーキテクチャにより「総パラメータは重量級、アクティブパラメータは中量級」という二面性を持つ点にあります。推論時にすべての重みが計算に使われるわけではなく、タスクごとに関連するエキスパート層が選択的に稼働する仕組み。結果として、総サイズからは想像しにくい軽快な速度が出ることがあります。Reddit投稿者も「サイズ感の割に速度が出る」と評価しており、精度と速度を両立させたい層にフィットする設計だと筆者は見ています。

上位グループの顔ぶれと住み分け

首位のQwen3-Coder-30B-A3Bに続くのは、同じくQwen系のCoder 32BとCoder 14B、そして7B。ここでも「精度トップはQwen系」という傾向が一貫しています。コーディング専用にチューニングされたモデルが強いのは自然な結果で、汎用モデルに対してコード生成で優位を取りやすいのだと筆者は考えます。

ただし上位帯になるほど必要メモリが跳ね上がり、ファンレス設計のMacBook Air M5では連続稼働が厳しくなる可能性も。据え置き環境との差は後述しますが、「首位=誰にとっても最適」ではないという点は先に押さえておきたいところ。

コスパ枠・小型優等生・Gemma 4低迷問題

投稿の数字を眺めると、上位帯以外にも注目すべきポジションがいくつか見えてきます。

コスパ枠:Qwen 2.5 Coder 7B

筆者が「ベンチマーク全体のMVP候補」と見るのが、Qwen 2.5 Coder 7B。精度は上位帯に肉薄しつつ、メモリ使用量は中量級で収まり、速度も日常利用に耐える領域にあります。8GB〜16GBメモリ帯のノートPCに現実的に載り、なおかつ「ちゃんとコードを書ける」モデルとして、常用候補の筆頭に挙がるでしょう。日常のコーディング支援を求める層にとって、これ以上のバランスを見つけるのは難しいかもしれません。

小型優等生:Phi 4 Mini 3.8B

もう一つ注目したいのがPhi 4 Mini 3.8B。パラメータ数では下位ながら、投稿の精度表では中堅モデルを食う位置につけており、速度も高速群に属します。メモリの厳しい環境や、とにかく応答速度を優先したいケースでは有力な選択肢。筆者はこのモデルを「小型枠のMVP」と捉えています。

Gemma 4の低迷は何が起きているのか

一方で目を引くのが、Gemma 4系列のスコア低迷。投稿者自身が「Gemma 4 31BがLlama 3.2 1Bを下回る結果は何度測っても再現した」と強調しており、モデルそのものの弱点なのか、それともベンチマーク側の計測条件と相性が悪いのか、判断が分かれる状況です。

筆者としては、現時点で「Gemma 4が弱い」と断定するのは早いと考えます。新世代モデルはトークナイザやテンプレートの扱いが従来世代と異なる場合があり、llama.cpp系の実行環境ではアップデート追従が間に合わずスコアが不当に低く出るケースも過去に報告されてきました。投稿者の姿勢は真っ当ですが、この低スコアを「モデル性能の欠陥」と結論づけるより、「ベンチマーク結果はハーネスと量子化込みの評価」と読むほうが筆者は誠実だと見ています

新しいモデルほど、実行環境側の対応状況が数字に影響しやすい。「低スコア=モデル側の問題」と断定せず、数週間〜数ヶ月スパンで再検証する姿勢が健全でしょう。

ファンレス設計とスタック全体という実用視点

Redditで同じ頃に話題になっていた別スレッド「What is your actual local LLM stack right now?」では、「モデルよりも周辺スタックの方が体験を決める」という主張が繰り返されていました。筆者もこの見方に強く共感します。

MacBook Air M5のファンレス設計が持つ影響

M5 MacBook Airはファンレス構造。検証に使ったのがこのハードだという点は、数字の読み方に無視できない影響を与えると考えます。短時間の推論では公表値に近い速度が出ても、長時間の連続生成では筐体温度が閾値に達し、サーマルスロットリングで実効速度が落ちる可能性がある、というのが筆者の見立て。

つまりベンチマークのtok/s値は「瞬間最大風速」寄りで、1日中エージェントを回すような実運用ではまた違った数字が見えてくるかもしれません。この点は同投稿の数字だけから結論づけるのは難しく、別途の連続稼働テストが欲しくなるところです。

当サイトの検証環境(RTX 5080 / RTX 5060 Ti / i7-14700F / 96GB RAM)のような据え置きGPU機では、冷却に余裕があるぶん長時間稼働での速度低下が起きにくく、同じモデルでも体感が変わります。たとえば当サイトでgemma4:latestを実測した際は、数時間連続で推論を回しても温度が55°C前後に収まり、速度の揺らぎもごく小さい範囲でした。ノートPCで完結させるか、据え置き機に逃がすか——この選択は使うモデルの重さ以上に、実用性に影響してくると筆者は考えます。

スタック全体の設計こそが体験を決める

r/LocalLLaMAのコメントを眺めていて印象的なのが、「Ollama + Open WebUI + SearXNG」のようにモデル名ではなく構成で語るユーザーが増えている点。バックエンド(llama.cppやOllamaなど)、フロントエンド、RAGの有無、量子化の選択、GPUオフロード比率、コンテキスト長——どれか一つでも相性が悪ければ、ベンチ上位モデルでも日常利用は苦しくなります。

一方で、1.7Bクラスのモデルでも自分の用途に噛み合えば十分に運用できる、という声もコミュニティから上がっている様子。ベンチマーク1位を追うのではなく、「自分が2週間後も使い続けているスタックはどれか」という視点で選ぶ方が、結局は満足度が高くなる可能性があります。

用途別おすすめと選択指針

ベンチマーク値を帯域で抽象化しつつ、用途別に筆者が考える選び方をまとめます。数値は原投稿由来の相対位置で読んでください。

モデル帯 代表モデル 精度帯 速度帯 必要メモリ帯 AI用途の目安
最上位MoE Qwen3-Coder-30B-A3B 最上位 中〜高速群 大容量 本格的なコーディング支援・精度最優先
上位コーダー Qwen 2.5 Coder 32B / 14B 上位 低〜中速群 中〜大容量 精度重視・時間に余裕がある作業
コスパ中型 Qwen 2.5 Coder 7B 上位 中速群 省メモリ 日常コーディング支援の常用候補
小型高速 Phi 4 Mini 3.8B 中位 高速群 最小級 応答速度優先・ファンレス機・移動中
汎用中堅 Gemma 3 12B / Phi 4 14B 中位 中速群 中容量 コーディング以外の汎用タスクも想定

画像生成(Stable Diffusion / ComfyUI等)がメインなら

言語モデル単体の話ではなくなりますが、画像生成を主用途とするなら、このベンチ結果はほぼ参考になりません。画像生成はVRAM容量と帯域幅が支配要因で、据え置きGPU環境を前提に選ぶべき領域。MacBook Airでの完結運用は現実的ではなく、RTX 5060 Ti 16GBクラス以上の据え置き機をまず確保するのが合理的だと考えます。

ローカルLLM推論(Ollama等)がメインなら

Qwen3-Coder-30B-A3Bを第一選択肢にする価値があります。MoE構造のおかげで、総パラメータのわりに軽快に動くのが強み。ただし必要メモリ帯は大きく、ノートPCなら上位構成か、据え置き機+16GB級VRAM GPUが前提になるでしょう。メモリが厳しい環境なら、コスパ枠のQwen 2.5 Coder 7Bへ素直に落とすのが現実解。

AIコーディングツール(Claude Code / Copilot等)がメインなら

この用途ではローカルLLMよりもクラウドAPIベースのツールが主流で、PC側はGPUよりCPU・RAM・SSD速度が効いてきます。ローカル補完をハイブリッドで組むなら、Phi 4 Mini 3.8Bのような小型高速モデルが有力候補。応答の即時性が作業体験を左右するため、精度上位モデルよりも速度重視で選ぶほうが筆者には合理的に思えます。

予算と省メモリを最優先するなら

Qwen 2.5 Coder 7B一択に近い選択。精度は上位帯に迫り、メモリ使用量は中型に抑えられ、ノートPCのメインメモリ16GB級でも現実的に動かせる範囲にあります。「1つだけインストールするなら」と問われれば、筆者はこれを推します。

よくある質問

Q. MacBook Air M5でも30Bクラスのモデルは現実的に動きますか?

M5の世代では統合メモリ容量次第ですが、量子化の効いた30BクラスMoEモデルならロード自体は可能なケースが多いと考えられます。ただし連続稼働ではファンレス設計ゆえのサーマルスロットリングで実効速度が落ちる可能性があり、長時間の本格運用は据え置き環境の方が安定するでしょう。

Q. Qwen 3.6 35B-A3BとQwen3-Coder-30B-A3Bは別物ですか?

コミュニティで「Qwen 3.6 35B-A3B」と呼ばれているモデルは、公式名称がQwen3-Coder-30B-A3B-Instruct。Hugging Faceおよび公式Ollamaライブラリ(qwen3-coder:30b)で同定されています。総パラメータの数え方や通称が揺れているだけで、実体は同じモデルと見てよさそうです。

Q. Gemma 4は現時点で使う価値がないのでしょうか?

断定は避けたいところ。Redditの検証でスコアが低かった要因として、ベンチマーク時点での実行環境の対応状況やテンプレートの相性が影響している可能性があります。同シリーズは今後のハーネス側のアップデートで評価が変わることも十分ありえるため、「数ヶ月後に再評価する」という姿勢が妥当だと筆者は考えます。

Q. ノートPCでローカルLLMを使う際の注意点は?

ファンレス機・薄型機では長時間推論で熱が溜まりやすく、実効速度が公表値から落ちるリスクがあります。また常時AC接続が前提となる消費電力帯に入るため、バッテリー駆動での連続利用は非現実的。据え置き環境への切り分けや、小型高速モデルでの運用設計が現実解になるでしょう。

選び方のまとめと読者への問い

今回の検証から筆者が引き出す結論はシンプル。「最高精度を狙うならQwen3-Coder-30B-A3B、日常のバランス運用ならQwen 2.5 Coder 7B、省メモリ・高速応答の小型枠ならPhi 4 Mini 3.8B」。この3つを軸に、自分のハードと用途に合わせて選べば大きく外さないと考えます。同時に忘れたくないのが、ベンチマーク勝者は「その時点・その環境」の勝者にすぎないという事実。量子化設定・バックエンド・フロントエンド・冷却条件のどれが欠けても、体感は大きく変わってきます。

当サイトではRTX 5080とRTX 5060 Tiの据え置き環境で継続的にローカルLLMを実測していますが、ファンレスノートと据え置きGPUではモデル選びの重心が明確に違うと実感。冷却が効く環境ほど「重めのモデルを安定して回す」方向に振れ、薄型ノート環境ほど「軽いモデルを応答速度優先で選ぶ」方向へ寄っていきます。

最後に読者の皆さんに問いたいのは、あなたは「ベンチマーク1位」を選んでいますか?それとも「2週間後も使い続けているスタック」を選んでいますか? どちらが正解というわけではなく、自分の作業リズムにどちらがフィットしているかの話。コメント欄や検索フィードバックでぜひ教えてほしいところです。

検証モデル数
21モデル(Redditベンチマーク投稿)
評価指標
HumanEval+ / pass@1 / tok/s / メモリ使用量
首位モデル
Qwen3-Coder-30B-A3B-Instruct(コミュニティ呼称:Qwen 3.6 35B-A3B)
検証ハード
MacBook Air M5(ファンレス設計)
当サイト比較環境
RTX 5080 / RTX 5060 Ti / i7-14700F / 96GB RAM
引用元コミュニティ
Reddit r/LocalLLaMA

当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。

タイトルとURLをコピーしました