巨大オープンモデルは手元で動くのか比較|GLM-5.2・Kimi K2.6・Qwen3.5 122Bの必要メモリ早見表

巨大オープンモデル ローカルに関する記事のアイキャッチ画像 - 巨大オープンモデルは手元で動くのか比較 ローカルLLM

オープンウェイトとして高い評価を集めるGLM-5.2やKimi K2.6を、自宅のPCで動かせるのか。重みが公開され、ダウンロード自体は誰でもできる。ところが、いざ動かそうとすると「載せる場所がない」という壁に突き当たる。これらの巨大オープンモデルは総パラメータが100B〜1Tに達し、量子化してもファイルが数十〜数百GBあるからだ。

この記事では、2026年に相次いで公開された主要な巨大オープンモデルを「必要メモリ」で横並びにする。総パラメータの数字ではなく、配布される量子化ファイルのサイズで見ると、「どこまでが手元で届く範囲なのか」がはっきりする。なお各モデルの巨大さは桁が大きく、当サイトの実機(RTX 5080+5060 Ti / 16GB級VRAM)では計測できないため、サイズと必要メモリは各配布元が公表する値(2026年6月時点)を用い、当サイトの実測は「手元で実際に動く小〜中型モデル」の対比にのみ使う。

この記事の要点

  • 巨大オープンモデルが動くかどうかは、総パラメータではなく「量子化後のサイズ=重みを保持するメモリの下限」で決まる(実行時はKVキャッシュ等の余裕も要る)
  • 必要メモリは122B級の約77GBから1T級の約340GBまで幅があり、「巨大=一律に不可能」ではない
  • 家庭用の専用VRAM GPU(16〜32GB)はどれも単体では届かず、現実的なルートは大容量ユニファイドメモリか、十分なRAMとVRAMを組み合わせたオフロード構成
  • ただし容量要件を満たしても、メモリ帯域や構成で体感速度は大きく変わる。「動く」と「実用」は別で、手元で実用したいなら射程内の小〜中型モデルが現実的

2026年に一気に増えた「巨大オープンモデル」

ここ数か月で、フロンティアに迫る性能をうたうオープンウェイトのモデルが立て続けに公開された。代表的なものを並べると、規模感がつかめる。

GLM-5.2は、中国のZ.ai(Zhipu AI)が公開した744B級のMoEモデルで、活性パラメータは40B、コンテキストは100万トークン、ライセンスはMIT(なおHugging Faceのモデルサイズ表記は753B paramsで、資料により総パラメータ表記に揺れがある)。Kimi K2.6はMoonshot AIによる1T(1兆)パラメータ級・活性32BのMoEで、改変版MITで配布される(より新しい後継のKimi K2.7 CodeとそのGGUF量子化も公開済みだが、本記事では比較時点でのK2.6のローカル量子化サイズを掲載する。K2.7 Codeを使う場合は最新の配布ページでサイズを確認してほしい)。MiniMax M2.7は230B・活性10BのMoEだが、ライセンスはMiniMax独自の非商用ライセンスで、個人・研究などの非商用利用は許可される一方、商用利用にはMiniMaxの事前書面許可が必要で、禁止用途も定められている。Qwen3.5-122B-A10BはAlibabaのモデルで、122B・活性10Bのスパース構成を採り、ライセンスはApache 2.0。いずれもMoE(Mixture-of-Experts)で、見出しの総パラメータは大きい一方、1トークンあたりに実際に使われる活性パラメータは10B〜40B程度に抑えられている。

共通するのは、重みが公開されている点と話題性だ。特に、特定の企業のサーバに依存せず、高い性能のモデルを自分の管理下に置いて検証・改変できる点が、開発者やプライバシーを重視する層の関心を集めている。ただしライセンスはMIT・改変MIT・Apache 2.0・非商用ライセンスと分かれ、MiniMaxのように商用利用には別途許可が要るものもあるため、利用前に各モデルのライセンス確認が欠かせない。そして「重みが手に入る」ことと「手元で動かせる」ことは、まったく別の話になる。次の節で、その分かれ目を具体的に見ていく。

見かけの総パラメータに騙されない|効くのは「量子化サイズ=重み保持メモリの下限」

巨大モデルを手元で動かせるかは、総パラメータの数字を眺めても判断できない。実際に効くのは、配布される量子化ファイルのサイズだ。これがそのまま、モデルを保持するのに必要なメモリ(GPUのVRAM、またはユニファイドメモリ/システムRAM)の下限になる。

フル精度(FP16)のままだと、サイズは桁外れになる。GLM-5.2のFP16版はディスクで約1.51TBに達する。Kimi K2.6はネイティブINT4系で配布され、UnslothのGGUFではQ8相当が約595GB、BF16が約2.05TBに達する。いずれも個人の環境にそのまま載る数字ではない。そこで実用上は、重みを2〜4ビットに圧縮した量子化版を使う。近年はUnslothのような配布元が、重要な層だけ高ビットに保つ「動的量子化(Dynamic GGUF)」を提供しており、品質劣化を抑えながら大幅にサイズを削れるようになった。

圧縮の効きは大きい。GLM-5.2を例にとると、FP16の約1.51TBから、4-bit(UD-Q4_K_M)で約466GB、2-bitの動的量子化(UD-IQ2_M)で約239GB、最小の1-bit(UD-IQ1_M)で約228GB、より小さい1bit量子化では約217GBまで落ちる。Kimi K2.6も、Unsloth GGUFのQ8相当 約595GB/BF16 約2.05TBから、2-bitの動的量子化で約340GBまで下がる(実行には350GB以上のメモリが目安とされる)。圧縮の段階を一段下げるごとに必要メモリは大きく減るが、品質も少しずつ削られていく(品質差は本記事では未評価で、配布元の量子化ベンチや自分の用途での確認が要る)。どこまで落とすかは「載るかどうか」と「使えるかどうか」の綱引きになる。

それでも、巨大モデルの量子化版は依然として数百GB単位であることに変わりはない。圧縮しても「家庭のGPUに載る」水準には届かないモデルが大半だ。どこまで圧縮すれば自分の機材に載るのか——その下限を主要モデルで横並びにしたのが次の早見表だ。

巨大オープンモデルの必要メモリ早見表

各モデルを、実用上選ばれる最小級の量子化(おおむね2〜4ビット)でのファイルサイズと、それを保持するのに要するメモリで整理した。数値は各配布元が公表する2026年6月時点の値で、当サイトの実測ではない。なお量子化ファイルのサイズは必要メモリの下限の目安であり、実行時にはKVキャッシュやコンテキスト長、ランタイムの分だけ、これを上回る余裕が要る。各モデルの量子化サイズはUnsloth等が配布するDynamic量子化GGUFを基準とした目安で、2026年6月20日に各Hugging Face配布ページで確認した値である(量子化名・配布更新により変動する)。また、この容量はGGUF量子化重みを短〜中程度のコンテキストでロードする目安であり、各モデル公式の最大コンテキストや高並列サービングまで含む必要メモリではない。

モデル 総 / 活性 ライセンス 比較に用いる量子化サイズ(重み保持の下限・実行時は追加メモリ要) 容量要件を満たし得る構成例
Qwen3.5-122B-A10B 122B / 10B Apache 2.0 4-bit UD-Q4_K_XL 約 77GB Mac Studio(96GB)・Ryzen AI Max(128GB)等
MiniMax M2.7 230B / 10B 非商用ライセンス(商用は事前許可が必要) 4-bit UD-IQ4_XS 約 108GB 128GB機(システムメモリ込み・GPU割当だけでは不足の可能性)/96GB Mac不可
GLM-5.2 744B / 40B MIT 2-bit UD-IQ2_M 約 239GB(推奨総メモリ約245GB) 旧大容量Mac(中古)・ワークステーション・多GPU
Kimi K2.6 1T / 32B 改変MIT 2-bit UD-Q2_K_XL 約 340GB(要 350GB 以上) ワークステーション / 多GPUクラスタ
巨大オープンモデルの必要メモリと、現行新品で載る機材 Qwen3.5-122Bは約77GB、MiniMax M2.7は約108GB、GLM-5.2は約245GB、Kimi K2.6は約350GB。現行新品のMac Studioは96GB、Ryzen AI Maxは128GBが上限で、GLM-5.2やKimi級はワークステーションや多GPUが必要。 必要メモリ(2〜4bit量子化の目安)と、現行新品で載る機材 Mac Studio 96GB Ryzen AI Max 128GB → ワークステーション・多GPUが必要 Qwen3.5 122B 77GB MiniMax M2.7 108GB GLM-5.2 245GB Kimi K2.6 350GB
必要メモリの段差と到達範囲。現行新品で買えるユニファイドメモリ機は Mac Studio 96GB/Ryzen AI Max 128GB が上限で、Qwen3.5-122B は射程、MiniMax M2.7 は Ryzen のみ、GLM-5.2・Kimi K2.6 はワークステーション/多GPUが必要。数値は2026年6月時点の配布GGUF目安。

DeepSeek系(V4は V4-Pro が1.6T/活性49B、V4-Flash が284B/活性13B のMoE)も数百GB帯の巨大モデルだが、版や配布形式で必要メモリが変わるため本表の対象外とした。サーバ向けの量子化や配信の話はvLLMでのDeepSeek V4運用解説で扱っているので、そちらを参照してほしい。

モデルごとの性格も押さえておくと、選ぶ際の見通しが立つ。GLM-5.2とKimi K2.6は、コーディングや長時間の自律実行(エージェント)で評価が高く、フロンティアの商用モデルに迫る性能をうたう。MiniMax M2.7は256のエキスパートから8つを選ぶ構成で、こちらもエージェント志向のモデルだが、ライセンスは非商用が前提で商用利用には許可が要る点に注意したい。Qwen3.5-122B-A10Bはこの4つの中では最も小さく、ネイティブのマルチモーダル対応を持つ。本記事で扱うモデル群では、ベンダーが高性能をうたう大型MoEほど、必要メモリも大きくなる。

表から読み取れるのは、巨大オープンモデルといっても必要メモリには大きな幅があるという点だ。122B級が約77GB、230B級が約108GB、744B級が約239GB、1T級が約340GB——「巨大だから一律に無理」ではなく、規模に応じてはっきりとした段差がある。自分が動かしたいモデルがこの表のどこに位置するかを確かめれば、必要なマシンの当たりがつく。

活性パラメータは計算量に効く|メモリ容量は総量で決まる

MoEモデルの「活性10B」「活性40B」という数字を見て、「活性が小さいなら軽いのでは」と考えると、ここで足をすくわれる。活性パラメータが効くのは計算量と速度であって、メモリ容量ではないからだ。

MoEは、入力ごとに一部のエキスパート(専門家ネットワーク)だけを使う。だから1トークンを生成する計算量は活性パラメータ相当で済み、総パラメータの割に演算は軽い(配布元は一部構成での速度例を示すが、本記事では巨大モデルのtok/sは未測定で、実速度は構成に依存する)。しかし、どのエキスパートが選ばれるかは入力次第で変わるため、全エキスパート=総パラメータ分の重みをメモリに載せておく必要がある。結果として、必要メモリは活性ではなく総量で決まる。厳密には、すべてのエキスパートを高速メモリに置くのが望ましいという話で、実装によってはRAMとVRAMの合算やオフロードでも動く。ただしその場合は速度が落ちやすい。

この「活性が小さいから軽い、という誤解」は、GLM-5.2単体でも同じ落とし穴になる。744B・活性40Bでも、必要メモリは744B相当だ。モデル別の深掘りはGLM-5.2をローカルで動かせるかで詳しく解説している。

家庭用の専用GPUでは届かない|現実的なルートは大容量ユニファイドメモリかオフロード

では、表のメモリ要件を家庭の機材で満たせるか。専用VRAMを積む家庭用GPUから見ていくと、答えはすぐに出る。

現行のハイエンドであるRTX 5090でもVRAMは32GB。最小の122B級(約77GB)にすら、単体では届かない。16GB VRAM単体では27B〜32B級を快適に載せにくいという壁の延長線上に、巨大モデルははるか遠くに位置している。マルチGPUで合算する手もあるが、家庭用では現実的に数枚が限界で、122B級ならともかく744Bや1T級を専用VRAMだけで賄うのは非現実的だ。

消費者の手が届く現実的なルートは、大容量ユニファイドメモリのマシン、または十分なシステムRAMとVRAMを組み合わせてオフロードする構成になる。ユニファイドメモリはCPUとGPUが同じメモリ空間を共有する構成だ。ただし、ここで注意がいる。Apple SiliconのMac Studioは、以前はM3 Ultraで256GB・512GBの大容量構成も選べたが、2026年5月頃のメモリ需給の影響でこれらが削られ、現在(執筆時点のApple Store構成画面で確認)はM4 Max・M3 Ultraとも96GBが上限になっている。新品で大容量を狙えるのは、AMDのRyzen AI Max/Strix Halo系(最大128GB。ただしGPUへ割り当て可能な容量はさらに少ない)あたりに限られる。これらは専用GPUのVRAMがなくても、容量の大きさで巨大モデルを「載せる」ことができる。Apple Siliconでのローカル実行が注目されるのはこのためだ。

ただし、ここでも段差がある。現行新品で買えるユニファイドメモリ機は、Mac Studioが96GB、Ryzen AI Max系が128GB(GPUに割り当て可能な容量はさらに少ない)が上限だ。この範囲で4-bitが載るのはQwen3.5-122B-A10B(約77GB)まで。MiniMax M2.7(約108GB)は、128GBのRyzen AI Maxならシステムメモリ総量としては射程に入る。ただしAMDのVGM(可変グラフィックスメモリ)の例では128GB機でGPU側へ96GBを割り当てる構成が示されており、108GB全体をGPU側に載せる前提にはしにくい。CPU/RAM併用や短〜中コンテキストを前提に考えるのが安全だ(96GBのMacには載らない)。GLM-5.2(約239GB)や、実行目安350GB超のKimi K2.6級になると、現行新品の単体機では足りず、以前の大容量Mac(中古・整備済み)、ワークステーション、多GPU構成が必要になる。VRAMに収まらない分をシステムRAMへ逃がすRAMオフロードという手もあるが、帯域が一気に落ちるため、巨大モデルでは実用速度を保ちにくい。

容量は足りても帯域が足りない|速度を決める第二の壁

大容量ユニファイドメモリで巨大モデルを「載せる」ことはできても、その先にもう一段の壁がある。トークンの生成速度を決めるのは、メモリの容量ではなくメモリ帯域だからだ。

LLMの推論は、1トークンを生成するたびに大量の重みをメモリから読み出す処理が中心になる。この読み出しの速さ、つまり帯域がそのまま生成速度に効く。専用GPUのVRAMは帯域が広く、ハイエンドでは1秒あたり数百GB〜1TB級に達する。だからこそ、モデルが載りさえすれば速く回せる。一方、ユニファイドメモリは容量の大きさで勝るものの、帯域は専用VRAMに及ばないことが多い。結果として、巨大モデルをユニファイドメモリ機に「載せられた」としても、専用GPUのような速度は出にくい。

容量で届くことと、帯域で速く回ることは別の条件であり、巨大モデルではこの両方を同時に満たすのが難しい。家庭用GPUは帯域こそ広いが容量が足りず、ユニファイドメモリ機は容量は足りても帯域が見劣りする——この非対称が、巨大モデルのローカル運用を二重に難しくしている。

「動く」と「実用」は別|最小量子化の速度と品質

仮にメモリ要件を満たすマシンを用意できたとしても、そこで得られるのは「とりあえず動く」状態であって、「実用的に速い」とは限らない。

速度は、マシン構成・量子化・メモリ帯域・コンテキスト長によって大きく変わる。十分なメモリ帯域を確保できれば実用的な速度が出る構成もある一方、容量ぎりぎりで載せた場合やオフロードを多用する場合は、待ち時間が一気にかさむ。当サイトでは巨大モデルの速度を実測していないため、ここでは一律のtok/s評価は行わず、前節までの容量要件の比較にとどめる。いずれにせよ、容量を満たせたことが、そのまま快適さを保証するわけではない。最小量子化は品質面でも、動的量子化で重要層を保つとはいえ、2-bit級では多少の劣化が避けられない。

つまり巨大オープンモデルのローカル運用は、「動かせる権利」が公開されただけで、「快適に使える機材」が広く手に入るわけではない。ベンチマークの数字をどう読むかについてはローカルLLMのベンチ数値の読み方もあわせて参考にしてほしい。

では手元のGPUで何を動かすか|巨大でなく射程内の小〜中型

ここまでを踏まえると、家庭用GPUを持つ人にとっての現実的な答えははっきりしている。巨大オープンモデルを無理に追わず、手元の16〜32GB VRAMで実際に動く小〜中型モデルを選ぶことだ。

この帯域では、選択肢は十分にある。コーディング用途なら、RTX 5080で動かすローカルLLMや、Dense 27Bを単GPUで動かすQwen3.6-27Bが実用域に入る。MoEなら、16GB一枚では少しあふれる35B級も、別記事の実機検証では、特定の条件で2枚目のGPUによりオフロードが解消し約1.9倍になった例がある(測定条件・ログはリンク先を参照)。まず7〜8B級から始めるなら最初に入れる7-8BローカルLLMが入口になる。

そして、GLM-5.2やKimi K2.6級の性能をどうしても使いたい場合は、機密性やコストが許すなら、ローカルにこだわらずクラウドのAPIで使うのも現実的な選択肢になる。巨大オープンモデルの公開がもたらした本当の価値は「自宅のGPUで動く」ことよりも、特定ベンダーに縛られずに重みを検証・改変できる自由のほうにある。

まとめ

巨大オープンモデルが手元で動くかは、総パラメータではなく量子化後の必要メモリで決まる。122B級の約77GBから1T級の約340GBまで段差があり、「巨大=一律不可」ではない。一方で、家庭用の専用VRAM GPU(16〜32GB)はどれも単体では届かず、現実的な消費者ルートは大容量ユニファイドメモリか、RAMとVRAMを組み合わせたオフロード構成になる。ただし現行新品のMac Studioは2026年5月頃に大容量構成が削られ96GBが上限となり、新品で狙えるのはRyzen AI Max系の128GBあたりまで。この範囲で4-bitが載るのはQwen3.5-122B(約77GB)級と、短〜中コンテキスト前提のMiniMax M2.7(約108GB)まで。GLM-5.2(2-bit約245GB)や、350GB超を要するKimi K2.6級は、旧大容量Mac(中古)・ワークステーション・多GPUが要る。容量を満たせても、速度は構成とメモリ帯域に大きく左右される(本記事では未実測)。

手元で動かせない巨大モデルでも、クラウドなら使えます。GLM-5.2を例にした料金・速度・Claude/Codexとの比較は、姉妹サイトのGLM-5.2はローカルではなくクラウドで使うべきか|Claude・Codex比較と料金の目安で扱っています。

手元のGPUで実用したいなら、巨大モデルを追うより、射程内の小〜中型モデルを選ぶのが現実的だ。自分の常用したいモデルが「載るのか」を、総パラメータではなく量子化サイズで確かめる——これが、話題に振り回されないための実用的な判断基準になる。

よくある質問(FAQ)

Q: RTX 5090を複数枚そろえれば巨大モデルも動きますか?

A: 最小の122B級(4-bit 約77GB)なら、32GBのGPUを3枚程度そろえれば理論上は届く。ただし744Bや1T級(239〜340GB)は、家庭用で現実的に積める枚数では賄えない。配線・電源・スロットの制約もあり、巨大モデル前提なら大容量ユニファイドメモリ機のほうが現実的だ。

Q: Mac Studioを買えばGLM-5.2は快適に動きますか?

A: 現行新品では難しい。Mac Studioは以前M3 Ultraで256GB・512GBを選べたが、2026年5月頃のメモリ需給で削られ、現在はM4 Max・M3 Ultraとも96GBが上限だ。GLM-5.2の2-bit版(推奨総メモリ約245GB)は96GBには到底届かない。以前の大容量Mac(中古・整備済み)や、ワークステーション・多GPU構成を確保できれば容量は満たせるが、速度は別問題で快適とは限らない。「載る」と「快適」は別と考えておきたい。

Q: 量子化を一番小さくすれば品質はどうなりますか?

A: 動的量子化は重要な層を高ビットで保つため、単純な2-bit化より劣化を抑えやすい。ただし品質差は本記事では実測しておらず、配布元の量子化ベンチや自分の環境で確認するのが確実だ。品質を重視するなら、メモリに余裕がある範囲でより高いビット(4-bit以上)を選ぶのが無難だ。

Q: いま一番現実的に高性能なローカル運用はどれですか?

A: 巨大モデルを狙うなら、現行新品ではRyzen AI Max系の128GB機でQwen3.5-122B-A10B(約77GB)の4-bit級を動かすあたりが目安になる。MiniMax M2.7(約108GB)はシステムメモリ込みなら射程だが、GPU割り当てだけでは不足する可能性があり、CPU/RAM併用・短〜中コンテキスト前提で見ておきたい(Mac Studioは現在96GBが上限)。GLM-5.2やKimi級は旧大容量Mac・ワークステーションが要る。家庭用GPUで実用速度を求めるなら、巨大モデルではなく16〜32GBで動く小〜中型モデルを選ぶほうが満足度は高い。

Q: GLM-5.2とKimi K2.6では、ローカルで動かすならどちらが現実的ですか?

A: 必要メモリで見ると、GLM-5.2の2-bit版(約239GB)のほうがKimi K2.6(約340GB)より一段小さく、確保すべきメモリの壁は低い。とはいえ現行新品のMac Studioは96GBが上限なので、GLM-5.2でも旧大容量Mac(中古・整備済み)やワークステーション・多GPU構成が要る。Kimi K2.6は1Tパラメータ級で2-bitでも350GB以上を要し、さらに大規模な構成が前提になる。もっとも、どちらも家庭用GPU単体では届かない点は変わらない。

Q: 活性パラメータが同じ10BのQwen3.5-122BとMiniMax M2.7で、必要メモリが違うのはなぜですか?

A: 速度に効く活性パラメータは同じ10Bでも、メモリは総パラメータで決まるためだ。総量はMiniMax M2.7が230B、Qwen3.5-122Bが122Bと約1.9倍違い、必要メモリも同じ4-bit級でMiniMaxのほうが大きい(約108GB対約77GB)。活性が同じでも、総パラメータが大きいほどメモリの壁は高くなる。

当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。

本記事は AIハードウェア図鑑 編集部 が記載時点の情報をもとに執筆。各モデルのサイズ・必要メモリは配布元が公表する2026年6月時点の値で、量子化版の追加やモデル更新で変動する可能性がある。一定期間経過した内容は再検証を推奨する。

参考資料

タイトルとURLをコピーしました