投機的デコードアーカイブ - AIハードウェア図鑑

MTP（マルチトークン予測）でローカルLLMは本当に速くなるか｜RTX 5080実測、非MoEで1.69倍・MoEは1.0〜1.4倍と構成次第

MTP（マルチトークン予測）でローカルLLMが何倍速くなるかをRTX 5080で実測。非MoEのgemma-4-12bは1.69倍、MoEは1.0〜1.4倍と量子化・GPU構成で振れる。効きを分けるのは1順伝播あたりのボトルネック（帯域/GPU間の受け渡し待ち）をMTPが薄められるか。llama.cppの実測で解説。

2026.06.22

AIハードウェア図鑑編集部

GPU・グラフィックボードPC構成ローカルAI環境