GPU・グラフィックボード MTP(マルチトークン予測)でローカルLLMは本当に速くなるか|RTX 5080実測、非MoEで1.69倍・MoEは1.0〜1.4倍と構成次第
MTP(マルチトークン予測)でローカルLLMが何倍速くなるかをRTX 5080で実測。非MoEのgemma-4-12bは1.69倍、MoEは1.0〜1.4倍と量子化・GPU構成で振れる。効きを分けるのは1順伝播あたりのボトルネック(帯域/GPU間の受け渡し待ち)をMTPが薄められるか。llama.cppの実測で解説。