ローカルLLMの量子化フォーマットの選び方

GPU・グラフィックボード

ローカルLLMの量子化フォーマットの選び方|Q4_K_M〜Q8・QATを精度・サイズと16GB VRAMで見極める

量子化フォーマットとは、LLMの重みを低ビットに圧縮し容量と速度を稼ぐ方式。 Hugging Faceで同じモデルのページを開くと、量子化の種類がずらりと並びます。Q4_K_M、Q5_K_M、Q6_K、Q8_0、さらにQAT版――名前だけでは何がどう違うのか、すぐには判断できません。