GPU・グラフィックボード ローカルLLMの量子化フォーマットの選び方|Q4_K_M〜Q8・QATを精度・サイズと16GB VRAMで見極める 量子化フォーマットとは、LLMの重みを低ビットに圧縮し容量と速度を稼ぐ方式。 Hugging Faceで同じモデルのページを開くと、量子化の種類がずらりと並びます。Q4_K_M、Q5_K_M、Q6_K、Q8_0、さらにQAT版――名前だけでは何がどう違うのか、すぐには判断できません。 2026.06.28 AIハードウェア図鑑 編集部 GPU・グラフィックボードPC構成ローカルAI環境