GPU・グラフィックボード VRAMに収まらない大型LLMをRAMオフロードで動かす VRAMに収まらない大型LLMを、層をCPUのRAMへ分割するRAMオフロード(-ngl指定)で動かす手法を解説。RTX 5080(VRAM 16GB)で12B〜35BクラスのモデルのGPU/CPU分割比とtokens/secを実測し、速度低下の構造的な原因をまとめた。 2026.06.16 AIハードウェア図鑑 編集部 GPU・グラフィックボードPC構成ローカルAI環境