Ring-2.6-1T

GPU・グラフィックボード

VRAMに収まらない大型LLMをRAMオフロードで動かす

VRAMに収まらない大型LLMを、層をCPUのRAMへ分割するRAMオフロード(-ngl指定)で動かす手法を解説。RTX 5080(VRAM 16GB)で12B〜35BクラスのモデルのGPU/CPU分割比とtokens/secを実測し、速度低下の構造的な原因をまとめた。