Ring-2.6-1T

VRAMに収まらない大型LLMをRAMオフロードで動かす

VRAMに収まらない大型LLMを、層をCPUのRAMへ分割するRAMオフロード（-ngl指定）で動かす手法を解説。RTX 5080（VRAM 16GB）で12B〜35BクラスのモデルのGPU/CPU分割比とtokens/secを実測し、速度低下の構造的な原因をまとめた。

AIハードウェア図鑑編集部

GPU・グラフィックボードPC構成ローカルAI環境