GPU・グラフィックボード 16GB VRAMで38%あふれる qwen3.5:35b-a3b、2枚目でオフロード解消し約1.9倍に|RTX 5080+5060 Ti(Oculink)実測
RTX 5080単体では35B MoE(qwen3.5:35b-a3b)の約38%がCPUへあふれ65.99 tok/s。Oculink接続の2枚目GPUで全量VRAM化(オフロード0%)し、125.87 tok/sへ約1.9倍に。効く決め手はVRAM容量(あふれの解消)という当サイトの実測を解説します。