ローカルLLM デュアルGPU

GPU・グラフィックボード

デュアルGPUでローカルLLMを動かす|Ollama自動分散の実測と二枚目が遊ぶ落とし穴(RTX 5080+5060 Ti)

デュアルGPU(RTX 5080 + RTX 5060 Ti)で、16GBに載らない大型ローカルLLM(qwen3.5:35b-a3b 等)を動かした実測。Ollamaは設定なしで自動的に二枚へ分散し、筆者環境・Ollama 0.23.3・num_ctx=4096では100% GPUロードでqwen 約93・gemma 約109 tok/s を確認。OLLAMA_SCHED_SPREADは通常不要。複数serve競合で二枚目が遊ぶ落とし穴も解説する。