推論モデル

GPU・グラフィックボード

推論モデルとは|deepseek-r1とqwen3 thinkingのRTX 5080実測VRAM消費とtokens/sec差を解説

推論モデルは回答前にthinking連鎖を内部展開するLLM群である。RTX 5080実測でdeepseek-r1:8bはVRAM 10.1GB・約104 tok/s、qwen3:14b thinkingは10.2GB・約74 tok/sを記録。Web標準値の約1.5倍を見積もる選定基準を解説する。