推論モデルアーカイブ - AIハードウェア図鑑

推論モデルとは｜deepseek-r1とqwen3 thinkingのRTX 5080実測VRAM消費とtokens/sec差を解説

推論モデルは回答前にthinking連鎖を内部展開するLLM群である。RTX 5080実測でdeepseek-r1:8bはVRAM 10.1GB・約104 tok/s、qwen3:14b thinkingは10.2GB・約74 tok/sを記録。Web標準値の約1.5倍を見積もる選定基準を解説する。

2026.05.18

AIハードウェア図鑑編集部

GPU・グラフィックボードPC構成ローカルAI環境