GPU・グラフィックボードアーカイブ - 4ページ目 (10ページ中)

ローカルLLM推論エンジン比較｜Ollama・llama.cpp・LM Studio・vLLMの選び方

Ollama, llama.cpp, LM Studio, vLLMの4大ローカルLLM推論エンジンを、速度・手軽さ・マルチGPU対応の3軸で徹底比較。RTX 5080+5060 Ti環境での実測データも交え、LM Studioのテンソル並列対応がもたらす影響や、あなたの環境に最適なエンジンの選び方を解説します。

2026.06.12

AIハードウェア図鑑編集部

GPU・グラフィックボードローカルAI環境

Thunderbolt 5でローカルAIを外付け強化する選択肢

OWC Stack AIは、Thunderbolt 5でローカルAIを外付け強化するアクセラレータ兼ストレージハブ。2026年5月21日発表、価格・詳細スペックは未公開です。VRAMの壁を外付けで越える発想の意味と、TB5の帯域が内蔵直結に劣る現実を、eGPU/Oculink運用の実感から整理します。

2026.06.11

AIハードウェア図鑑編集部

GPU・グラフィックボードPC構成ローカルAI環境

Ollama 0.30系は本当に遅いのか？ RTX 5080／5060 Tiで速度低下とCPUオフロードの罠を検証

Ollama 0.30系は本当に遅いのか。RTX 5080/5060 Tiで0.23.3・0.30.6・0.30.7を実測比較。0.30.6のqwen3:8b速度低下は0.30.7で回復し、体感の正体はnum_ctx自動拡大・GPU配置・CPUオフロードだと切り分け、gemma4:12b対応も解説します。

2026.06.10

AIハードウェア図鑑編集部

GPU・グラフィックボードローカルAI環境

AIコーディング用ローカルLLMの必要スペック｜RTX 5080実機で7B〜14B級のVRAMと速度を実測

AI支援コーディング向けPCはクラウドAPI型とローカルLLM型で要件が分かれます。Claude Code等はGPU不要でCPU・RAM・SSDが効き、ローカル併用はVRAM容量が律速。RTX 5080 16GB実機で7B〜14B級を実測し、用途・予算別の実用スペックを整理しました。

2026.06.10

AIハードウェア図鑑編集部

GPU・グラフィックボードPC構成ローカルLLM

DDR5メモリはクロックとレイテンシのどちらを優先すべきか

DDR5メモリは『クロック(6400MT/s)』と『低レイテンシ(CL30)』のどちらを優先すべきか。判断軸は2つ——AMD環境で1:1(UCLK=MCLK)が維持できるか、用途がGPU常駐のローカルAIかCPUオフロードを含む高負荷処理か。ゲームでは体感差は小さく、AIではCPUオフロード時に帯域が効いてきます。

2026.06.09

AIハードウェア図鑑編集部

GPU・グラフィックボードPC構成ローカルAI環境

AIハードウェアはいつ買うべきか｜クラウドAIとローカルLLMの天秤で考える

AIハードウェアはいつ買うべきか。価格を左右するのはクラウドAIの普及とローカルLLMの進化という2つの力です。2026年はメモリやSSDの価格に上昇圧力が続き、次世代のSUPERやRTX 60は公式発表がないなど判断材料が変わりました。価格が決まる仕組みから、今買う人と待つ人の条件を整理します。

2026.06.07

AIハードウェア図鑑編集部

GPU・グラフィックボードPC構成ローカルLLM

VRAM 16GBでローカルLLMのコンテキスト長はどこまで伸ばせるか｜KVキャッシュ量子化の実測

長文入力でつまずくとき、モデル本体とは別に、コンテキスト側のKVキャッシュがVRAMを食い尽くしているのが主因になっていることがある。前回、VRAM 16GBのGPUでGemma 4 12Bを動かす記事を書いた。モデル本体さえ16GBに収ま...

2026.06.06

AIハードウェア図鑑編集部

GPU・グラフィックボードローカルAI環境ローカルLLM

VRAM 16GBでGemma 4 12Bを動かす｜RTX 5080/5060 Ti実測の速度・VRAMと16GB級LLMの選び方

Google が Gemma 4 12B を公開したのが 2026 年 6 月 3 日。エンコーダを持たない統合型のマルチモーダルモデルで、Google 自身が「16GB の VRAM またはユニファイドメモリを積んだノートで動く」サイズだ...

2026.06.04

AIハードウェア図鑑編集部

GPU・グラフィックボードPC構成ローカルAI環境

ローカルLLMの量子化はどれを選ぶか｜Q4_K_M・Q8_0・FP16のVRAMと速度を実測比較

Ollama でモデルを探していると、同じモデル名でもタグがいくつも並んでいることに気づく。たとえば llama3.2:3b を引こうとすると、3b-instruct-q4_K_M や 3b-instruct-q8_0、3b-instruc...

2026.06.03

AIハードウェア図鑑編集部

GPU・グラフィックボードローカルAI環境ローカルLLM

デュアルGPUでローカルLLMを動かす｜Ollama自動分散の実測と二枚目が遊ぶ落とし穴（RTX 5080+5060 Ti）

デュアルGPU(RTX 5080 + RTX 5060 Ti)で、16GBに載らない大型ローカルLLM(qwen3.5:35b-a3b 等)を動かした実測。Ollamaは設定なしで自動的に二枚へ分散し、筆者環境・Ollama 0.23.3・num_ctx=4096では100% GPUロードでqwen 約93・gemma 約109 tok/s を確認。OLLAMA_SCHED_SPREADは通常不要。複数serve競合で二枚目が遊ぶ落とし穴も解説する。

2026.06.02

AIハードウェア図鑑編集部

GPU・グラフィックボードPC構成ローカルAI環境