2026-05

GPU・グラフィックボード

NVIDIA GPUドライバー最適化が決めるAI実効性能|RTX世代別ハードとソフトの相互作用

NVIDIA GPUの実効性能はハードスペックだけでは決まらない。ドライバー最適化・CUDAエコシステム・シェーダーコンパイル処理の各層がAI推論とゲーム双方の体感を左右する仕組みを、RTX 40/50シリーズ別に整理する。
GPU・グラフィックボード

RTX 4070 12GB VRAMの実力をRedditから読み解く|ローカルAIとミドルレンジ構成の優先順位

RTX 4070の12GB VRAMはローカルLLM・SDXLでどこまで戦えるか。r/LocalLLaMAやr/buildapcの議論、NVIDIA公式仕様、実機RTX 5080 16GBの計測値を突き合わせ、ミドルレンジ構成のアップグレード優先順位を整理する。
GPU・グラフィックボード

RTX 5080 で測る ローカル LLM の TTFT|mistral 7B 792ms / phi4-mini 840ms の 1 秒以下応答

TTFTとは、ユーザー入力から最初のトークンが返るまでの時間(ms)である。ローカルLLMの「体感速度」を決めているのは、tokens/secではなくTTFT(Time To First Token)。当サイトのRTX 5080実機計測では...
GPU・グラフィックボード

vLLM v0.20.1解説|v0.20.0の不具合修正・DeepSeek V4対応・推論最適化

vLLM v0.20.1(2026年5月3日公開)を解説。DeepSeek V4ベースモデル対応、TopK=1024デッドロック修正、FlashInfer BF16/MXFP8通信とFP32→FP4変換の最適化を、PR番号と推奨アップグレード手順込みで整理。
GPU・グラフィックボード

AIエージェント自動化のメモリ消費 — VRAM 議論を超える 4 階層モデル

「ローカル LLM なら VRAM 16GB で動く」 — この基準で組んだ構成が、 Claude Code とローカル LLM を並行稼働させた瞬間にシステム RAM を 50GB 食う。 VRAM 議論で完結しない領域が、 AI エージ...
PC構成

Microsoft、Windows 11ゲーミングPC推奨RAMを32GBへ|AI時代のメモリ容量基準を読み解く

MicrosoftがWindows 11ゲーミングPCの推奨RAMを32GBへ更新。AIアシスタント常駐・ブラウザ多タブが標準化した時代に16GBでは不足する理由、ローカルLLMとiGPU視点でのRAM容量基準、DDR5/LPDDR5X規格差、用途別の選定目安をMicrosoft公式・JEDEC一次ソース付きで整理した。
GPU・グラフィックボード

deepseek-r1:8b の TTFT は llama3.1:8b の 4.5 倍

TTFTとは、リクエスト送信から最初のトークンが返るまでの応答時間である。 ローカルLLMの体感速度を決めるのは tokens/sec だけではありません。RTX 5080 で 7 モデルを横並び計測したところ、DeepSeek R1 8B...
GPU・グラフィックボード

llama3.2:3bとは?ドラフト生成で最速のローカルLLM|RTX 5080実測293.9 tok/sを解説

llama3.2:3bはMeta公開30億パラメータの軽量ローカルLLM。RTX 5080実測293.9 tok/sでドラフト用途最速クラス、phi4-mini:3.8bを16%上回る。VRAM 5.1GBで画像生成と並列稼働可、Q4_K_M量子化とOllama運用設定を実機データで解説。
GPU・グラフィックボード

RTX 5080で動かす日本語ローカルLLM比較

RTX 5080とは、NVIDIA Blackwell世代のハイエンドGPU(VRAM 16GB)である。 ローカルで自然な日本語チャットを動かしたいなら、選択肢は2つに集約されます。日本語特化の8Bクラス(Swallow / ELYZA)...
GPU・グラフィックボード

Oculink接続のGPUがOllamaに認識されない原因|デュアル GPU 化で初めて出る現象と OLLAMA_SCHED_SPREAD

OculinkでRTX 5060 TiをOllamaに認識させる手順。CUDA_VISIBLE_DEVICESとOLLAMA_SCHED_SPREADを段階適用し、RTX 5080とのデュアル構成で70B級モデルを動かす実機検証。電源2系統独立の落とし穴と帯域実測、トラブルシュート4手順、モデルサイズ別VRAM表も収録。