ローカルAI環境

GPU・グラフィックボード

RTX 5080実測

TTFTとは、ユーザー入力から最初のトークンが返るまでの時間(ms)である。ローカルLLMの「体感速度」を決めているのは、tokens/secではなくTTFT(Time To First Token)。当サイトのRTX 5080実機計測では...
GPU・グラフィックボード

vLLM v0.20.1リリース解説|DeepSeek V4安定化とFlashInfer/FP4変換の最適化

vLLM v0.20.1(2026年5月3日公開)を解説。DeepSeek V4ベースモデル対応、TopK=1024デッドロック修正、FlashInfer BF16/MXFP8通信とFP32→FP4変換の最適化を、PR番号と推奨アップグレード手順込みで整理。
GPU・グラフィックボード

AIエージェント自動化のメモリ消費 — VRAM 議論を超える 4 階層モデル

「ローカル LLM なら VRAM 16GB で動く」 — この基準で組んだ構成が、 Claude Code とローカル LLM を並行稼働させた瞬間にシステム RAM を 50GB 食う。 VRAM 議論で完結しない領域が、 AI エージ...
GPU・グラフィックボード

deepseek-r1:8b の TTFT は llama3.1:8b の 4.5 倍

TTFTとは、リクエスト送信から最初のトークンが返るまでの応答時間である。ローカルLLMの体感速度を決めるのは tokens/sec だけではありません。RTX 5080 で 7 モデルを横並び計測したところ、DeepSeek R1 8B(...
GPU・グラフィックボード

RTX 5080で動かす日本語ローカルLLM比較

RTX 5080とは、NVIDIA Blackwell世代のハイエンドGPU(VRAM 16GB)である。ローカルで自然な日本語チャットを動かしたいなら、選択肢は2つに集約されます。日本語特化の8Bクラス(Swallow / ELYZA)か...
GPU・グラフィックボード

Oculink接続のRTX 5060 TiがOllamaに認識されない原因|RTX 5080とのデュアルGPU設定手順

OculinkでRTX 5060 TiをOllamaに認識させる手順。CUDA_VISIBLE_DEVICESとOLLAMA_SCHED_SPREADを段階適用し、RTX 5080とのデュアル構成で70B級モデルを動かす実機検証。電源2系統独立の落とし穴と帯域実測、トラブルシュート4手順、モデルサイズ別VRAM表も収録。
GPU・グラフィックボード

Honor WIN H9のローカルAI実行ガイド|6ファン冷却とRTX 5070 Ti Laptopの実力

Honor WIN H9は6ファン冷却とRTX 5070 Ti Laptop GPUを搭載するノートPCで、CPU+GPU合計270WのTDPを支える設計である。長時間のローカルLLM推論や画像生成で持続性能を引き出したい個人ユーザーに向いている。
GPU・グラフィックボード

Qwen3.6-27Bとは?Dense 27BコーディングLLMをローカルGPUで動かすガイド

Qwen3.6-27BはAlibabaのDense 27Bコーディング特化オープンウェイトLLMである。4bit量子化版なら16GB VRAM帯のコンシューマGPUで動かせる現実的な選択肢で、llama.cpp + Unsloth GGUFでのローカル運用に向いている。
GPU・グラフィックボード

ONEXStationに関するよくある疑問7選|Ryzen AI Max+ 395ミニPCの実力を全部まとめて解説

ONEXStationはOneXPlayerが2026年4月11日に発売したRyzen AI Max+ 395(Strix Halo)搭載のAI向けミニPCです。ローカルLLM性能・価格妥当性・dGPU構成との違い・TDP可変・輸入コストを公式仕様と一次ソースで整理します。
GPU・グラフィックボード

llama.cpp対応プラットフォーム完全ガイド

llama.cppとは、CPUとGPUの双方でLLMをローカル実行するための軽量推論エンジンだ。 llama.cppの公式リリースを開くと、ひとつのタグに対して20種類以上のビルドが並んでいる。macOSのApple Silicon版、In...