ローカルLLM

GPU・グラフィックボード

Qwen3.6-35B-A3B とは?MoE型マルチモーダル LLM のローカル実行ガイド

Qwen3.6-35B-A3B は総350億・動作30億パラメータのMoE型マルチモーダルLLMである。FP8版34.87GBでRTX 5090級のローカル実行が可能で、視覚言語タスクに向いている。スペックと実行環境を整理する。
GPU・グラフィックボード

RTX 5080でTTFTが速いLLM 8モデル実測|phi4-mini 1194msが最速、リアルタイム対話の選定基準

TTFTとは、ユーザー送信から最初のトークンが返るまでの時間である。 チャットUIで「送信ボタンを押してから最初の文字が画面に出るまで」を短縮したいなら、見るべき指標はtok/sではなくTTFT (Time to First Token)。...
GPU・グラフィックボード

vLLM v0.20.1解説|v0.20.0の不具合修正・DeepSeek V4対応・推論最適化

vLLM v0.20.1(2026年5月3日公開)を解説。DeepSeek V4ベースモデル対応、TopK=1024デッドロック修正、FlashInfer BF16/MXFP8通信とFP32→FP4変換の最適化を、PR番号と推奨アップグレード手順込みで整理。
PC構成

Microsoft、Windows 11ゲーミングPC推奨RAMを32GBへ|AI時代のメモリ容量基準を読み解く

MicrosoftがWindows 11ゲーミングPCの推奨RAMを32GBへ更新。AIアシスタント常駐・ブラウザ多タブが標準化した時代に16GBでは不足する理由、ローカルLLMとiGPU視点でのRAM容量基準、DDR5/LPDDR5X規格差、用途別の選定目安をMicrosoft公式・JEDEC一次ソース付きで整理した。
GPU・グラフィックボード

deepseek-r1:8b の TTFT は llama3.1:8b の 4.5 倍

TTFTとは、リクエスト送信から最初のトークンが返るまでの応答時間である。 ローカルLLMの体感速度を決めるのは tokens/sec だけではありません。RTX 5080 で 7 モデルを横並び計測したところ、DeepSeek R1 8B...
GPU・グラフィックボード

llama3.2:3bとは?ドラフト生成で最速のローカルLLM|RTX 5080実測293.9 tok/sを解説

llama3.2:3bはMeta公開30億パラメータの軽量ローカルLLM。RTX 5080実測293.9 tok/sでドラフト用途最速クラス、phi4-mini:3.8bを16%上回る。VRAM 5.1GBで画像生成と並列稼働可、Q4_K_M量子化とOllama運用設定を実機データで解説。
GPU・グラフィックボード

RTX 5080で動かす日本語ローカルLLM比較

RTX 5080とは、NVIDIA Blackwell世代のハイエンドGPU(VRAM 16GB)である。 ローカルで自然な日本語チャットを動かしたいなら、選択肢は2つに集約されます。日本語特化の8Bクラス(Swallow / ELYZA)...
GPU・グラフィックボード

Qwen3.6-27Bとは?Dense 27BコーディングLLMをローカルGPUで動かすガイド

Qwen3.6-27BはAlibabaのDense 27Bコーディング特化オープンウェイトLLMである。4bit量子化版なら16GB VRAM帯のコンシューマGPUで動かせる現実的な選択肢で、llama.cpp + Unsloth GGUFでのローカル運用に向いている。
GPU・グラフィックボード

AIミニPCワークステーションとは?GMKtec EVO-T2S/EVO-X2で学ぶIntel・AMDの選び方

AIミニPCワークステーションとは、NPUとiGPUを統合してローカルでAI推論を動かす小型PCの総称。GMKtecのEVO-T2S(Intel Core Ultra)とEVO-X2(AMD Ryzen AI Max+ 395)を例に、メモリ帯域・TOPS・用途別の選び方を比較表と公式ソース付きで整理する。
GPU・グラフィックボード

RTX 4060 8GBでQwen3.6 35B MoEを動かす

Qwen3.6-35B-A3Bとは、Alibabaが2026年4月に公開したMoE型の大規模言語モデル。 海外のRedditコミュニティ(r/LocalLLaMA)で、RTX 4060 Laptop(VRAM 8GB)+RAM 96GBの構...