deepseek-r1 TTFT

GPU・グラフィックボード

RTX 5080でTTFTが速いLLM 8モデル実測|phi4-mini 1194msが最速、リアルタイム対話の選定基準

TTFTとは、ユーザー送信から最初のトークンが返るまでの時間である。チャットUIで「送信ボタンを押してから最初の文字が画面に出るまで」を短縮したいなら、見るべき指標はtok/sではなくTTFT (Time to First Token)。当...
GPU・グラフィックボード

deepseek-r1:8b の TTFT は llama3.1:8b の 4.5 倍

TTFTとは、リクエスト送信から最初のトークンが返るまでの応答時間である。ローカルLLMの体感速度を決めるのは tokens/sec だけではありません。RTX 5080 で 7 モデルを横並び計測したところ、DeepSeek R1 8B(...