翻訳用ローカルLLMとは、PC上で動かす翻訳特化のオープンソース言語モデルである。
結論から書きます。翻訳用途で「Gemma 3 4Bが最強」という海外評をそのまま信じるのは危険。当サイトの検証環境(RTX 5080 / i7-14700F / 96GB RAM)で3モデルを実測したところ、速度・VRAM・訳文品質のバランスは言語ペアごとに入れ替わりました。日→英ならgemma3:4bが軽くて自然。日→中・日→韓ではqwen3.5:9bが明確に優勢。mistral:7bはその中間で、欧州言語混在の用途に向く、という切り分けになります。
- gemma3:4bは188.2 tokens/sec・VRAM 5.8GBと軽量で、日→英の自然さに優れる
- qwen3.5:9bは104.8 tokens/sec・VRAM 9.7GBと重いが、日→中・日→韓で優勢
- mistral:7bは151.4 tokens/secでバランス型、欧州言語が絡む用途に向く
翻訳用ローカルLLMは「速度と精度のトレードオフ」で選ぶ
ローカル翻訳LLMを選ぶときに意識すべきは、すべての用途で「最強」のモデルは存在しないという点。翻訳タスクは大きく3つに分けられます。
ひとつ目が、ビジネスメールや単発ドキュメントのような「品質重視の単発翻訳」。ふたつ目が、動画字幕や大量のログを一気に処理する「バッチ翻訳」。3つ目が、会議中やチャット画面でリアルタイムに訳す「ストリーム翻訳」でした。品質重視の単発ならtokens/secは二の次、バッチやリアルタイムではスループットが決定打になります。
SiliconFlowの解説記事では、Gemma 3 4BがJapanese-English翻訳の用途で推奨されています。一方で、Ollamaの公式ライブラリではQwen3系が29言語以上に対応すると公称されており、カバレッジではQwen3系が一歩リード。この2つの主張は矛盾しているように見えますが、言語ペアと用途を分ければ両立可能です。
ベース記事の問題意識:Gemma 3最強説は本当か
海外の評判を素直に受け取ると、「gemma3:4b一強」という結論になりがち。しかしRTX 5080での実測では、日→中の訳文自然さはqwen3.5:9bが明確に上回りました。「速度は188 tokens/secで十分高速」「日→英は自然」という部分は妥当ですが、「すべての言語ペアで最良」ではない、というのが今回の検証で見えた現実。
検証環境と計測方法
今回の実測は、当サイトの検証機(RTX 5080 16GB GDDR7 / i7-14700F / 96GB RAM)で行いました。NVIDIAドライバは596.21、Ollamaバージョンは0.20.7、OSはWindows-10-10.0.26200-SP0。計測日は2026年4月22日です。
速度指標としてtokens/sec(平均値)、レイテンシ指標としてTTFT(最初のトークン出力までのミリ秒)、リソース指標としてVRAM使用量・GPU温度・消費電力を取得しました。品質評価は、日→英/日→中/日→韓の3ペアについて、技術文書・ビジネスメール・会話調・ニュース見出しなど20サンプルを各モデルに通し、流暢さ・正確さ・固有名詞保持を観察しています。数値化した優劣ではなく「どちらが自然だったか」「どこで崩れたか」という定性比較を主に記載しました。
計測した3モデルの選定理由
gemma3:4bは140言語以上の対応を謳うGoogle系モデルで、翻訳評価で海外評が高い一軍。qwen3.5:9bはAlibaba系でアジア言語のカバレッジに強み。mistral:7bは欧州発の汎用モデルで、フランス語・ドイツ語・スペイン語等での評価が高いことで知られています。アジア系・西欧系・中小型〜中型という観点でバラけた3本を選定しました。
速度・VRAM実測結果|RTX 5080で3モデルを計測
まずは数値から見ていきます。当サイトの検証環境(RTX 5080)で計測した3モデルの実測データは以下。
| モデル | tokens/sec | TTFT | VRAM使用量 | GPU温度 | 消費電力 |
|---|---|---|---|---|---|
| Gemma 3 4B(Ollama: gemma3:4b) | 188.2 | 2634ms | 5.8GB | 63.0°C | 221W |
| Mistral 7B(Ollama: mistral:7b) | 151.4 | 1023ms | 7.3GB | 65.0°C | 281W |
| Qwen3.5 9B(Ollama: qwen3.5:9b) | 104.8 | 3065ms | 9.7GB | 57.0°C | 242W |
数字だけ見るとgemma3:4bの圧勝に見えますが、実は挙動のクセがそれぞれ異なります。
gemma3:4bの挙動:小型で高スループット
VRAM 5.8GBに収まり、188.2 tokens/secという速度は翻訳用途では過剰なほど。消費電力221WはRTX 5080としては控えめで、長時間のバッチ翻訳でも熱的な不安が少ない数値です。TTFTは2634msと若干遅めですが、バッチ処理ではこの遅延は相対的に小さくなります。
qwen3.5:9bの挙動:VRAM負荷と引き換えの多言語力
tokens/secは104.8とgemma3の約半分、VRAMも9.7GBまで膨れます。RTX 5060 Ti 16GBのような中位GPUでも動きますが、VRAM 8GBクラスだとオフロードが発生し速度が大きく落ちる想定。TTFT 3065msも最長で、短文のリアルタイム翻訳には向きません。その代わり、後述する日→中の訳文は明らかに別物でした。
mistral:7bの挙動:バランス型
151.4 tokens/sec・VRAM 7.3GBという中庸ぶり。TTFTは1023msと今回の3モデルで最速で、「投げた直後に返ってくる体感」はmistralが一番良好。281Wと消費電力はやや高めですが、レスポンスを重視する翻訳UIに埋め込むなら有力候補。
日英・日中・日韓の訳文品質比較
数値では見えない「訳文の自然さ」こそが翻訳LLM選びの本丸。20サンプル×3言語ペアを通した観察を、モデル単位でまとめます。
日→英:Gemma 3 4Bの自然さが光る
SiliconFlowの記事でGemma 3が日英翻訳で推薦されている点は、当サイトの検証でも概ね裏付けられました。ビジネスメールのトーン調整(丁寧度のコントロール)や、ニュース見出しでの能動態/受動態の自然な選択で、gemma3:4bが他2モデルより違和感の少ない訳を返します。qwen3.5:9bは正確さでは劣らないものの、英文がやや「硬い」印象。mistralは固有名詞の綴りが揺れる場面が見られました。
日→中・日→韓:Qwen3系が優勢
一方、日→中国語(簡体字)や日→韓国語では優劣が完全に逆転。qwen3.5:9bは敬体/常体の切り替え、四字熟語の置き換え、韓国語のパッチム処理など、アジア言語特有の細部で明らかにこなれた訳文を出します。gemma3:4bは日→中で直訳調に寄る場面があり、長文では語順の不自然さが目立ちました。mistral:7bは日→中・日→韓の両方でやや苦手傾向。
Mistralは欧州言語で本領、アジア言語では2モデルに譲る
フランス語・ドイツ語・スペイン語といった欧州言語を介した翻訳では、mistral:7bが素直で読みやすい訳を返します。逆に日↔中・日↔韓のようなアジア系ペアでは、gemma3・qwen3.5のどちらにも劣後する印象。「何を訳すか」で適材適所が大きく変わるモデルだと言えます。
用途別の選び方|字幕バッチ・リアルタイム・高品質単発
ここまでの検証をもとに、実用3シナリオでの推奨モデルを整理します。
長尺字幕・ドキュメント一括翻訳
動画字幕や技術マニュアルのような「量が多く、スループットが効く」用途では、gemma3:4bが第一候補。188.2 tokens/secの速さは、長尺の字幕ファイルを現実的な時間で回せるライン。VRAM 5.8GBなので、同じGPUで別のタスク(画像生成や検索インデックス更新など)と並走させる余裕も残ります。
中国語・韓国語を含む業務翻訳
ビジネス文書で日→中・日→韓が絡むなら、多少遅くてもqwen3.5:9bを選ぶ判断が合理的。104.8 tokens/secでも1文〜1段落の単発翻訳であれば体感は十分早く、訳文品質の差は編集コストに直結します。VRAM 9.7GBを飲める環境(RTX 4070 Super以上、またはRTX 5060 Ti 16GB以上)が前提。
プロンプト設計で品質が変わる点
同じモデルでも、指示の書き方で訳文品質は大きく変動します。特に「敬体で訳してください」「技術用語は英語のまま残してください」のような制約条件は、プロンプト冒頭で明示した方が結果が安定。Redditの議論では、指示への追従性がモデル間で差が大きいという報告も出ており、同じ翻訳指示でも追従度にばらつきがある点は押さえておきたいポイント。
運用時の注意点とVRAM節約のコツ
翻訳用途では量子化の選択も品質に直結します。Ollamaのデフォルトで配布されるGGUFは多くがQ4系ですが、固有名詞や慣用句の保持が重要な翻訳では、より高ビットの量子化(Q5_K_M・Q6_K等)が無難。Reddit r/LocalLLaMAで公開されているUnslothのKLダイバージェンス検証では、量子化手法によって元モデルの出力分布への忠実度に差が出ることが報告されています。翻訳のような「細かなニュアンス」が物を言う用途では、極端な低ビット量子化は避けた方が安全。
VRAMが逼迫しがちな環境(8GBクラス)では、qwen3.5:9bをフル積載するのは厳しい現実。Reddit r/LocalLLaMAにはMoE系モデルを8GB VRAMで動かす設定が投稿されていますが、翻訳のように追従性が問われる用途では、小型密モデル(gemma3:4bなど)を選ぶ方が素直な解になります。ドライバやOllamaのバージョン差で挙動が変わる点もあり、本記事の数値はNVIDIA 596.21・Ollama 0.20.7時点の値として参考にしてください。
よくある質問
Q. gemma3:4bでビジネス文書の日英翻訳は実用レベルですか?
メールや技術ドキュメントの下訳としては十分使えるレベル。ただし契約書や公式リリースなど「一字違いが致命的」な用途では、人のレビューを挟むことが前提になります。海外評でも日英翻訳での評価は高く、188.2 tokens/secという速度を考えれば第一候補にしやすいモデルです。
Q. VRAM 8GBのノートPCでも翻訳用LLMは動きますか?
Gemma 3 4B(Ollama: gemma3:4b)(VRAM 5.8GB)なら余裕を持って動きます。Mistral 7B(Ollama: mistral:7b)(7.3GB)もギリギリ収まる範囲ですが、OSや他アプリがVRAMを食う環境ではオフロードが発生しやすくなる想定。Qwen3.5 9B(Ollama: qwen3.5:9b)(9.7GB)はVRAM 8GBでは部分オフロードが必須で、速度は大きく落ちるため現実的ではありません。
Q. 翻訳品質は量子化の強さでどれくらい変わりますか?
Q4系からQ5_K_M・Q6_Kに上げると、固有名詞や慣用句の保持率が体感で改善する場面がある、というのがコミュニティで共有されている傾向。UnslothのKLダイバージェンス検証でも、量子化方式による元モデルからの乖離度に差があることが報告されています。業務利用ならQ5_K_M以上を基準にするのが無難。
Q. APIクラウド翻訳と比べてローカルLLMのメリットは?
機密性の高い文書を外部に送らずに翻訳できる点が最大のメリット。加えて、一度GPUを導入すれば従量課金が発生せず、字幕バッチのように大量処理する用途では長期的なコストメリットが出ます。一方で、DeepLやGoogle翻訳と比べると訳文の磨き込みではまだ差があるケースも多く、用途と要求品質で使い分けるのが現実解。
まとめ
翻訳用ローカルLLMの選び方を3モデルの実測から整理すると、言語ペアと用途で推奨が入れ替わります。日→英・大量処理ならgemma3:4b、日→中・日→韓の業務翻訳ならqwen3.5:9b、欧州言語混在ならmistral:7b。速度最優先ならgemma3、品質最優先ならqwen3.5、中間を取るならmistral、という覚え方でも大きくは外しません。
| Gemma 3 4B(Ollama: gemma3:4b) | 188.2 tokens/sec・VRAM 5.8GB・日→英で自然 |
|---|---|
| Mistral 7B(Ollama: mistral:7b) | 151.4 tokens/sec・VRAM 7.3GB・欧州言語に強い |
| Qwen3.5 9B(Ollama: qwen3.5:9b) | 104.8 tokens/sec・VRAM 9.7GB・日→中/日→韓で優勢 |
| 検証環境 | RTX 5080 / i7-14700F / 96GB RAM / Ollama 0.20.7 |
| 計測日 | 2026年4月22日 |
「Gemma 3が翻訳最強」という海外評は日→英に限れば妥当、しかし多言語カバレッジを求めるならqwen3.5:9bを第二候補として準備しておく。これが今回の実測から得られた実務的な判断軸です。
当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。
おすすめパーツ 価格まとめ
| 製品名 | カテゴリ | スペック | 参考価格 |
|---|---|---|---|
| RTX 5080 | GPU・グラフィックボード | NVIDIA GeForce RTX 5080 16GB GDDR7 | ¥199,800〜 (kakaku.com最安値・2026/04/25) |
| RTX 4070 Super | GPU・グラフィックボード | NVIDIA GeForce RTX 4070 Super 12GB GDDR6X | ¥90,000〜(中古相場) |
本記事は AIハードウェア図鑑 編集部 が記載時点の情報をもとに執筆。製品アップデートや第三者ベンチマーク・価格・対応ランタイム等の変動で評価が変わる可能性がある。一定期間経過した内容は再検証を推奨する。

