LTX 1とは、Lightricks社の軽量動画生成AIモデル(2Bパラメータ)で、VRAM 16GBクラスのGPUで商用量産可能な現実解である。
LTX 1そのものの概要・モデル選び・入門的な使い方は姉妹サイト「AIツール図鑑」のLTX Videoとは?AI動画生成の特徴・使い方・必要スペックで解説している。本記事はその実測データ編として合わせて読むと理解が深まる。
- RTX 5080: 1本5分9秒(309s)、Peak VRAM 15.9 GB、Peak RAM +25.9 GB
- RTX 5060 Ti(Oculink): 1本9分12秒(552s)、Peak VRAM 16.0 GB、Peak RAM +27.2 GB
- 上記はLTX 1本体+RIFE VFI補間までの時間。4Kアップスケール処理は別工程で追加時間が必要
- LTX 2.3(22B AV版)は標準loaderで読めず、VRAM 16GBでの商用量産は現時点で非現実的
- 筆者の運用実績:3ヶ月で928本生成 → 約30%をAdobe Stockにアップロード → 審査採用率45.7%(直近4日)
この記事は何を検証したか
本記事はRTX 5080(VRAM 16GB)およびRTX 5060 Ti 16GB(Oculink接続)でLTX 1を筆者の本番ワークフローで実測した一次記録である。ComfyUI上で1024×576解像度・241フレーム・50ステップ・RIFE VFI(フレーム補間x2)・H264 mp4出力という、Adobe Stock向け素材生成の前段と同じ構成で測定した。
結論から先に言えば、16GB VRAMで動画生成を商用量産するならLTX 1が現実解。LTX 2.3は最新だがVRAM 16GB環境では安定した量産ラインを築けない。
検証環境
| メインGPU | NVIDIA RTX 5080(VRAM 16GB GDDR7、PCIe 5.0) |
|---|---|
| サブGPU | NVIDIA RTX 5060 Ti 16GB(Oculink経由 / MINISFORUM DEG1) |
| CPU | Intel Core i7-14700F |
| システムRAM | DDR5 96GB |
| ストレージ | NVMe SSD 2TB x 2 |
| OS | Windows 11 |
| ComfyUI | v0.9.1(embedded Python 3.12 / PyTorch 2.9.1+cu128) |
| 運用モデル | ltx-video-2b-v0.9.1.safetensors(LTX 1) |
| テキストエンコーダ | t5xxl_fp16.safetensors |
| 後処理 | RIFE VFI v4.9(rife49.pth)フレーム補間 x2(30fps→60fps) |
| 検証日 | 2026年4月17日 |
LTX各バージョンのファイルサイズ実測
| モデル | サイズ | 位置付け |
|---|---|---|
| ltx-video-2b-v0.9.1(LTX 1) | 5.72 GB | 軽量・高速。16GB VRAM で余裕動作。筆者の運用モデル |
| ltxv-13b-0.9.7-distilled-fp8 | 15.69 GB | 13B蒸留fp8。16GBでギリギリ |
| ltx-2-19b-dev-fp8 | 27.08 GB | 19B dev fp8。オフロード必須 |
| ltx-2.3-22b-distilled-fp8(AV) | 29.53 GB | 最新の音声付き。標準loader非対応 |
実測: RTX 5080 vs RTX 5060 Ti 比較(同一ワークフロー)
1024×576、241frames、50steps、cfg 3.0、RIFE VFI x2 の同一設定を両GPUで実行。本記事ではRTX 5080は bf16、RTX 5060 Ti は fp8 量子化モードで測定しているが、両GPUとも bf16 / fp8 のいずれでも動作する。
1本生成にかかる時間・VRAM・RAM消費
| 項目 | RTX 5080(16GB) | RTX 5060 Ti 16GB(Oculink) | 差 |
|---|---|---|---|
| 総生成時間 | 309秒(5分9秒) | 552秒(9分12秒) | 5060Tiが1.79倍遅い |
| Peak VRAM | 15,890 MB | 16,004 MB | ほぼ同じ(どちらも枠一杯) |
| Peak RAM使用増 | +25.9 GB | +27.2 GB | 5060Tiがやや多い |
| 本記事の測定時ComfyUI設定 | –normalvram –bf16 | –normalvram –fp8_e4m3fn | どちらも bf16/fp8 いずれでも動作可能 |
| 接続 | PCIe 5.0 x16(内部) | Oculink(PCIe 4.0 x4相当) | 帯域差が大きい |
読み取れること
- 生成時間差は約1.8倍。RTX 5060 Ti + Oculinkは本体内蔵RTX 5080の約56%の速度
- VRAM使用量は両方ほぼ16GB満載。RIFE VFIのフレーム補間段階で枠一杯に達する
- bf16でもfp8でも動く。精度・速度のトレードオフで選択可能
- Oculink経由でも運用可能。時間はかかるが本体内蔵と同じ品質・同じワークフローで完走
- 初回モデルロードでOculink帯域がボトルネックになり、ロード時間が本体より長い
- 推論開始後はVRAM内処理が中心なので帯域差の影響は小さい
- 長時間稼働時のOculinkドック電源(DEG1の場合750W)とGPU温度管理が重要
本記事の実測時間に含まれないもの(重要)
上記の「5分9秒」「9分12秒」はLTX 1の動画生成 + RIFE VFIフレーム補間 + H264エンコードまでの時間である。筆者の実運用では、この後段に4Kアップスケール処理が続き、そちらでもまとまった時間がかかる。
Adobe Stockへの最終提出ファイル(4K 60fps mp4)を作るなら、本記事の時間に加えて4Kアップスケール処理時間が乗る想定で運用計画を立てる必要がある。4Kアップスケールの具体的な構成と時間は、続編記事(記事3)で別途扱っている。
実測: フェーズ別 VRAM・RAM・時間(RTX 5080詳細)
| フェーズ | 経過時間 | VRAM使用量 | RAM使用増 | 備考 |
|---|---|---|---|---|
| 初期状態 | 0s | 1,034 MB | 0 | ComfyUI起動直後 |
| モデルロード | 0-5s | 10,070 MB | +7.6 GB | LTX 1 + T5-XXL + VAE読込 |
| LTX 1生成中 | 5-155s | 12,124 MB | +6.9 GB | 50 steps・241frames生成 |
| RIFE VFI開始 | 155s | 15,768 MB | +18.4 GB | フレーム補間処理開始 |
| RIFE VFI中 | 155-300s | 15,890 MB (Peak) | +25.9 GB (Peak) | VRAM 16GB枠ギリギリ |
| mp4エンコード | 300-309s | drop | 解放 | H264 crf=0書出 |
16GBを埋めているのはLTX 1本体ではなくRIFE VFI
測ってみて意外だったのは、LTX 1本体の生成だけならVRAMは12 GBで収まっていること。16GB枠を使い切っているのはRIFE VFIのフレーム補間で、このフェーズで VRAM が 15.9 GB、システムRAMも +26 GB まで伸びる。
16GB VRAMユーザーが取るべき戦略は複数ある:
- A) フレーム補間なしで我慢する(30fps出力、VRAMは12 GBで済む)
- B) RIFE VFIを使うが RAM を 64GB以上確保する(本記事の構成)
- C) ComfyUI用の独自「PurgeVRAMノード」(コミュニティ開発のカスタムノードでGPUメモリを強制解放する)をノード間に挟む構成にすると、12GB GPUでも動作可能になる
RAM 32GB環境でもOS・アプリを絞って軽量設定(24fps・30fps・短尺)にすれば審査通過する作品は生成できるが、本記事のような60fps高解像度構成では RAM 64GB以上を推奨。余裕を見て96GB構成が最も安定。
本番運用の実績:3ヶ月928本生成、Adobe Stock採用率45.7%
同じRTX 5080環境でLTX 1を運用した2026年1月〜4月の実データ。
実際の流れ(生成→アップロード→採用)
筆者の運用は3段階で絞り込む構造。
- LTX 1で生成: 3ヶ月で累計928本(2026年1月〜4月)
- 検品でアップロード候補を選別: 生成したうち約30%(おおむね280本前後)をAdobe Stockへアップロード
- Adobe Stock審査を通過: アップロード分のうち直近4日のデータで採用率45.7%
「生成した全本数に対して最終的に商品化される割合」はおおむね全体の14%前後(30% × 45.7%)。Adobe Stockは2025年以降AI生成素材の審査を厳格化しており、類似品判定(similar content already in our collection)を受けて不採用になるケースが増えている環境下で、45.7%は実用的に使える範囲に収まっている。
Adobe Stock審査結果(直近4日間)
| 提出日 | 採用 | 不採用 | 採用率 |
|---|---|---|---|
| 2026年4月13日(日) | 8本 | 10本 | 44.4% |
| 2026年4月14日(火) | 2本 | 2本 | 50.0% |
| 2026年4月15日(水) | 0本 | 3本 | 0.0% |
| 2026年4月16日(木) | 6本 | 4本 | 60.0% |
| 合計(4日間) | 16本 | 19本 | 45.7% |




1本分の生成プロンプト例(本番級・実運用)
参考までに、筆者がAdobe Stock向け動画1本を生成する際に実際に使用している本番級プロンプトを掲載する。一般的に紹介されている「シンプルな30語程度のプロンプト」とは別次元の作り込みで、物理現象の英語表現・映画撮影用語・光学パラメータ・ムード指定を高密度に織り込んでLTX 1の生成品質を引き出している。
下記はOil Slick Rainbow Macro(虹色薄膜干渉のマクロ映像)生成時の実プロンプト。このレベルの作り込みを手動で毎回書くのは非現実的なため、筆者はローカルLLM(Ollama + Gemma 3 12B GGUF)を使ったプロンプト自動生成の仕組みを組んでいる。具体的な生成ロジックは本記事のスコープ外だが、下記のプロンプトはその出力物の1つである。
positive prompt
(Iridescent Thin-Film Interference: Oil Slick Rainbow Macro:1.3), (Low angle hero composition, subject rises from bottom edge, expansive upper negative space:1.2), Rainbow Band Drift Sequence, Marangoni convection spreading coefficient, Film drainage velocity gravity, Capillary number viscous-surface ratio, Thin-film equation lubrication, seamless looping motion, first and last frame match, stable camera, temporal coherence, smooth continuous motion, Tripod shot, locked off camera, stable composition, no movement, perfect framing, Central composition, Clear spatial structure, Rack focus shifting from foreground to background. The oil slicks surface flow exhibits Marangoni drift towards the right, with color bands migrating at approximately 1 mms, and interference pattern density increasing by 30 over 8 seconds At reflection angles between 40 to 50, hard directional spotlight, dramatic chiaroscuro, deep black shadows, high contrast, focused beam, Silver White Overexposed, Soft luminous pastel tones, dreamlike bloom and halation, iridescent prismatic nuances, ethereal atmospheric glow, angelic backlit translucency, subsurface scattering illumination, pearl-white highlights, celestial haze, Flat dark surface, Petroleum rainbow film, Oil slick thin-film optics, petroleum film thickness -, thin-film interference bands interference color, thermocapillary surface tension flow, iridescent band migration, angle-dependent structural color, Clear refractive index hydrocarbon film, ambient light iridescence, macro flat surface view, slow drift animation, Dreamlike beauty and weightless fantasy, angelic soft-focus atmosphere, luxury wellness and cosmetic aesthetic, serene relaxation mood. Cinematic 16:9, Widescreen, Anamorphic lens, Petroleum thin-film Marangoni band, Clear refractive index hydrocarbon surface, thin-film interference bands interference color, Angle-dependent structural color gradient, macro lens, 100mm, extreme close-up, shallow depth of field, bokeh, microscopic details,, super slow motion, weightless drift, graceful deceleration, ultra high resolution optics, optimal depth of field, maximum tonal depth, optical realism, diffraction-limited sharpness, zero distortion, sub-pixel detail, pristine optical quality, edge-to-edge sharpness, premium lens coatings, (no text:1.2)
negative prompt
(text:2.0), (watermark:2.0), (logo:2.0), (ui:2.0), (hud:2.0), (digits:2.0), (numbers:2.0), (bad geometry:1.5), (amorphous:1.5), (unstructured:1.5), (muddy:1.5), (blurry focus:1.3), (static:1.5), (frozen:1.5), (statue:1.5), (still image:1.5), (solidified:1.3), (motionless:1.5), (grid:1.5), (mesh:1.5), (dots:1.5), (pixelated:1.5), (pattern:1.5), (human:1.5), (face:1.5), (hand:1.5), (skin:1.5), (animal:1.5), (low resolution:1.3), (artifacts:1.3), (morphing:1.5), (shaking:1.5), (flickering:1.5), (glitch:1.2), (sharp edges:1.5), (hard light:1.5), (industrial:1.5), (mechanical:1.5), (oversaturated:1.3), (heavy:1.3), (Pop:1.3), (Burst:1.3), (Dry:1.3), (Dull:1.3), (Matte:1.3), (Grey:1.3), (Black and White:1.3), (Solid:1.3), (Rock:1.3), (Wood:1.3), (Dirty:1.3), (Pollution:1.3), (Drug:1.3), (Trippy:1.3), (Oil pollution:1.3), (Chemical spill:1.3), (Toxic:1.3)
LTX 1はシンプルなプロンプトでも動画を出してくれるが、ストック素材として採用率を維持するには、こうした密度の高い描写指定+広範なネガティブ排除が効いてくる。prompt長は positive だけで1500文字超、negative も 500文字を超える規模だ。
プロンプトをLLMに大量生成させる発想(初期の手動テンプレ例)
ストック素材の量産では、似たようなプロンプトを何本も書き続けると被りが出て審査で類似品判定(similar content)を受けてしまう。筆者も最初はGemini Proのチャット画面に手作業で指示を流し込み、バリエーション違いの動画用プロンプトを一括出力させていた。
以下は当時使っていたテンプレの簡略版。これをそのままLLMのチャットに貼り付けて「N本出力して」と頼むと、LTX 1に流せるプロンプトがN本まとめて返ってくる仕組みだ。
# LTX 1 動画プロンプト一括生成テンプレ(簡略版)
[共通条件]
- 生成本数: N本(例: 30本)
- 用途: LTX 1 動画生成用の positive + negative プロンプト
- 1本ごとにユニークで、被りを最小化すること
[生成テーマの例 - 概ね均等配分]
Theme A: 触覚的な物質表現
主題: 高粘性の液体金属、表面張力、微細な泡、サブサーフェススキャタリング
参考語彙: macro cinematography of viscous molten material, tactile density,
surface tension, subsurface scattering, anisotropic highlights
Theme B: スペクトル光学現象
主題: 光の回折・屈折・分光・減衰・ボケ
参考語彙: abstract spectral energy fluid, volumetric glowing particles,
fiber optic light trails, diffraction, anisotropic bokeh
Theme C: ミクロ生物物理
主題: 細胞膜・生物発光・有機組織の透過
参考語彙: bioluminescent membrane, organic tissue transparency,
electron microscope aesthetics, subsurface scattering in organic matter
[共通末尾タグ(positive末尾に毎回追加)]
(black background:1.3), (best quality, 4K, uhd:1.2), ultra-detailed,
(seamless loop:1.3), (smooth motion:1.2)
[共通ネガティブ(negative側に必ず入れる)]
(no humans, no face, no hand, no bad anatomy:2.0)
(no text, no watermark, no logo:2.0)
(no architecture, no straight lines, no buildings:1.5)
(no distortion, no artifacts, no blurry, no halos:1.5)
[出力ルール]
- 1本ごとに positive と negative をセットで出力
- 説明文や挨拶は一切不要、プロンプト本体だけ
- Theme A → B → C の順で、指定本数を3分割して循環
このテンプレをLLM(Gemini Pro / Claude / ChatGPT / ローカルLLMなど何でも)に投げると、1回のやりとりで30〜100本のLTX 1用プロンプトが出てくる。手動で1本ずつ考えるより圧倒的に早く、しかも「被らない」という点で量産向きだ。
現在の筆者の運用はこの初期テンプレから進化し、ローカルLLM(Ollama + Gemma 3 12B GGUF、Oculink側の5060 Tiに常駐)による完全自動化に移行している。軸の切り方・品質チューニング・被り検出など具体の仕組みは本記事のスコープ外としている。
LTX 2.3が16GB VRAMで商用量産に向かない3つの理由
1. 標準loaderで読み込めない(技術的障壁)
LTX 2.3蒸留版はLTX AV(Audio-Video統合)アーキテクチャを採用しており、transformer内に音声用パラメータが追加されている。ComfyUI標準の CheckpointLoaderSimple では次元不一致で失敗する。
RuntimeError: Error(s) in loading state_dict for LTXAVModel:
size mismatch for adaln_single.linear.bias:
copying a param with shape torch.Size([36864]) from checkpoint,
the shape in current model is torch.Size([24576]).
動かすには ComfyUI-LTXVideo カスタムノードを最新化し、LTXVAudioVAELoader、LTXVSeparateAVLatent 等のAV対応ノードでワークフローを組み直す必要がある。
2. モデルサイズ29.5GB → 16GB VRAMに収めるにはオフロード必須
ディスク上の fp8 checkpoint で29.53GB。16GB VRAMに収めるには大規模なCPUオフロードが必要で、推論速度が大幅に低下する。LTX 1の5分/本(RIFE VFI込)に対し、LTX 2.3 のオフロード運用では数十分オーダーになる可能性がある。
3. チューニングコストが商用ROIに合わない
LTX 2.3用の最適ワークフロー構築(AVノード配線、VAE分離、tile最適化)に数日から数週間が必要。筆者は既にLTX 1でAdobe Stock採用率45.7%を達成しており、これを崩して2.3へ移行する収益インパクトが見合わない。
16GB VRAMユーザーへの3つの選択肢
選択肢A: LTX 1 をローカル運用(筆者の推奨)
LTX 1 (ltx-video-2b-v0.9.1) は 5.72 GB と軽量で、RTX 5080 で5分9秒/本、RTX 5060 Ti (Oculink) で9分12秒/本の実測値(RIFE VFIまで)。商用量産に十分なスペックで、3ヶ月928本生成・Adobe Stock採用率45.7%の実績がある。
GPU選択の目安:
- RTX 5060 Ti 16GB: 新品10.5万円前後。LTX 1量産の最低コスト入口。本記事の実測モデル
- RTX 5070 / 5070 Ti: 5060 Tiより生成時間が短く、コストと速度のバランスが良い中間帯
- RTX 5080: 5080で20万円台。本記事の最速ライン
選択肢B: クラウド型動画生成サービス
2026年4月時点、クラウド動画生成は激しい変動期にある。OpenAI Soraは2026年4月にWeb・アプリ版を終了し、APIも9月で停止予定。代替として以下のサービスが有力だ。
- Google Veo 3.1: 4K 60fps・48kHzネイティブ音声対応。品質面で最先端
- Kling 3.0(Kuaishou): 物理シミュレーション精度が高く、最長2分の長尺生成が可能
- Runway Gen-4.5: 映画制作現場での採用例が豊富。カメラワーク制御に強み
- Seedance 2.0: 無料枠があり、コストゼロで始められる
ローカルGPU不要、月額数千円から数万円。ただし商用ライセンスとAIクレジット表記要件は各サービスで異なるため、Adobe Stock等に投稿する場合はライセンス条件の確認が必須。
選択肢C: VRAM 24GB以上のGPUに投資
RTX 3090(中古15万円から)、RTX 4090(30万円台)、RTX 5090(50万円から)、プロ向けRTX A5000/A6000。LTX 2.3の本来の実力を引き出すにはこれが前提。
よくある質問
Q. VRAM 12GB(RTX 4070 Super / RTX 3060 12GB等)でもLTX 1 + RIFE VFIは動きますか?
動作可能。ただしPurgeVRAM系のカスタムノード(標準ではないコミュニティ開発のGPUメモリ強制解放ノード)を各ステージ間に挟んで段階的にVRAMを解放する必要がある。LTX 1本体の生成フェーズとRIFE VFIフェーズでVRAM需要のピークが違うため、その間にVRAMをパージすれば12GBでも収まる。筆者のRTX 4070 Super(12GB)環境でも同じワークフローで動作実績あり。生成時間は5080/5060Tiより若干延びる程度で実用範囲内。
Q. RAM 32GBでも動きますか?
フル構成(1024×576・241frames・RIFE VFI・60fps)ではピークRAM +26 GB のため厳しい。ただし軽量設定(24fps・30fps、フレーム数を抑える、解像度を下げる)ならRAM 32GB環境でも動作し、実際にAdobe Stock審査を通過した作品を出した経験もある。量産向けには RAM 64GB以上、推奨は96GB。
Q. RIFE VFIなしでも使えますか?
使える。RIFE VFIを外せばLTX 1本体の生成のみで VRAM 12 GB・生成時間150秒(RTX 5080)で済む。出力は30fpsになるがAdobe Stockは30fpsでも受け付けるので、品質要件次第で省略可能。
Q. RTX 5060 Ti 16GBと5070/5070 Ti、どちらを選ぶべきですか?
予算と速度のどちらを優先するか次第。5060 Ti 16GBは10.5万円前後で最低コスト、本記事の実測で9分12秒/本(Oculink経由)。5070/5070 Tiは5060 Tiより生成時間が短く、1日あたりの量産本数を増やしやすい。商用運用で歩留まりを追うなら5070クラスが実用的、小規模運用や初期投資を抑えたい場合は5060 Ti 16GBで十分。
Q. LTX 2.3の「state_dict mismatch」エラーの対処法は?
LTX 2.3蒸留版はAVアーキテクチャのため、標準のCheckpointLoaderSimpleでは読めない。ComfyUI-LTXVideo custom nodeを最新化し、example_workflows/2.3内の公式ワークフローJSONを読み込んで使うこと。LTXVAudioVAELoaderなど専用ノードが必要。
Q. 実際の商品化歩留まりは?
全生成のおおむね14%前後(検品選別30% × 審査採用45.7%)。Adobe Stockは2025年以降AI生成素材の審査を厳格化しており、類似品判定(similar content already in our collection)を受けて不採用になるケースが増えている状況下で、45.7%の採用率は実用的に使える範囲内と言える。
まとめ:最新を追わず、動く実績モデルで量産する
続編記事として、LTX 1をComfyUIで動かすノード構成の全体像と、LTX 1動画を4Kアップスケールする|1段階シンプル法・2段階品質法・バッチ処理法を公開している。記事2はノード配線の全体像、記事3は4Kアップスケール処理を扱い、本記事(記事1)の実測データと合わせて生成→補間→アップスケール→最終出力の3段階を全て確認できる構成にしている。シリーズ全体の最終目標は8秒・4K(3840×2160)・60fps・H264 mp4のAdobe Stock投稿用ファイル。
2026年4月時点、VRAM 16GB のGPUで商用動画量産を目指すなら、最新のLTX 2.3ではなくLTX 1(2B軽量版)が現実解である。
RTX 5080で5分9秒/本、RTX 5060 Ti (Oculink)で9分12秒/本の実測値(LTX 1 + RIFE VFI)。4Kアップスケール工程は別処理で追加時間が必要だが、16GB VRAM枠にギリギリ収まる水準で商用量産できる。RAM 64GB以上(推奨96GB)を確保すれば安定運用。RAM 32GBでも軽量設定なら審査通過経験あり。12GB VRAMも PurgeVRAM系カスタムノード併用で運用可能。
LTX 2.3を触ってみたい場合は、24GB以上のGPUに載せ替える以外に、Lightricks公式のLTX Studioや Fal.ai・Replicate 等のクラウドサービス経由で使う選択肢がある。いずれも従量課金なので、本格導入の前にクラウドで挙動を試してからローカル移行の判断をするのが現実的。一方、16GB VRAMで今から動画量産を始めるなら、LTX 1 + RTX 5060 Ti 16GB(10.5万円〜)、または RTX 5080 + RAM 64GB以上という構成から入るのが無難な選択。
本記事は AIハードウェア図鑑 編集部 が記載時点の情報をもとに執筆。製品アップデートや第三者ベンチマーク・価格・対応ランタイム等の変動で評価が変わる可能性がある。一定期間経過した内容は再検証を推奨する。

