CUDAコアとは?数が多いと何が変わるのかGPU選びの基本

CUDAコアとは?数が多いと何が変わるのかGPU選びの基本 アイキャッチ GPU・グラフィックボード

RTX 4060のCUDAコアは3,072基。RTX 5080は10,752基で、約3.5倍の差がある。では、CUDAコア数が3.5倍なら性能も3.5倍になるのか?答えはノーだ。CUDAコア数はGPU選びの重要な指標だが、それだけで性能は決まらない。VRAM容量、メモリ帯域、アーキテクチャ世代——複数の要素が絡み合って初めて「AI用途に使えるかどうか」が決まる。この記事では、CUDAコアの基本的な仕組みから、AI用途で本当に見るべきスペックの優先順位まで、GPU選びに必要な知識を一本にまとめた。

この記事の要点
・CUDAコアはNVIDIA GPU内の並列計算ユニットで、数が多いほど同時処理能力が上がるが、性能はアーキテクチャ世代やメモリ帯域にも左右される
ローカルLLMの実行ではCUDAコア数よりVRAM容量が優先。7Bモデルで8GB、26Bクラスで16GB以上が目安
・画像・動画生成ではCUDAコア数が生成速度に直結し、APIベースのAIツール(Claude Code等)はGPU性能に依存しない

CUDAコアとは何か――GPUの「計算エンジン」を理解する

CUDAコアとは、NVIDIA製GPUに搭載されている演算処理の最小単位のこと。「CUDA」はCompute Unified Device Architectureの略で、NVIDIAが開発した並列コンピューティング技術を指す。

GPUの中には数千〜数万のCUDAコアが入っていて、それぞれが独立して計算処理を担当する。イメージとしては、巨大な工場のラインに並ぶ作業員に近い。1人あたりの作業速度はCPUの1コアに及ばないが、数千人が同時に働くことで膨大なデータを短時間で処理できるという仕組み。

注意したいのは、CUDAコアはNVIDIA GPUだけの用語である点。AMD製GPUでは「ストリームプロセッサ」と呼ばれ、設計思想は似ているものの、CUDAコアと1対1で比較はできない。AI用途では多くのフレームワークがCUDA(NVIDIA環境)に最適化されているため、この違いは選択に大きく影響する。

CUDAコアの「質」は世代によっても変わる。たとえば、RTX 30シリーズ(Ampere世代)の1CUDAコアとRTX 40シリーズ(Ada Lovelace世代)の1CUDAコアでは、内部の処理効率が異なる。世代が新しいほど、同じコア数でもクロックあたりの計算量が改善されている。つまり、CUDAコア数の「数」だけを異なる世代間で比較しても正確な性能差はわからない。

CPUコアとCUDAコアの決定的な違い

GPUのCUDAコアとCPUのコアは、同じ「コア」でも役割がまったく違う。ここを混同すると、スペック表を見ても判断を誤りかねない。

CPUのコアは「少数精鋭」型。1つのコアが複雑な処理を高速にこなせるよう設計されていて、分岐の多いプログラムや逐次処理が得意だ。一般的なデスクトップCPUのコア数は8〜24程度。1つひとつのコアが判断力のある熟練の職人だと考えるとわかりやすい。

一方、CUDAコアは「大量並列」型。1コアあたりの処理能力はCPUコアよりずっとシンプルだが、数千〜1万超のコアが同時に同じ種類の計算を実行する。行列演算やピクセル処理のように「同じ操作を大量のデータに繰り返す」タスクでは、CPUの数十〜数百倍の速度を発揮する場面もある。

AI処理がGPUと相性がいい理由はここにある。ニューラルネットワークの推論も学習も、本質的には大規模な行列演算の繰り返し。CUDAコアの「単純だが大量に並列実行できる」特性がぴたりとはまるからだ。

CUDAコアとCPUコアの比較で覚えておくべきポイント:CPUは「1つの難しい仕事を速くこなす」、CUDAコアは「大量の単純な仕事を一斉にこなす」。AIの推論処理は後者の得意分野に該当する。

CUDAコア数が多いと何が変わるのか

CUDAコア数が増えると、GPU内で同時に処理できるデータ量が増える。これは単純な事実として正しい。RTX 4060の3,072基に対してRTX 5080は10,752基。同世代・同アーキテクチャであれば、コア数の増加はそのまま並列処理能力の向上につながる。

では具体的に何が速くなるのか。用途ごとに見ていこう。

AI推論(ローカルLLM)の場合、CUDAコア数は推論速度に影響するものの、それ以上にVRAM容量とメモリ帯域が律速になるケースが大半。当サイトの検証環境(RTX 5080 / i7-14700F / 96GB RAM)では、Llama 3.1 8Bモデルの推論で145.9 tokens/secを記録した。一方、RTX 4070 Super(Oculink接続)では同モデルで88.4 tokens/sec。CUDAコア数は10,752基 vs 7,168基で約1.5倍の差だが、実測速度差は約1.6倍だった。メモリ帯域の差(960 GB/s vs 504 GB/s)が上乗せされた結果と考えられる。

画像生成(Stable Diffusion / ComfyUI)の場合は、CUDAコア数が生成速度に比較的ストレートに効く。1枚あたりの生成時間がコア数にほぼ比例して短縮される傾向がある。DALL-E 3のようなクラウドベースの画像生成AIならGPUスペックは不要だが、ローカルで画像を生成するなら、CUDAコア数はそのまま作業効率に直結する。

動画編集・エンコードの場合、GPUのハードウェアエンコーダ(NVENC)が主役であり、CUDAコア数の影響は限定的。ただし、After Effectsのプレビューレンダリングなど一部の処理ではCUDAコアが使われる。

ただし、コア数が多いだけでは速くならないケースが3つある。

1. メモリ帯域が不足しているとき。 データの供給が追いつかず、CUDAコアが遊んでしまう。RTX 4060 Ti 16GBはVRAMこそ16GBと大容量だが、メモリバス幅128bitで帯域は288 GB/sにとどまる。大量のCUDAコアにデータを供給しきれず、スペック上のコア数ほどの性能が出ない場面がある。

2. 電力制限(Power Limit)がかかっているとき。 ノートPC用GPUは同じ型番でもTDPが大幅に低く設定されていて、CUDAコアがフル稼働できない。RTX 4060 Laptop GPUとデスクトップ版RTX 4060はまったく別物と考えた方がいい。

3. ソフトウェア側の最適化が不十分なとき。 CUDAコアを効率よく使い切れるかはドライバやフレームワークの実装に依存する。

CUDAコア以外に見るべきGPUスペック

CUDAコアの基本を押さえたところで、GPU選びで同時にチェックすべき3つのスペックを整理しておく。

VRAM容量は、AI用途では最も優先度が高い指標。ローカルLLMを動かす場合、モデル全体をVRAMに載せる必要があるため、VRAM容量がそのまま「動かせるモデルの上限」を決める。7Bパラメータのモデル(量子化Q4)なら約5〜6GBのVRAMで動作するが、Gemma 3 12Bのような中規模モデルでは16GB以上が必要になる。VRAM 8GBのGPUでは7Bクラスが実質的な上限と考えてほしい。

メモリ帯域は、VRAMからCUDAコアへのデータ転送速度。ローカルLLMの推論速度はメモリ帯域に強く依存する。VRAM容量が同じ16GBでも、RTX 4060 Ti 16GB(288 GB/s)とRTX 5080(960 GB/s)では帯域に3倍以上の差があり、推論速度にも明確な違いが生じる。

TDP(消費電力)は、電源ユニットの選定と発熱に直結する。RTX 5080のTDPは360Wで、電源は最低750W、余裕を見て850W以上が推奨。GPUの消費電力を見ずにパーツを選ぶと、負荷時にPCが落ちる原因になりかねない。

電源容量不足はGPU高負荷時のシャットダウンや不安定動作の原因になる。GPUのTDP × 2倍を目安に電源ユニットを選ぶこと。RTX 5080(360W)なら750W以上、できれば850Wクラスが安全。

主要GPUのCUDAコア数・スペック比較表(2026年版)

AI用途で選ばれることの多いRTX 40/50世代の主要GPUを一覧にまとめた。CUDAコア数だけでなく、VRAM・メモリ帯域・TDP・参考価格を並べて見ることで、コスパや用途適性が見えてくる。

GPU CUDAコア数 VRAM メモリ帯域 TDP 参考価格(税込)
RTX 4060 3,072 8GB GDDR6 272 GB/s 115W 約44,000円
RTX 4060 Ti 16GB 4,352 16GB GDDR6 288 GB/s 165W 約68,000円
RTX 4070 Super 7,168 12GB GDDR6X 504 GB/s 220W 約90,000円
RTX 4070 Ti Super 8,448 16GB GDDR6X 672 GB/s 285W 約120,000円
RTX 5070 6,144 12GB GDDR7 672 GB/s 250W 約95,000円
RTX 5080 10,752 16GB GDDR7 960 GB/s 360W 約175,000円

※価格は2026年4月時点の国内市場での参考価格。実売価格は変動する。

注目すべきポイントがいくつかある。まず、RTX 4060 Ti 16GBはVRAM 16GBながらメモリ帯域が288 GB/sと控えめで、CUDAコア数も4,352基にとどまる。VRAM容量だけ見ると魅力的だが、推論速度を求める用途では帯域がボトルネックになりやすい。

RTX 5070は前世代のRTX 4070 Superよりコア数が少ない(6,144 vs 7,168)にもかかわらず、メモリ帯域はGDDR6Xの恩恵で672 GB/sと大幅に向上している。アーキテクチャの世代差もあり、CUDAコア数の数字だけでは優劣が判断できない好例だ。

「CUDAコア数 ÷ 価格」でコスパを見ると、RTX 4070 Super(7,168基 ÷ 90,000円 ≒ 79.6基/千円)がRTX 40世代では最も高効率。ただし、コスパの計算にVRAMや帯域は含まれていないので、あくまで一つの参考値として捉えてほしい。

当サイトの検証環境(RTX 5080 / i7-14700F / 96GB RAM)とRTX 4070 Super(Oculink接続)の実測比較では、以下のような差が出ている。

モデル RTX 5080(tokens/sec) RTX 4070 Super(tokens/sec) 速度差
gemma3:4b 190.1 129.6 約1.5倍
qwen3:8b 124.9 80.6 約1.5倍
llama3.1:8b 142.7 88.1 約1.6倍
gemma3:12b 82.9 53.5 約1.6倍
phi4:14b 68.1 12.5 約5.5倍

phi4:14bでの速度差が突出しているのは、RTX 4070 SuperのVRAM 12GBではモデルの一部がシステムメモリにオフロードされ、帯域の狭いPCIeバス経由の転送がボトルネックになっている可能性が高い。CUDAコア数だけでは説明できない差であり、VRAM容量とメモリ帯域の重要性がよくわかるデータだ。

用途別・CUDAコア数の目安と選び方

ここからは「結局どのGPUを選べばいいのか」を用途ごとに整理する。CUDAコア数を含め、何を優先すべきかは用途によって明確に異なる。

ローカルLLMを動かす場合

OllamaやLM Studioで7B〜14Bクラスのモデルを日常的に使いたいなら、最優先はVRAM容量。CUDAコア数は二の次でいい。VRAM 8GBのRTX 4060でも7Bモデルは動作するが、12B以上のモデルに手を出すならVRAM 12GB以上が必須になる。

Gemma 3 12Bのような中規模モデルまで視野に入れるなら、RTX 4060 Ti 16GBかRTX 4070 Ti Superが現実的な選択肢。前者はVRAM容量で勝り、後者は帯域とコア数で推論速度に余裕が出る。予算に制約があるならRTX 4060 Ti 16GB、速度を重視するならRTX 4070 Ti Superという切り分けになる。

画像・動画生成の場合

Stable DiffusionやComfyUIでの生成速度は、CUDAコア数がストレートに効く領域。RTX 4060(3,072基)とRTX 4070 Super(7,168基)では、同じ設定での1枚あたりの生成時間に約2倍の差が出ることも珍しくない。VRAMはSDXLで12GB以上あれば快適に動作し、SD 1.5系なら8GBでも実用範囲。

当サイトの検証環境では、RTX 5080で未経験から3ヶ月で66本の4K動画が商用ストックサービスに採用されている。CUDAコア10,752基と960 GB/sの帯域があれば、高解像度の動画生成パイプラインもストレスなく回せるということだ。

以下は、当サイトの検証環境で生成したAI動画サンプル。RTX 5080で生成した4K 60fps動画になる。

RTX 5080検証環境で生成し商用ストックサービスに採用されたAI動画作品一覧
検証環境で生成しストックサービスに採用された作品の一部(未経験から3ヶ月で66本採用)

APIベースのAIツールを使う場合

Claude Code、GitHub Copilot、CursorといったクラウドAPI経由のツールは、処理の大半がサーバー側で行われる。CUDAコア数は関係ない。むしろCPU性能、RAM 16GB以上、高速SSD(NVMe)の方が体感速度を左右する。GPU非搭載のノートPCでも十分に快適な動作環境が得られるため、これらのツール目的でGPUに投資する必要はない。

用途別の優先順位を整理すると:ローカルLLM → VRAM > メモリ帯域 > CUDAコア数。画像生成 → CUDAコア数 ≒ VRAM > メモリ帯域。APIベースAI → CPU・RAM・SSD(GPU不要)。

CUDAコアに関するよくある誤解

GPU選びで判断を誤りやすい3つの誤解を取り上げる。

「CUDAコア数が2倍なら性能も2倍」は間違い。 実際の性能はメモリ帯域、キャッシュ構成、ドライバ最適化、そしてアーキテクチャの世代に左右される。RTX 5080のCUDAコア数はRTX 4070 Superの約1.5倍だが、当サイトの実測データでは一部のモデルで5.5倍の速度差が出ている。逆に、コア数比以下の差しか出ないモデルもあった。コア数は「理論的な上限を決める要因の一つ」にすぎない。

「NVIDIA以外のGPUではAIが動かない?」 これは半分正しく、半分は古い情報。AMD GPUもROCm(Radeon Open Compute platform)を通じてPyTorchなどの主要フレームワークに対応してきている。ただし、CUDAに比べると対応ソフトの幅が狭く、トラブルシューティングの情報も少ない。2026年4月時点では、ローカルAI用途でGPUを選ぶなら、動作実績の豊富なNVIDIA(CUDA環境)を選んでおく方がトラブルが少ないのは事実。

「旧世代の上位モデルの方がCUDAコア数が多いからお得?」 中古市場でRTX 3090(10,496 CUDAコア、24GB VRAM)を見かけると魅力的に映る。しかし、アーキテクチャが2世代古いため、コアあたりの効率やTensorコアの性能で最新世代に劣る。消費電力も350Wと高く、電源や排熱コストを考慮すると、新品のRTX 4070 Ti Super(8,448コア、16GB VRAM、285W)の方が実用的な選択になるケースが多い。VRAM 24GBの恩恵が明確にあるユースケース(30B超のモデルを動かしたい等)でない限り、世代の新しさを優先した方が後悔しにくい。

まとめ:GPU選びで迷ったときの判断基準

CUDAコアはGPUの並列計算能力を示す指標であり、AI用途での性能を左右する重要な要素の一つ。しかし、CUDAコア数だけを見て選ぶのは危険だ。

判断の軸を整理すると、こうなる。

こんな人・用途 おすすめGPU 理由
7Bモデルを手軽に試したい RTX 4060(8GB) 最も安価にローカルLLMを始められる。VRAM 8GBで7Bクラスに対応
14B〜26Bモデルも動かしたい RTX 4060 Ti 16GB VRAM 16GBが中規模モデルの実行を可能にする。帯域は控えめだが予算重視なら最適解
画像生成を快適にしたい RTX 4070 Super CUDAコア7,168基と504 GB/sの帯域で生成速度が大幅向上。VRAM 12GBでSDXLに対応
速度もVRAMも妥協したくない RTX 5080 10,752基のCUDAコア、16GB VRAM、960 GB/sの帯域。ローカルAI用途の現行最適解の一つ
Claude Code・Copilot中心 GPU投資不要 APIベースはGPU性能に依存しない。RAM 16GB以上・NVMe SSD搭載PCで十分

CUDAコアの意味を理解した上で、自分の用途に合った「CUDAコア数 × VRAM × メモリ帯域」のバランスを選ぶ。これがAI時代のGPU選びの基本になる。迷ったら、まず「何のAIソフトを動かしたいか」から逆算してみてほしい。必要なスペックは用途が決まれば自ずと絞り込める。

当サイトはAmazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当サイトは適格販売により収入を得ています。

おすすめパーツ 価格まとめ

製品名 カテゴリ スペック 参考価格
RTX 5080 GPU・グラフィックボード NVIDIA GeForce RTX 5080 16GB GDDR7 ¥243,480〜
(kakaku.com最安値・2026/04/09)
RTX 5070 GPU・グラフィックボード NVIDIA GeForce RTX 5070 12GB GDDR7 ¥104,800〜
(kakaku.com最安値・2026/04/09)
RTX 4070 Ti Super GPU・グラフィックボード NVIDIA GeForce RTX 4070 Ti Super 16GB GDDR6X ¥130,000〜
タイトルとURLをコピーしました