LASSIC Media らしくメディア
AIのGPU費用が重い──AWS GPUインスタンスのコストを抑える選び方と運用
LASSIC IT事業部|元請(プライムベンダー)としてシステム保守・運用を受託
この記事のポイント
- AWSのGPUインスタンスはP系(大規模学習向け)とG系(推論・小規模学習向け)に大きく分かれており、用途に合わせて選ぶことが費用を抑える第一歩です。
- 中断耐性のある学習処理にSpotインスタンスを活用すると、オンデマンド価格から大幅な割引を受けられる場合があります。
- GPUインスタンスの選定・チューニング・Spot運用には専門知識が必要で、外注によってリスクを抑えながらコスト削減を進めることができます。
目次
AWS GPUインスタンスとは——P系・G系の違いと料金の仕組み
AWS GPUインスタンスとは、Amazon EC2(Elastic Compute Cloud)上でNVIDIAなどのGPUを搭載したコンピューティングリソースを時間単位で利用できるサービスです。自社でGPUサーバーを購入・維持する必要なく、機械学習の学習(トレーニング)や推論(インファレンス)の処理を実行できます*1。
AWSのGPUインスタンスは大きく2つの系統に分類されます。P系はGPU間通信が高速で、複数のGPUを連携させる大規模なディープラーニング学習に向いています。G系はGPU間通信性能がそれほど重要でない推論や小規模な学習を対象とし、コストを重視する場面での選択肢になります*1。
料金はインスタンスタイプと起動時間の積算で決まります。GPUインスタンスはCPUのみのインスタンスと比べて時間単価が高いため、起動しっぱなしのインスタンスが多いほど月額費用が膨らみます。AI開発を本格化するほど、インスタンスの選択と起動時間の管理がコスト全体に影響してきます。
代表的なインスタンスタイプ
P系の代表としてP4d(NVIDIA A100搭載)があります。AWS公式によると、P4dはP3/P3dnと比べてML学習コストを60%削減し、深層学習性能を平均2.5倍向上させるとされています*1。P5(H100搭載)はさらに大規模なモデルや科学技術計算に対応しています*2。
G系はリアルタイム推論や3Dレンダリング、小規模な微調整(ファインチューニング)といった用途をカバーします。P系に比べて時間単価が抑えられるため、推論APIのサービング環境やプロトタイプ開発での利用に適しています。
用途別の選び方——学習はP系、推論はG系が基本
GPUインスタンスの選び方で費用が大きく変わります。用途を整理してから機種を選ぶことが、無駄なコストを防ぐ起点になります。
大規模ディープラーニング学習——P系が向く理由
複数のGPUを使って大規模モデルを学習させる場合、GPU間で大量の勾配データを高速にやり取りする必要があります。P4dやP5はNVLink(高速GPU間インターコネクト)やInfiniBandを搭載しており、GPU間通信のボトルネックを減らせます。GPUを多く使うほど分散学習の効率が高まり、学習時間の短縮につながります*1。
「高スペック機種は高い」というイメージがありますが、処理時間と時間単価のバランスで考えると、性能の高いインスタンスの方がトータルコストが低くなる場合があります。たとえば、低スペックのインスタンスで100時間かかる学習が、P4dなら40時間で終わる場合、トータルの請求額はP4dの方が少なくなります。
推論・小規模学習——G系を優先すべきケース
学習済みモデルを使って予測や分類を返す推論処理は、学習ほどGPU間通信を必要としません。G系インスタンスは推論に必要なGPU性能を持ちつつ、P系より時間単価を抑えています。リアルタイムAPIとして推論エンドポイントを常時稼働させる場合は、G系を選ぶことで月次費用を下げやすくなります。
また、既存モデルをサービス固有データで追加学習させる小規模なファインチューニングでは、GPU間通信が限定的です。この場合もG系で十分なケースが多く、P系を使うとオーバースペックになりやすいです。
Spotインスタンス活用——中断耐性とコスト削減のトレードオフ
AWS SpotインスタンスはAWSの未使用EC2容量を利用する仕組みで、オンデマンド価格から90%割引になる場合があります*1。P4dもSpotインスタンスとして利用できるため、GPU費用を大きく抑える手段として注目されています。
Spotが有効な学習処理の特徴
Spotインスタンスは需要が高まるとAWSから2分前通知で中断されることがあります。そのため、学習途中のチェックポイント(モデルの保存)を定期的に取得しておく設計が必要です。チェックポイントがあれば、Spot中断後に再起動しても直前の状態から学習を再開できます。
バッチ処理型の学習(夜間・週次での大規模モデル再学習など)は中断に対応しやすく、Spot活用に向いています。一方、リアルタイム推論エンドポイントのようにサービス稼働継続が必要な場合は、Spotではなくオンデマンドまたはリザーブドインスタンス(RI)を選ぶことが安定性の観点から重要です。
SageMakerとの組み合わせ
Amazon SageMaker(機械学習フルマネージドサービス)を使う場合、トレーニングジョブでSpotインスタンスを指定する設定があります。SageMakerはチェックポイントのS3保存と再起動を管理してくれるため、Spot中断への対応をコードに組み込む手間を減らせます。Spotトレーニングの管理を自前で実装する工数を省きたい場合は、SageMakerの活用が現実的な選択肢です。
料金動向——AWSが発表した値下げの背景と影響
AWSはNVIDIA GPU高速インスタンスの料金を45%引き下げると発表しています*1。GPU需要の増大に伴う競合クラウドとの競争激化が背景にあるとみられ、AI開発・運用のコストに直接影響します。
値下げの対象インスタンスや適用時期はAWS公式の発表で確認することが必要です。既にオンデマンド料金での運用を続けている場合、最新の料金表を確認することで費用削減の余地が見つかる可能性があります。
また、AWSはリザーブドインスタンス(RI)やSavings Plans(コミットメント割引)をGPUインスタンスにも提供しています。推論エンドポイントのように稼働が継続する環境では、1年または3年のコミットメントで割引を受けることが費用削減の選択肢になります。
運用での最適化——右サイジングと処理時間のバランス
インスタンスを起動したまま放置することがGPU費用の増大につながります。右サイジング(Right-Sizing)とは、実際の処理要件に対してオーバースペックなインスタンスを適切なサイズに調整する運用手法です。
使用率モニタリングで過剰スペックを見つける
Amazon CloudWatch(モニタリングサービス)でGPU使用率を計測することで、インスタンスが処理能力の何割を使っているかを把握できます。GPU使用率が常時30%以下であれば、より小さいインスタンスへの変更を検討できます。
AWS Cost Explorer(コスト管理ツール)のリソース最適化レコメンデーション機能を使うと、使用率に基づいたダウンサイジング候補を自動で提示してもらえます。これを起点に定期的な見直しを行うことが費用管理の基本となります。
処理時間と時間単価のバランス
高性能インスタンスへの切り替えを「コスト増」と捉えがちですが、処理時間の短縮でトータルコストが下がる場合があります。たとえば、時間単価がA機種の2倍であっても、処理時間が3分の1に短縮されるなら、トータルコストはA機種の3分の2に下がります。
処理時間と時間単価を両方考慮した「処理あたりのコスト」で比較することが、実態に即した機種選定につながります。複数のインスタンスでベンチマークを実施し、数値で比較することが大切です。
外注で進める場合——委託先の選定ポイント
GPU費用の最適化を内製で進めるには、AWSの料金体系の理解、機械学習の学習・推論パイプラインの設計経験、Spotインスタンスの中断対応実装など、複数の専門領域が必要です。社内にAWS専任エンジニアがいない場合や、コスト最適化の優先度を上げたい場合は、外注によって対応できます。
委託先に確認すべきポイント
- GPUインスタンスの選定・最適化実績:ML学習・推論のインフラ設計経験があるかを確認します。P系・G系の使い分けやSpot運用の実績があるかが判断材料になります。
- 元請(プライムベンダー)かどうか:元請として自社エンジニアが直接担当する体制かを確認します。再委託が主体だと情報伝達の遅延やリスクが生じやすくなります。
- コスト可視化と効果測定が含まれるか:現状分析・施策提案・実行後のコスト比較レポートが契約範囲に含まれるかを確認します。
外注のステップ
まず、現状のGPUインスタンス構成と月次コストをAWS Cost Explorerで整理し、委託先に提供します。どのインスタンスが費用の大半を占めているかを事前に把握しておくと、提案精度が高まります。
次に、委託先とともに学習・推論それぞれの処理要件を確認し、インスタンス選定・Spot活用・RIの組み合わせを決定します。設定変更は検証環境でテストしてから本番へ適用するプロセスを基本とします。
運用開始後は月次でコストを確認し、使用率が変化したタイミングで再調整を行うサイクルを維持することが継続的な費用管理につながります。
内製と外注の比較——必要スキルとリスク管理の違い
GPU費用の最適化を内製で進めるか外注するかは、社内のAWS・ML習熟度と対応リソースによって変わります。双方の特徴を整理します。
| 比較軸 | 内製 | 外注 |
|---|---|---|
| 必要スキル | AWSの料金体系理解、ML学習・推論パイプライン設計、Spotインスタンス中断対応実装、Cost Explorerの操作、SageMaker/CloudWatchの活用経験 | 社内は窓口担当者(現状確認・変更承認)のみで対応可能 |
| 作業リスク | Spot中断設計の不備による学習の巻き戻し、インスタンス変更に伴む学習パイプラインの再設計コスト | 委託先が影響調査・設定確認を担うため、設計ミスのリスクを抑えられる |
| 対応スピード | GPU料金体系やML基盤の学習コストが生じ、着手まで時間を要する場合がある | AWS・ML実績のある委託先であれば、標準的な最適化パターンで早期着手できる |
| 継続管理 | 社内にノウハウが蓄積され、自走での継続最適化が可能になる | 継続監視を委託する場合は委託先依存になる。 内製化計画をセットで設計することが望ましい |
| 向いているケース | AWS専任エンジニアが在籍し、ML基盤の内製化を進めている | ML基盤の担当が兼務、またはSpot運用の実装経験がなく設計に不安がある |
内製で進める場合に必要なスキルと工数の目安
内製でGPU費用を最適化するには、AWSの料金体系の知識にとどまらず、ML学習パイプラインのコード設計、Spot中断時のチェックポイント保存・再開ロジックの実装、GPU使用率のモニタリング設計など、複数領域の知識が必要です。
Spotインスタンスで安定した学習を行うには、フレームワーク(PyTorchやTensorFlowなど)ごとのチェックポイント実装と、SageMakerや自前スクリプトでの中断検知が求められます。これらを組み合わせた実装が未経験の場合、初期設計に相応の工数が発生します。
注意点——Spot中断とチェックポイント設計
Spotインスタンスのコスト削減効果は大きい反面、中断への備えが不十分だと学習が無駄になります。運用前に以下の点を整理しておくことが大切です。
Spot中断の仕組みと2分通知
AWSがSpotインスタンスを中断する際、インスタンスメタデータ経由で2分前に通知が届きます。この通知を検知してチェックポイントを保存し、学習を一時停止する処理を実装しておく必要があります。通知を見逃した場合は、直前のチェックポイントから巻き戻しになります。
PyTorchやTensorFlowには定期的にモデルの状態をファイルに保存するAPIが用意されています。S3へのチェックポイント保存を数十分ごとに行う設計にしておくと、中断時の損失を最小化できます。
Spot中断が許容できない処理への対応
推論APIのように稼働継続が必要な処理にSpotを使うと、中断時にサービスが停止します。こうした処理にはオンデマンドインスタンスまたはリザーブドインスタンスを使い、Spotは学習処理に限定するという使い分けが基本です。
また、Spotの可用性はAWSのキャパシティ状況によって変動します。特定のインスタンスタイプ・リージョン・AZに限定するとSpotが確保できない場面が生じます。Spot Fleet(複数タイプを組み合わせてSpotを確保するオプション)やEC2 Auto Scalingを活用して、代替インスタンスタイプを指定しておくことが安定運用につながります。
学習コードへのSpot対応実装工数
Spot中断対応の実装は、学習スクリプトの改修と検証を含めると一定の工数がかかります。既存の学習コードがチェックポイントを考慮していない場合は、フレームワークごとの実装方針を確認したうえで改修範囲を見積もることが必要です。外注先にこの実装を依頼する場合は、使用するフレームワークとモデルの規模を事前に共有しておくと提案精度が高まります。
まとめ——GPU費用を抑えるための3つの判断軸
本稿では、AWS GPUインスタンスの種類と料金の仕組み、用途別の選び方、Spot活用のトレードオフ、料金動向、運用最適化の手法、外注・内製の比較、そして注意点を整理しました。要点を3つに集約すると次のとおりです。
第一に、GPUインスタンスはP系(大規模学習)とG系(推論・小規模学習)を用途で使い分けることが費用を抑える起点です。学習にG系、推論にP系を使うようなオーバースペックな選択は、処理単価を必要以上に上げます。
第二に、中断耐性のある学習処理にはSpotインスタンスを活用することで、オンデマンド比で大幅な割引を受けられる可能性があります。ただし、Spot運用にはチェックポイント設計が前提であり、実装なしに使うと学習が無駄になるリスクがあります。
第三に、GPUインスタンスの選定・Spot実装・右サイジングには複数の専門知識が必要で、社内に専任リソースがない場合は外注によってリスクを抑えながら費用削減を進めることが現実的です。委託先は元請かどうか・GPU/ML基盤の実績・コスト効果測定の有無を確認することが大切です。
よくある質問
P4dとG系インスタンスはどのような用途で使い分けるのが適切ですか?
P4d(NVIDIA A100搭載)は複数GPUを連携させる大規模なディープラーニング学習に向いています。G系は推論や小規模な学習でコストを重視する場合の選択肢です*1。学習済みモデルを使ったリアルタイム推論APIや、サービス固有データでの小規模ファインチューニングはG系で対応できるケースが多く、P4dを使うとオーバースペックになりやすいです。まず処理の種類と規模を確認してから機種を選ぶ順序が大切です。
SpotインスタンスでGPU学習を行う場合、どのような準備が必要ですか?
Spotインスタンスは中断時に2分前通知が届くため、この通知を検知してチェックポイント(モデルの途中状態)をS3に保存する処理をあらかじめ実装しておく必要があります*1。PyTorchやTensorFlowにはチェックポイント保存APIが用意されており、数十分ごとに定期保存する設計にしておくと中断時の損失を少なくできます。Amazon SageMakerのSpotトレーニング機能を使うと、チェックポイントの管理や再開処理をSageMakerが担ってくれるため、実装工数を削減できます。
AWSのGPUインスタンスの値下げ発表は既存の契約にも適用されますか?
AWSはNVIDIA GPU高速インスタンスの料金を45%引き下げると発表しています*1。適用対象のインスタンスタイプや有効時期はAWS公式の料金ページで確認することをお勧めします。リザーブドインスタンス(RI)の既存契約への適用可否については、契約内容とAWSの発表を照合することが必要です。最新の料金表を定期的に確認することで、費用削減の余地を見逃さずに済みます。
GPUインスタンスのコスト最適化を外注する際、どのような情報を事前に用意するとよいですか?
AWS Cost Explorerで抽出した直近3か月のインスタンス別コスト明細、現在稼働しているGPUインスタンスの一覧(タイプ・リージョン・起動時間)、学習・推論それぞれの処理頻度とおおよその処理時間、使用しているMLフレームワーク(PyTorch/TensorFlowなど)を準備しておくと、委託先の分析と提案がスムーズになります。Spot未使用の場合はその理由(チェックポイント未実装など)も共有しておくと、対応範囲の見積もり精度が高まります。
高性能なP4dを使うとコストが上がりませんか?
時間単価だけを見るとP4dはP3より高くなりますが、AWS公式によるとP4dはP3/P3dn比でML学習コストを60%削減し、深層学習性能を平均2.5倍向上させるとされています*1。処理時間が短縮されることで、トータルの起動時間×時間単価の積が下がる場合があります。単価ではなく「処理あたりのコスト」で比較することが、実態に即した機種選定のポイントです。
著者:テレリモ総研編集部 鈴木 亮佑
ご不明な点はお問い合わせフォームからもご連絡いただけます。
- *1 出典:Amazon Web Services「Amazon EC2 P4d インスタンス」(AWS公式)
- *2 出典:Amazon Web Services「Amazon EC2 P5 インスタンス」(AWS公式)