skymatix Developers Blog

株式会社スカイマティクスの開発チームによるDevelopers Blogです。

【簡単】EC2サーバーへGPUドライバを再設定する手順

システムエンジニアの椎葉です。 EC2サーバーにてGPUプロセスを使用する際にGPUのドライバが外れてしまうことがあります。 簡単にGPUドライバの適用する方法についてご紹介します。

GPU処理にてエラーが発生した場合、下記のコマンドでGPUの状態を確認します。

nvidia-smi

GPUのドライバが外れてしまっていることが分かります。

Every 1.0s: nvidia-smi                         ip-XX-XXX-X-XX: Mon Jan 30 10:47:09 2023
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
NVIDIA GRIDドライバーインストール手順

1.NVIDIA GRIDドライバーインストールユーティリティをダウンロードします。

aws s3 cp --recursive s3://ec2-linux-nvidia-drivers/latest/ .

2.ドライバーのインストールを実行するアクセス権限を追加します。

chmod +x ./NVIDIA-Linux-x86_64*.run

3.ダウンロードしたGRIDドライバーをインストールします。

sudo /bin/sh ./NVIDIA-Linux-x86_64*.run

4.インストールの確認が表示されるので環境に合わせて選択肢を選んでいきます。

「Continue installation」を選択

「OK」を選択

「Yes」を選択

「OK」を選択

「NO」を選択

「OK」を選択

5.インスタンスを再起動します

sudo reboot

6.下記のコマンドでGPUの状態を確認します。

nvidia-smi -q | head

インストールされたNVIDIAドライバーのバージョン情報やGPUに関連する情報が表示されることを確認します。

==============NVSMI LOG==============

Timestamp                                 : Thu May  6 05:01:57 2021
Driver Version                            : 460.73.01
CUDA Version                              : 11.2

Attached GPUs                             : 1
GPU 00000000:00:1E.0
    Product Name                          : Tesla M60
終わりに

GPU処理がうまく動かなくなったというときは慌てず、GPUのドライバが外れてしまっていないか確認するようにしましょう。 この記事が皆さんの参考になると嬉しいです。

www.slideshare.net