システムエンジニアの椎葉です。 EC2サーバーにてGPUプロセスを使用する際にGPUのドライバが外れてしまうことがあります。 簡単にGPUドライバの適用する方法についてご紹介します。
GPU処理にてエラーが発生した場合、下記のコマンドでGPUの状態を確認します。
nvidia-smi
GPUのドライバが外れてしまっていることが分かります。
Every 1.0s: nvidia-smi ip-XX-XXX-X-XX: Mon Jan 30 10:47:09 2023 NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
NVIDIA GRIDドライバーインストール手順
1.NVIDIA GRIDドライバーインストールユーティリティをダウンロードします。
aws s3 cp --recursive s3://ec2-linux-nvidia-drivers/latest/ .
2.ドライバーのインストールを実行するアクセス権限を追加します。
chmod +x ./NVIDIA-Linux-x86_64*.run
3.ダウンロードしたGRIDドライバーをインストールします。
sudo /bin/sh ./NVIDIA-Linux-x86_64*.run
4.インストールの確認が表示されるので環境に合わせて選択肢を選んでいきます。
「Continue installation」を選択
「OK」を選択
「Yes」を選択
「OK」を選択
「NO」を選択
「OK」を選択
5.インスタンスを再起動します
sudo reboot
6.下記のコマンドでGPUの状態を確認します。
nvidia-smi -q | head
インストールされたNVIDIAドライバーのバージョン情報やGPUに関連する情報が表示されることを確認します。
==============NVSMI LOG============== Timestamp : Thu May 6 05:01:57 2021 Driver Version : 460.73.01 CUDA Version : 11.2 Attached GPUs : 1 GPU 00000000:00:1E.0 Product Name : Tesla M60
終わりに
GPU処理がうまく動かなくなったというときは慌てず、GPUのドライバが外れてしまっていないか確認するようにしましょう。 この記事が皆さんの参考になると嬉しいです。