NCP-AII復習内容質問119：数日間にわたるNeMoのバーンインテスト中に、断続的に「GPUがバスから切断されました」というエラーが発生します。ハードウェア障害を特定するための診断方法はどれですか？

<<前へ次へ>>

質問 119/131

数日間にわたるNeMoのバーンインテスト中に、断続的に「GPUがバスから切断されました」というエラーが発生します。ハードウェア障害を特定するための診断方法はどれですか？

A. 代替メモリ共有のために HPL_USE_NVSHMEM を有効にします。 B. バーンインと同時にDCGM診断を実行して、GPUの状態指標を監視します。 C. 計算を簡素化するために、BERT モデルから GPT モデルに切り替えます。 D. メモリ負荷を軽減するためにブロックサイズを500MBに縮小します。

質問 119/131

コメントを発表する

Download PDF File