<<前へ 次へ>>

質問 129/131

サーバーに新しくインストールされたNVIDIA AIOO Tensor Core GPUの検証を担当していただきます。GPUが正しく認識され、期待されるパフォーマンスレベルで動作していることを確認する必要があります。以下の項目を検証するための手順(コマンドとツールを含む)を説明してください。1) GPUの存在と基本情報、2) PCIe帯域幅とリンク速度、3) 負荷がかかった状態での持続的な計算パフォーマンス。

コメントを発表する

あなたのメールアドレスは公開されません。必要な部分に * が付きます。

質問一覧「131問」
質問1 BlueField-2 DPUを2つの25GbEポートでリンクアグリゲーション(...
質問2 systemdを実行しているシステムで「nouveau」ドライバをブラック...
質問3 Which of the following are crucial considerations when valid...
質問4 顧客から、既存のAIサーバーにNVIDIA GPUを追加インストールした...
質問5 AIインフラストラクチャは、複数のNVIDIA GPUから発生する熱を放...
質問6 AI/HPC環境でMIG(マルチインスタンスGPU)を使用する利点を正確...
質問7 大規模なA1モデルを、ネットワーク接続ストレージ(NAS)デバイ...
質問8 NVIDIAAIOO GPU 上で MIG を構成した後、「nvidia-smu」を実行す...
質問9 最近のCUDAアップデート後、マルチGPU通信にNCCL(NVIDIA Collec...
質問10 8基のGPUを搭載したAIサーバーで、高負荷時にランダムなシステム...
質問11 NVIDIA GPUを搭載したサーバーを最適な電力効率で構成しています...
質問12 A1インフラストラクチャでNVIDIA Spectrum-Xスイッチを使用して...
質問13 複数のラックにまたがる大規模なAIトレーニングクラスタを設計し...
質問14 InfiniBandホストで使用される次の「ibroute」コマンドを考えて...
質問15 ノードごとに複数のNVIDIA AIOO GPUを搭載した新しいクラスター...
質問16 ユーザーが複数の組織にまたがるリソースにアクセスできるように
質問17 NVLinkで接続された2つのNVIDIA GPUを搭載したサーバーがありま...
質問18 企業プロキシ経由で「pip」を使用してNGC CLIをインストールしよ...
質問19 256個のGPUを搭載したNVIDIAエンタープライズAIファクトリーにお...
質問20 ユーザーから、ディープラーニングのトレーニングジョブが「CUDA...
質問21 サーバーにNVIDIAAIOO GPUを構成していますが、インストールとド...
質問22 新しいGPUクラスタでNVIDIA Base Command Manager(BCM)の高可...
質問23 あなたは、AIワークロードに大きく依存するデータセンターのエネ...
質問24 You are deploying a BlueField-3 DPU within a secure environm...
質問25 顧客はエンタープライズ規模の展開を想定したAIファクトリーを設...
質問26 企業のITチームは、すべてのGPUサーバーにSpectrum-X Ethernetネ...
質問27 データセンターは、東西方向のトラフィックが多いA1トレーニング...
質問28 AIクラスタは、シングルモード光ファイバーを使用して2kmの距離...
質問29 NVIDIA Spectrum-X ベースの A1 クラスターでネットワーク パフ...
質問30 あるメディア企業は、大量の非構造化ビデオデータを保存・処理す
質問31 InfiniBandファブリックにおいて、ルーティングに関してサブネッ...
質問32 InfiniBandサーバーが動作を停止し、システム管理者が「ibstat」...
質問33 あなたはコロケーション施設に新しいAI推論サーバーを設置しよう...
質問34 You're deploying a multi-GPU training job on a cluster using...
質問35 ある企業がNVIDIA DGX BasePODアーキテクチャを使用してAIファク...
質問36 RDMAベースの分散トレーニングに使用されているサーバーで、NVID...
質問37 ある金融サービス会社は、複数のサイトにわたる迅速な推論とデー
質問38 You are configuring an InfiniBand subnet with multiple switc...
質問39 You're deploying BlueField OS to multiple SmartNICs with var...
質問40 After a recent OS upgrade, you need to reinstall NVIDIA GPU ...
質問41 After ClusterKit reports " GPU-Host latency exceeds threshol...
質問42 Kubernetesクラスタ内に、異なるバージョンのNVIDIAドライバを実...
質問43 システム管理者は、NVIDIA DGX A100 に潜在的なハードウェア障害...
質問44 Redfish経由でBlueField-3 DPU BMCファームウェアをアップデート...
質問45 出力結果を参照してください。 ~ $ sudo nvsm show healthinfo ...
質問46 クラスター拡張後、リーフスイッチでトランシーバーの「ファーム
質問47 AIトレーニング用に設計されたサーバーに、NVIDIA AIOO GPUを4枚...
質問48 NVIDIA認定プロフェッショナルA1インフラストラクチャ(NCP-AII...
質問49 DockerコンテナでNVIDIA GPUを使用することに関して、以下の記述...
質問50 An infrastructure engineer is preparing a new AI cluster for...
質問51 You have installed NVIDIA drivers using the .run' installer ...
質問52 あなたは、複数のNVIDIA A100 GPUを搭載したAIインフラストラク...
質問53 You encounter a situation where a container running with GPU...
質問54 導入後のチェックで、NVIDIA GPUアクセラレーション対応データセ...
質問55 DGXノードで24時間のストレステストを実行した後、システム管理...
質問56 あなたはNVIDIA NVLinkスイッチシステムの構成を担当しています...
質問57 A security policy requires you to log all NGC CLI commands e...
質問58 クラスタ展開中に、UFMケーブル検証ツールが複数のInfiniBandリ...
質問59 高性能ストレージ向けにBlueField-3 DPUベースのサーバーを構成...
質問60 NVIDIA A100 GPU 上に 2 つの lg.10gb MIG インスタンスを構成し...
質問61 A system administrator needs to configure a BlueField DPU an...
質問62 An engineer must ensure that a BlueField-3 NIC firmware down...
質問63 Dockerコンテナ内で実行されているGPUアクセラレーション対応ア...
質問64 例えば、2つのポートを接続する必要があり、片方がSFP、もう片方...
質問65 サーバーに新しいNVIDIA GPUを物理的にインストールした後、シス...
質問66 During a 72-hour HPL burn-in test on a DGX H100 cluster, one...
質問67 高密度サーバー環境にNVIDIA AIOO GPUのクラスタをデプロイする...
質問68 You are developing a CI/CD pipeline for deploying A1 models ...
質問69 An administrator needs to perform a comprehensive pre-produc...
質問70 A system administrator needs to configure a BlueField DPU an...
質問71 BlueField DPIJをインラインセキュリティアプライアンスとして展...
質問72 GPUDirect Storageを使用してGPUとNVMeドライブ間のメモリへの直...
質問73 Consider a scenario where you are setting up a high-performa...
質問74 複数のNVIDIA A100 GPUを搭載したAMD EPYCサーバーのクラスタ上...
質問75 あなたは、BlueField DPIJを活用してネットワークトラフィックに...
質問76 故障したNVIDIA GPUを交換した後、システムは起動し、「nvidia-s...
質問77 データサイエンティストから、DGX A100サーバーでのトレーニング...
質問78 管理者は、BlueFieldイメージをターゲットDPUに手動で展開する必...
質問79 NVIDIA GPU上でCUDAアプリケーションを実行している状況を考えて...
質問80 You are tasked with optimizing an Intel Xeon scalable proces...
質問81 エンジニアは、BlueField-3 DPUのBMC上のすべてのコンポーネント...
質問82 BlueField-2 DPUによって高速化されたNVMe-oFトラフィックのパフ...
質問83 あなたは、異なる物理サーバー上で動作する複数のDockerコンテナ...
質問84 BlueField-2 DPUを搭載したサーバー群を管理しています。1台のサ...
質問85 NCCLを用いた分散型深層学習トレーニングに使用されるマルチGPU ...
質問86 ClusterKitが「GPUホストのレイテンシがしきい値を超えました」...
質問87 あなたは、新しいNVIDIA Quantum-2 InfiniBandスイッチの導入に...
質問88 NVIDIA A100 GPUを、以前にMIGモードを設定した後、非MIGモード...
質問89 BCMクラスタのセットアップ中に、エンジニアは高可用性を確保す...
質問90 You are experiencing link flapping (frequent up/down transit...
質問91 BlueField-2 DPIJ を構成してネットワーク仮想化機能をオフロー...
質問92 You observe high latency and low bandwidth between two GPUs ...
質問93 セキュアブートが有効になっているシステムでGPUアクセラレーシ...
質問94 CPUとGPUの両方のリソースを使用するクラウドネイティブアプリケ...
質問95 高度にセキュリティが確保された環境にBlueField OSを導入する場...
質問96 A1サーバーでGPU負荷が高いときにカーネルパニックが頻繁に発生...
質問97 システム管理者がサーバーにGPUをインストールしようとしていま...
質問98 マルチノードHPLバーンイン中に、GPUの使用率が不均一になること...
質問99 48時間のNCCLバーンインテストにおいて、持続的なファブリックス...
質問100 CUDA対応MPI用に複数のGPUを搭載したサーバーを構成しています。...
質問101 Consider the following 'Ispci' output snippet after installi...
質問102 ベクトル加算を実行することを目的とした、以下の簡略化されたCU...
質問103 AIインフラストラクチャ向けにRoCEv2ネットワークを構成していま...
質問104 あなたは、NVIDIA GPUを搭載したオンプレミスのデータセンターや...
質問105 新しいGPUクラスタでNCCLバーンインテストを実行する主な目的は...
質問106 冷却能力が限られているデータセンターにGPUサーバーを設置しま...
質問107 Your AI training pipeline involves a pre-processing step tha...
質問108 システムエンジニアは、すべてのGPUのvGPUスケジューリング動作...
質問109 システム管理者がDGX H100サーバーに障害が発生していることに気...
質問110 A1サーバーで、GPUアクセラレーション処理中にCPU使用率が異常に...
質問111 NVIDIA GPU を使用する Docker コンテナが断続的に「CUDA ERROR ...
質問112 クラスタ管理者は、UFMを使用して200ポートにわたるトランシーバ...
質問113 You need to configure persistent network settings on your Bl...
質問114 A critical AI model training job consistently fails on a spe...
質問115 あなたは、大規模な推薦システム向けの高性能ネットワークを設計
質問116 NVIDIA NVLinkスイッチの状態とパフォーマンスを監視するために...
質問117 大規模言語モデル(LLM)のトレーニングジョブが、クラスタ内の...
質問118 If two ports must be connected, but one is SFP and one is QS...
質問119 数日間にわたるNeMoのバーンインテスト中に、断続的に「GPUがバ...
質問120 複数のNVIDIA A100 GPUを搭載したサーバーラックの冷却戦略を計...
質問121 マルチテナントKubernetesクラスタでGPUワークロードを分離する...
質問122 NVIDIA GPUとNVLinkを使用するデータセンターにおいて、ネットワ...
質問123 NVIDIA Spectrum-XスイッチをA1インフラストラクチャで使用する...
質問124 デュアル電源を搭載したDGX A100サーバーで、BMCログに重大な電...
質問125 When setting up a multi-server, multi-GPU environment using ...
質問126 AIインフラストラクチャでは、ノード間通信にNVIDIA ConnectX-7 ...
質問127 BlueField-3 DPUは、制御プレーンとデータプレーンの両方の機能...
質問128 Kubernetes環境で、ノードごとに複数のGPUを搭載した状態でNVIDI...
質問129 サーバーに新しくインストールされたNVIDIA AIOO Tensor Core GP...
質問130 Consider a scenario where you are using NCCL (NVIDIA Collect...
質問131 DGX A100クラスタをHPL-AI 2.0にアップグレードしたところ、パフ...