DP-100試験概要質問88：ローカルペナルティ検出データのスケーリング戦略を実装する必要があります。どの正規化タイプを使用する必要がありますか?

<<前へ次へ>>

質問 88/262

ローカルペナルティ検出データのスケーリング戦略を実装する必要があります。
どの正規化タイプを使用する必要がありますか?

A. ストリーミング B. 重量 C. バッチ D. コサイン

正解：C

ポストバッチ正規化統計 (PBN) は、推論元の論文で使用できるバッチ正規化の母平均と分散を評価する方法の Microsoft Cognitive Toolkit (CNTK) バージョンです。
CNTK では、カスタムネットワークは BrainScriptNetworkBuilder を使用して定義され、CNTK ネットワーク記述言語「BrainScript」で記述されます。シナリオ：
ローカルペナルティ検出モデルは、BrainScript を使用して作成する必要があります。
参考文献:
https://docs.microsoft.com/en-us/cognitive-toolkit/post-batch-normalization-statistics モデリング用のデータを準備するテストレット 2 ケーススタディこれはケーススタディです。ケーススタディの時間は個別に設定されていません。各ケースを完了したいだけの試験時間を使用できます。ただし、この試験には追加のケーススタディやセクションがある場合があります。指定された時間内にこの試験に含まれるすべての問題を完了できるように、時間を管理する必要があります。
ケーススタディに含まれる質問に答えるには、ケーススタディで提供されている情報を参照する必要があります。ケーススタディには、ケーススタディで説明されているシナリオに関する詳細情報を提供する資料やその他のリソースが含まれている場合があります。このケーススタディでは、各質問は他の質問とは無関係です。
このケーススタディの最後に、レビュー画面が表示されます。この画面では、試験の次のセクションに進む前に、回答を確認して変更を加えることができます。新しいセクションを開始すると、このセクションに戻ることはできません。
ケーススタディを開始するには
このケーススタディの最初の質問を表示するには、[次へ] ボタンをクリックします。質問に答える前に、左ペインのボタンを使用してケーススタディの内容を調べます。これらのボタンをクリックすると、ビジネス要件、既存の環境、問題ステートメントなどの情報が表示されます。ケーススタディに [すべての情報] タブがある場合、表示される情報は、後続のタブに表示される情報と同じであることに注意してください。質問に答える準備ができたら、[質問] ボタンをクリックして質問に戻ります。
概要
あなたは Fabrikam Residences のデータサイエンティストです。Fabrikam Residences は、米国の高品質の私有および商業用不動産を専門とする会社です。Fabrikam Residences はヨーロッパへの拡大を検討しており、ヨーロッパの主要都市の個人住宅の価格を調査するように依頼しています。
Azure Machine Learning Studio を使用して、プロパティの中央値を測定します。Linear Regression モジュールと Bayesian Linear Regression モジュールを使用して、不動産価格を予測する回帰モデルを作成します。
データセット
ロンドンとパリの 2 つの都市のプロパティの詳細を含む CSV 形式の 2 つのデータセットがあります。実験の開始点として、両方のファイルを個別のデータセットとして Azure Machine Learning Studio に追加します。両方のデータセットには、次の列が含まれています。

最初の調査では、MedianValue 列を除いて、データセットの構造が同一であることが示されています。
小さいパリのデータセットにはテキスト形式の MedianValue が含まれていますが、より大きなロンドンのデータセットには数値形式の MedianValue が含まれています。
データの問題
欠損値
両方のデータセットの AccessibilityToHighway 列に欠損値が含まれています。欠損値を埋める前に、データ内の他の変数を使用して条件付きでモデル化されるように、欠損データを新しいデータに置き換える必要があります。
各データセットの列には、欠損値と null 値が含まれています。データセットには多くの外れ値も含まれています。Age 列には、外れ値の割合が高くなっています。Age 列に外れ値がある行を削除する必要があります。
MedianValue 列と AvgRoomsInHouse 列は両方とも、データを数値形式で保持します。2 つの列の関係をより詳細に分析するには、特徴選択アルゴリズムを選択する必要があります。
モデルフィット
モデルは過剰適合の兆候を示しています。オーバーフィッティングを減らす、より洗練された回帰モデルを作成する必要があります。
実験要件
パフォーマンスを評価するには、線形回帰モジュールとベイジアン線形回帰モジュールを相互検証するように実験を設定する必要があります。いずれの場合も、データセットの予測子は MedianValue という名前の列です。Paris データセットの MedianValue 列のデータ型が、London データセットの構造と一致していることを確認する必要があります。
結果を予測するには、データの列に優先順位を付ける必要があります。関係を測定するには、ノンパラメトリック統計を使用する必要があります。
MediaValue 列と AvgRoomsinHouse 列の間の関係を分析するには、特徴選択アルゴリズムが必要です。
モデルトレーニング
順列機能の重要性
トレーニング済みのモデルとテストデータセットが与えられた場合、特徴変数の Permutation Feature Importance スコアを計算する必要があります。モデルの絶対適合性を判断する必要があります。
ハイパーパラメータ
学習フェーズを高速化するには、モデルの学習プロセスでハイパーパラメーターを構成する必要があります。さらに、この構成では、各評価間隔で最もパフォーマンスの低い実行をキャンセルする必要があるため、成功する可能性が高いモデルに労力とリソースを振り向けることができます。
モデルがハイパーパラメータ調整でコンピューティングリソースを効率的に使用しない可能性があることを懸念しています。また、モデルによって全体的な調整時間の増加が妨げられる可能性があることも懸念されます。したがって、有望なジョブを終了せずに節約を提供するモデルに早期停止基準を実装する必要があります。
テスト
Azure Machine Learning Studio のパーティションとサンプルモジュールを使用して、サンプリングに基づいてデータセットの複数のパーティションを作成する必要があります。
交差検証
交差検証のために 3 つの等しい分割を作成する必要があります。テストデータセットとトレーニングデータセットの行が、各都市の主な河川に近いプロパティによって均等に分割されるように、クロス検証プロセスを構成する必要もあります。データがサンプリングプロセスを通過する前に、このタスクを完了する必要があります。
線形回帰モジュール
線形回帰モジュールをトレーニングするときは、モデルで使用する最適な機能を決定する必要があります。機能の重要性プロセスが完了する前と後のパフォーマンスを測定するために提供される標準メトリックを選択できます。複数のトレーニングモデル間での特徴の分布は一貫している必要があります。
データの視覚化
テスト結果を Fabrikam Residences チームに提供する必要があります。結果の表示に役立つデータ視覚化を作成します。
モデルの診断テスト評価を行うには、受信者動作特性 (ROC) 曲線を作成する必要があります。2 クラスデシジョンフォレストと 2 クラスデシジョンジャングルモジュールを互いに比較するには、Azure Learning Studio で ROC 曲線を作成するための適切な方法を選択する必要があります。

質問 88/262

コメントを発表する

Download PDF File