DP-100最新知識質問17：ローカルペナルティ検出データのスケーリング戦略を実装する必要があります。どの正規化タイプを使うべきですか？

<<前へ次へ>>

質問 17/24

ローカルペナルティ検出データのスケーリング戦略を実装する必要があります。
どの正規化タイプを使うべきですか？

A. ストリーミング B. 重さ C. ロット D. 余弦

正解：C

説明/参照：
Explanation:
ポストバッチ正規化統計（PBN）は、推定正規化に使用できるバッチ正規化の母平均と分散を評価する方法のMicrosoft Cognitive Toolkit（CNTK）バージョンです。
CNTKでは、カスタムネットワークはBrainScriptNetworkBuilderを使用して定義され、CNTKネットワーク記述言語 "BrainScript"で記述されています。シナリオ：
ローカルペナルティ検出モデルはBrainScriptを使用して作成する必要があります。
参考文献：
https://docs.microsoft.com/ja-jp/cognitive-toolkit/post-batch-normalization-statistics Testlet 2ケーススタディ概要あなたはFabrikam Residencesのデータサイエンティストです。アメリカ。 Fabrikam Residencesはヨーロッパへの進出を検討しており、ヨーロッパの主要都市の私邸の価格を調査するよう依頼しています。 Azure Machine Learning Studioを使用して、プロパティの中央値を測定します。線形回帰およびベイジアン線形回帰モジュールを使用して、不動産価格を予測する回帰モデルを作成します。
データセット
ロンドンとパリの2つの都市のプロパティ詳細を含むCSV形式のデータセットが2つあり、次の列があります。

2つのデータセットは別々のデータセットとしてAzure Machine Learning Studioに追加され、実験の出発点として含まれています。
データセットの問題
両方のデータセットのAccessibilityToHighway列に欠損値が含まれています。欠損値を埋める前に、欠損データを新しいデータに置き換えて、データ内の他の変数を使用して条件付きでモデル化されるようにする必要があります。
各データセットの列には、欠損値とNULL値が含まれています。データセットには多くの異常値も含まれています。 Age列には異常値の割合が高いです。 Age列に異常値がある行を削除する必要があります。 MedianValue列とAvgRoomsinHouse列はどちらも数値形式のデータを保持します。 2つの列の間の関係をより詳細に分析するには、特徴選択アルゴリズムを選択する必要があります。
モデルフィット
モデルは過剰装備の兆候を示しています。あなたは過剰適合を減らすより洗練された回帰モデルを作成する必要があります。
実験要件
パフォーマンスを評価するために、線形回帰モジュールとベイズ線形回帰モジュールを相互検証するように実験を設定する必要があります。
いずれの場合も、データセットの予測子はMedianValueという名前の列です。最初の調査で、データセットはMedianValue列を除いて構造が同一であることが示されました。小さい方のパリのデータセットはテキスト形式のMedianValueを含み、大きい方のロンドンのデータセットは数値形式のMedianValueを含みます。 ParisデータセットのMedianValue列のデータ型がLondonデータセットの構造と一致していることを確認する必要があります。
結果を予測するには、データの列に優先順位を付ける必要があります。関係を測定するには、パラメーター以外の統計を使用する必要があります。
MedianValue列とAvgRoomsinHouse列の間の関係を分析するには、機能選択アルゴリズムを使用する必要があります。
モデル訓練
訓練されたモデルとテストデータセットを考えて、あなたは特徴変数の順列特徴重要度スコアを計算する必要があります。モデルの精度を調査し、結果を複製するために正しいメトリックを選択するために、置換特徴の重要度モジュールを設定する必要があります。
モデル学習プロセスでハイパーパラメータを設定して、ハイパーパラメータを使用して学習フェーズを短縮することができます。さらに、この構成では、各評価間隔で最もパフォーマンスの低い実行をキャンセルする必要があります。これにより、成功する可能性が高いモデルに向けて労力とリソースが割り当てられます。
あなたは、モデルがハイパーパラメーター調整で計算リソースを効率的に使用しないかもしれないことを心配しています。
また、モデルによって全体的な調整時間の増加が妨げられる可能性もあります。したがって、有望な仕事を中断することなく節約を提供するモデルに早期停止基準を実装する必要があります。
テスト
Azure Machine Learning StudioのPartition and Sampleモジュールを使用して、サンプリングに基づいてデータセットの複数のパーティションを作成する必要があります。交差検定には、3つの等しいパーティションを作成する必要があります。また、テストデータセットとトレーニングデータセットの行が各都市の主要河川の近くにあるプロパティによって均等に分割されるように交差検定プロセスを構成する必要があります。プロパティが川の近くにあることを識別するデータは、NextToRiverという名前の列に保持されています。データがサンプリングプロセスを通過する前に、この作業を完了する必要があります。
大都市の不動産価格のデータを表示する不動産データセットを使用して線形回帰モジュールを学習させるときは、モデルで使用するための最良の機能を決定する必要があります。機能の重要性プロセスが完了する前後に、パフォーマンスを測定するために提供されている標準のメトリックを選択できます。複数のトレーニングモデル間での機能の配分が一貫していることを確認する必要があります。
データの可視化
テスト結果をFabrikam Residencesチームに提供する必要があります。結果の提示に役立つようにデータの視覚化を作成します。
モデルの診断テスト評価を実行するには、受信者動作特性（ROC）曲線を作成する必要があります。 Azure Machine Learning StudioでROC曲線を作成するための適切な方法を選択して、Two-Class Decision ForestモジュールとTwo-Class Decision Jungleモジュールを互いに比較する必要があります。
質問セット3

質問 17/24

コメントを発表する

Download PDF File