DP-100受験記質問51：群集感情のローカルモデルの特徴エンジニアリング戦略を実装する必要があります。あなたは何をするべきか？

<<前へ次へ>>

質問 51/157

群集感情のローカルモデルの特徴エンジニアリング戦略を実装する必要があります。
あなたは何をするべきか？

A. 分散分析（ANOVA）を適用します。 B. ピアソン相関係数を適用します。 C. スピアマン相関係数を適用します。 D. 線形判別分析を適用します。

正解：D

線形判別分析法は、連続変数でのみ機能し、カテゴリ変数または順序変数では機能しません。
線形判別分析は、変数の平均を比較することによって機能するという点で、分散分析（ANOVA）に似ています。
シナリオ：
データサイエンティストは、機械学習パイプラインでの自動特徴エンジニアリングとモデル構築を使用して、ローカル環境でノートブックを構築する必要があります。
地域の群衆感情モデルの実験では、地域のペナルティ検出データを組み合わせる必要があります。
ローカルモデルのすべての共有機能は連続変数です。
不正解：
B：ピアソンのRテストと呼ばれることもあるピアソン相関係数は、2つの変数間の線形関係を測定する統計値です。係数値を調べることにより、2つの変数間の関係の強さ、およびそれらが正の相関関係にあるか負の相関関係にあるかについて何かを推測できます。
C：スピアマンの相関係数は、ノンパラメトリックおよび非正規分布のデータで使用するように設計されています。スピアマンの係数は、2つの変数間の統計的依存性のノンパラメトリック尺度であり、ギリシャ文字のrhoで表されることもあります。スピアマンの係数は、2つの変数が単調に関連している度合いを表します。順序変数で使用できるため、スピアマンの順位相関とも呼ばれます。
参照：
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/fisher-linear-discriminant-analysis
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/compute-linear-correlation機能エンジニアリングテストレット2の実行ケーススタディこれはケーススタディです。ケーススタディは個別にタイミングが調整されていません。各ケースを完了するのに必要なだけの試験時間を使用できます。ただし、この試験には追加のケーススタディとセクションがある場合があります。あなたはあなたが提供された時間内にこの試験に含まれるすべての質問を完了することができることを確実にするためにあなたの時間を管理しなければなりません。
ケーススタディに含まれている質問に答えるには、ケーススタディで提供されている情報を参照する必要があります。ケーススタディには、ケーススタディで説明されているシナリオに関する詳細情報を提供する展示やその他のリソースが含まれている場合があります。このケーススタディでは、各質問は他の質問から独立しています。
このケーススタディの最後に、レビュー画面が表示されます。この画面では、試験の次のセクションに進む前に、回答を確認して変更を加えることができます。新しいセクションを開始した後は、このセクションに戻ることはできません。
ケーススタディを開始するには
このケーススタディの最初の質問を表示するには、[次へ]ボタンをクリックします。質問に答える前に、左側のペインのボタンを使用して、ケーススタディの内容を調べてください。これらのボタンをクリックすると、ビジネス要件、既存の環境、問題の説明などの情報が表示されます。ケーススタディに[すべての情報]タブがある場合、表示される情報は後続のタブに表示される情報と同じであることに注意してください。質問に答える準備ができたら、[質問]ボタンをクリックして質問に戻ります。
概要
あなたは、米国の質の高い私有および商業用不動産を専門とする会社であるFabrikamResidencesのデータサイエンティストです。Fabrikam Residencesはヨーロッパへの進出を検討しており、ヨーロッパの主要都市の個人住宅の価格を調査するように依頼しました。
Azure Machine Learning Studioを使用して、プロパティの中央値を測定します。線形回帰モジュールとベイズ線形回帰モジュールを使用して、不動産価格を予測する回帰モデルを作成します。
データセット
ロンドンとパリの2つの都市のプロパティの詳細を含む、CSV形式の2つのデータセットがあります。両方のファイルを別々のデータセットとしてAzureMachineLearning Studioに追加し、実験の開始点にします。両方のデータセットには、次の列が含まれています。

最初の調査では、データセットの構造はMedianValue列を除いて同一であることが示されています。
小さいパリのデータセットにはテキスト形式のMedianValueが含まれていますが、大きいロンドンのデータセットには数値形式のMedianValueが含まれています。
データの問題
欠落している値
両方のデータセットのAccessibilityToHighway列に欠落している値が含まれています。欠落しているデータは、欠落している値を入力する前に、データ内の他の変数を使用して条件付きでモデル化されるように、新しいデータに置き換える必要があります。
各データセットの列には、欠落している値とnull値が含まれています。データセットには、多くの外れ値も含まれています。Age列には、外れ値の割合が高くなっています。Age列に外れ値がある行を削除する必要があります。
MedianValue列とAvgRoomsInHouse列は、どちらも数値形式のデータを保持します。2つの列の関係をより詳細に分析するには、特徴選択アルゴリズムを選択する必要があります。
モデルフィット
モデルは過剰適合の兆候を示しています。過剰適合を減らす、より洗練された回帰モデルを作成する必要があります。
実験要件
パフォーマンスを評価するには、線形回帰モジュールとベイズ線形回帰モジュールを相互検証するように実験を設定する必要があります。いずれの場合も、データセットの予測子はMedianValueという名前の列です。ParisデータセットのMedianValue列のデータ型が、Londonデータセットの構造と一致していることを確認する必要があります。
結果を予測するには、データの列に優先順位を付ける必要があります。関係を測定するには、ノンパラメトリック統計を使用する必要があります。
MediaValue列とAvgRoomsinHouse列の間の関係を分析するには、特徴選択アルゴリズムが必要です。
モデルトレーニング
順列特徴の重要性
訓練されたモデルとテストデータセットが与えられた場合、特徴変数の順列特徴重要度スコアを計算する必要があります。モデルの絶対適合を決定する必要があります。
ハイパーパラメータ
学習フェーズを高速化するには、モデル学習プロセスでハイパーパラメータを構成する必要があります。さらに、この構成では、各評価間隔で最もパフォーマンスの低い実行をキャンセルする必要があります。これにより、成功する可能性が高いモデルに労力とリソースが振り向けられます。
モデルがハイパーパラメータ調整で計算リソースを効率的に使用しない可能性があることを懸念しています。また、モデルによって全体的なチューニング時間の増加が妨げられる可能性があることも懸念されます。したがって、有望な仕事を終わらせることなく節約を提供するモデルに早期打ち切り基準を実装する必要があります。
テスト
Azure MachineLearningStudioのPartitionandSampleモジュールを使用したサンプリングに基づいて、データセットの複数のパーティションを作成する必要があります。
相互検証
相互検証のために、3つの等しいパーティションを作成する必要があります。また、テストデータセットとトレーニングデータセットの行が各都市の主要な川の近くにあるプロパティによって均等に分割されるように、交差検定プロセスを構成する必要があります。データがサンプリングプロセスを通過する前に、このタスクを完了する必要があります。
線形回帰モジュール
線形回帰モジュールをトレーニングするときは、モデルで使用するのに最適な機能を決定する必要があります。機能重要度プロセスが完了する前後のパフォーマンスを測定するために提供される標準メトリックを選択できます。複数のトレーニングモデル間での機能の分散は一貫している必要があります。
データの視覚化
テスト結果をFabrikamResidencesチームに提供する必要があります。結果の提示を支援するためにデータの視覚化を作成します。
モデルの診断テスト評価を実行するには、受信者動作特性（ROC）曲線を作成する必要があります。2クラスのDecisionForestモジュールと2クラスのDecisionJungleモジュールを相互に比較するには、AzureLearningStudioでROC曲線を作成するための適切な方法を選択する必要があります。

質問 51/157

コメントを発表する

Download PDF File