DP-100技術内容質問9：あなたは群衆の感情ローカルモデルのための機能工学戦略を実行する必要があります。あなたは何をするべきか？

<<前へ次へ>>

質問 9/24

あなたは群衆の感情ローカルモデルのための機能工学戦略を実行する必要があります。
あなたは何をするべきか？

A. 分散分析（ANOVA）を適用します。 B. Pearson相関係数を適用します。 C. スピアマンの相関係数を適用します。 D. 線形判別分析を適用します。

正解：D

説明/参照：
Explanation:
線形判別分析法は、カテゴリ変数や順序変数ではなく、連続変数に対してのみ機能します。
線形判別分析は、変数の平均を比較することによって機能するという点で、分散分析（ANOVA）と似ています。
シナリオ：
データ科学者は、自動機能エンジニアリングと機械学習パイプラインのモデル構築を使用して、ローカル環境でノートブックを構築する必要があります。
地域の群衆の感情モデルの実験では、地域のペナルティ検出データを組み合わせる必要があります。
ローカルモデルのすべての共有機能は連続変数です。
間違った答え：
B：ピアソンの相関係数は、ピアソンのR検定とも呼ばれ、2つの変数間の線形関係を測定する統計値です。係数値を調べることで、2つの変数間の関係の強さ、およびそれらが正の相関関係にあるのか負の相関関係にあるのかを推測できます。
C：スピアマンの相関係数は、ノンパラメトリックおよび非正規分布データで使用するように設計されています。スピアマンの係数は、2つの変数間の統計的依存性のノンパラメトリックな尺度であり、ギリシャ文字のrhoで表されることもあります。スピアマン係数は、2つの変数が単調に関連している度合いを表します。これはスピアマン順位相関とも呼ばれます。序数変数と共に使用できるためです。
参考文献：
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/fisher-linear-判別式分析
https://docs.microsoft.com/ja-jp/azure/machine-learning/studio-module-reference/compute-linear- correlationテストレット2ケーススタディ概要あなたは品質を専門とする会社、Fabrikam Residencesのデータサイエンティストです。アメリカ合衆国の私有および商業用不動産。 Fabrikam Residencesはヨーロッパへの進出を検討しており、ヨーロッパの主要都市の私邸の価格を調査するよう依頼しています。 Azure Machine Learning Studioを使用して、プロパティの中央値を測定します。線形回帰およびベイジアン線形回帰モジュールを使用して、不動産価格を予測する回帰モデルを作成します。
データセット
ロンドンとパリの2つの都市のプロパティ詳細を含むCSV形式のデータセットが2つあり、次の列があります。

2つのデータセットは別々のデータセットとしてAzure Machine Learning Studioに追加され、実験の出発点として含まれています。
データセットの問題
両方のデータセットのAccessibilityToHighway列に欠損値が含まれています。欠損値を埋める前に、欠損データを新しいデータに置き換えて、データ内の他の変数を使用して条件付きでモデル化されるようにする必要があります。
各データセットの列には、欠損値とNULL値が含まれています。データセットには多くの異常値も含まれています。 Age列には異常値の割合が高いです。 Age列に異常値がある行を削除する必要があります。 MedianValue列とAvgRoomsinHouse列はどちらも数値形式のデータを保持します。 2つの列の間の関係をより詳細に分析するには、特徴選択アルゴリズムを選択する必要があります。
モデルフィット
モデルは過剰装備の兆候を示しています。あなたは過剰適合を減らすより洗練された回帰モデルを作成する必要があります。
実験要件
パフォーマンスを評価するために、線形回帰モジュールとベイズ線形回帰モジュールを相互検証するように実験を設定する必要があります。
いずれの場合も、データセットの予測子はMedianValueという名前の列です。最初の調査で、データセットはMedianValue列を除いて構造が同一であることが示されました。小さい方のパリのデータセットはテキスト形式のMedianValueを含み、大きい方のロンドンのデータセットは数値形式のMedianValueを含みます。 ParisデータセットのMedianValue列のデータ型がLondonデータセットの構造と一致していることを確認する必要があります。
結果を予測するには、データの列に優先順位を付ける必要があります。関係を測定するには、パラメーター以外の統計を使用する必要があります。
MedianValue列とAvgRoomsinHouse列の間の関係を分析するには、機能選択アルゴリズムを使用する必要があります。
モデル訓練
訓練されたモデルとテストデータセットを考えて、あなたは特徴変数の順列特徴重要度スコアを計算する必要があります。モデルの精度を調査し、結果を複製するために正しいメトリックを選択するために、置換特徴の重要度モジュールを設定する必要があります。
モデル学習プロセスでハイパーパラメータを設定して、ハイパーパラメータを使用して学習フェーズを短縮することができます。さらに、この構成では、各評価間隔で最もパフォーマンスの低い実行をキャンセルする必要があります。これにより、成功する可能性が高いモデルに向けて労力とリソースが割り当てられます。
あなたは、モデルがハイパーパラメーター調整で計算リソースを効率的に使用しないかもしれないことを心配しています。
また、モデルによって全体的な調整時間の増加が妨げられる可能性もあります。したがって、有望な仕事を中断することなく節約を提供するモデルに早期停止基準を実装する必要があります。
テスト
Azure Machine Learning StudioのPartition and Sampleモジュールを使用して、サンプリングに基づいてデータセットの複数のパーティションを作成する必要があります。交差検定には、3つの等しいパーティションを作成する必要があります。また、テストデータセットとトレーニングデータセットの行が各都市の主要河川の近くにあるプロパティによって均等に分割されるように交差検定プロセスを構成する必要があります。プロパティが川の近くにあることを識別するデータは、NextToRiverという名前の列に保持されています。データがサンプリングプロセスを通過する前に、この作業を完了する必要があります。
大都市の不動産価格のデータを表示する不動産データセットを使用して線形回帰モジュールを学習させるときは、モデルで使用するための最良の機能を決定する必要があります。機能の重要性プロセスが完了する前後に、パフォーマンスを測定するために提供されている標準のメトリックを選択できます。複数のトレーニングモデル間での機能の配分が一貫していることを確認する必要があります。
データの可視化
テスト結果をFabrikam Residencesチームに提供する必要があります。結果の提示に役立つようにデータの視覚化を作成します。
モデルの診断テスト評価を実行するには、受信者動作特性（ROC）曲線を作成する必要があります。 Azure Machine Learning StudioでROC曲線を作成するための適切な方法を選択して、Two-Class Decision ForestモジュールとTwo-Class Decision Jungleモジュールを互いに比較する必要があります。

質問 9/24

コメントを発表する

Download PDF File