トピック2、ケーススタディ
概要
あなたは、米国の高品質の私有および商業用不動産を専門とする会社であるFabrikamResidencesのデータサイエンティストです。Fabrikam Residencesはヨーロッパへの進出を検討しており、ヨーロッパの主要都市の個人住宅の価格を調査するように依頼しました。Azure Machine Learning Studioを使用して、プロパティの中央値を測定します。線形回帰モジュールとベイズ線形回帰モジュールを使用して、不動産価格を予測する回帰モデルを作成します。
データセット
ロンドンとパリの2つの都市のプロパティの詳細を含む、CSV形式の2つのデータセットがあり、次の列があります。

2つのデータセットは、別々のデータセットとしてAzure Machine Learning Studioに追加され、実験の開始点として含まれています。
データセットの問題
両方のデータセットのAccessibilityToHighway列に欠落している値が含まれています。欠落しているデータは、欠落している値を入力する前に、データ内の他の変数を使用して条件付きでモデル化されるように、新しいデータに置き換える必要があります。
各データセットの列には、欠落している値とnull値が含まれています。データセットには、多くの外れ値も含まれています。Age列には、外れ値の割合が高くなっています。Age列に外れ値がある行を削除する必要があります。MedianValue列とAvgRoomsinHouse列は、どちらも数値形式のデータを保持します。2つの列の関係をより詳細に分析するには、特徴選択アルゴリズムを選択する必要があります。
モデルフィット
モデルは過剰適合の兆候を示しています。過剰適合を減らす、より洗練された回帰モデルを作成する必要があります。
実験要件
パフォーマンスを評価するには、線形回帰モジュールとベイズ線形回帰モジュールを相互検証するように実験を設定する必要があります。
いずれの場合も、データセットの予測子はMedianValueという名前の列です。最初の調査では、データセットの構造はMedianValue列を除いて同一であることが示されました。小さいパリのデータセットにはテキスト形式のMedianValueが含まれていますが、大きいロンドンのデータセットには数値形式のMedianValueが含まれています。ParisデータセットのMedianValue列のデータ型が、Londonデータセットの構造と一致していることを確認する必要があります。
結果を予測するには、データの列に優先順位を付ける必要があります。関係を測定するには、パラメータ以外の統計を使用する必要があります。
MedianValue列とAvgRoomsinHouse列の間の関係を分析するには、特徴選択アルゴリズムを使用する必要があります。
モデルトレーニング
訓練されたモデルとテストデータセットが与えられた場合、特徴変数の順列特徴重要度スコアを計算する必要があります。モデルの精度を調査し、結果を複製するための正しいメトリックを選択するには、順列特徴重要度モジュールを設定する必要があります。
モデル学習プロセスでハイパーパラメーターを構成して、ハイパーパラメーターを使用して学習フェーズを高速化する必要があります。さらに、この構成では、各評価間隔で最もパフォーマンスの低い実行をキャンセルする必要があります。これにより、成功する可能性が高いモデルに労力とリソースが振り向けられます。
モデルがハイパーパラメータ調整で計算リソースを効率的に使用しない可能性があることを懸念しています。また、モデルによって全体的なチューニング時間の増加が妨げられる可能性があることも懸念されます。したがって、有望な仕事を終わらせることなく節約を提供するモデルに早期打ち切り基準を実装する必要があります。
テスト
Azure MachineLearningStudioのPartitionandSampleモジュールを使用したサンプリングに基づいて、データセットの複数のパーティションを作成する必要があります。相互検証のために、3つの等しいパーティションを作成する必要があります。また、テストデータセットとトレーニングデータセットの行が各都市の主要な川の近くにあるプロパティによって均等に分割されるように、交差検定プロセスを構成する必要があります。プロパティが川の近くにあることを識別するデータは、NextToRiverという名前の列に保持されます。データがサンプリングプロセスを通過する前に、このタスクを完了する必要があります。
大都市の不動産価格のデータを示す不動産データセットを使用して線形回帰モジュールをトレーニングする場合、モデルで使用するのに最適な機能を決定する必要があります。機能重要度プロセスが完了する前後のパフォーマンスを測定するために提供される標準メトリックを選択できます。複数のトレーニングモデル間での機能の分散が一貫していることを確認する必要があります。
データの視覚化
テスト結果をFabrikamResidencesチームに提供する必要があります。結果の提示を支援するためにデータの視覚化を作成します。
モデルの診断テスト評価を実行するには、受信者動作特性(ROC)曲線を作成する必要があります。2クラスのDecisionForestモジュールと2クラスのDecisionJungleモジュールを相互に比較するには、Azure MachineLearningStudioでROC曲線を作成するための適切な方法を選択する必要があります。