シナリオ:
現在および提案されているコスト要因シナリオのパフォーマンス曲線は、次の図に示されています。

広告傾向モデルは、0.45 のカットしきい値を使用し、加重カッパが 0.1 から逸脱した場合に再トレーニングが発生します。
+/- 5%。
モデルの開発
テストレット 2
ケーススタディ
概要
あなたは、米国の質の高い私有および商業用不動産を専門とする会社、Fabrikam Residences のデータ サイエンティストです。Fabrikam Residences はヨーロッパへの拡大を検討しており、ヨーロッパの主要都市の個人住宅の価格を調査するように依頼しています。Azure Machine Learning Studio を使用して、プロパティの中央値を測定します。Linear Regression モジュールと Bayesian Linear Regression モジュールを使用して、不動産価格を予測する回帰モデルを作成します。
データセット
ロンドンとパリの 2 つの都市のプロパティの詳細を含む CSV 形式の 2 つのデータセットがあり、次の列があります。

2 つのデータセットは、別のデータセットとして Azure Machine Learning Studio に追加され、実験の開始点として含まれています。
データセットの問題
両方のデータセットの AccessibilityToHighway 列に欠損値が含まれています。欠損値を埋める前に、データ内の他の変数を使用して条件付きでモデル化されるように、欠損データを新しいデータに置き換える必要があります。
各データセットの列には、欠損値と null 値が含まれています。データセットには多くの外れ値も含まれています。Age 列には、外れ値の割合が高くなっています。Age 列に外れ値がある行を削除する必要があります。
MedianValue 列と AvgRoomsinHouse 列は両方ともデータを数値形式で保持します。2 つの列の関係をより詳細に分析するには、特徴選択アルゴリズムを選択する必要があります。
モデルフィット
モデルは過剰適合の兆候を示しています。オーバーフィッティングを減らす、より洗練された回帰モデルを作成する必要があります。
実験要件
パフォーマンスを評価するには、線形回帰モジュールとベイジアン線形回帰モジュールを相互検証するように実験を設定する必要があります。
いずれの場合も、データセットの予測子は MedianValue という名前の列です。最初の調査では、MedianValue 列を除いて、データセットの構造が同一であることが示されました。小さいパリのデータセットにはテキスト形式の MedianValue が含まれていますが、より大きなロンドンのデータセットには数値形式の MedianValue が含まれています。Paris データセットの MedianValue 列のデータ型が、London データセットの構造と一致していることを確認する必要があります。
結果を予測するには、データの列に優先順位を付ける必要があります。関係を測定するには、パラメータ以外の統計を使用する必要があります。
MedianValue 列と AvgRoomsinHouse 列の間の関係を分析するには、特徴選択アルゴリズムを使用する必要があります。
モデルトレーニング
トレーニング済みモデルとテスト データセットが与えられた場合、特徴変数の順列特徴重要度スコアを計算する必要があります。モデルの精度を調査し、調査結果を再現するための正しいメトリクスを選択するには、Permutation Feature Importance モジュールを設定する必要があります。
ハイパーパラメーターを使用して学習フェーズを高速化するために、モデルの学習プロセスでハイパーパラメーターを構成したいと考えています。さらに、この構成では、各評価間隔で最もパフォーマンスの低い実行をキャンセルする必要があるため、成功する可能性が高いモデルに労力とリソースを振り向けることができます。
モデルがハイパーパラメータ調整でコンピューティング リソースを効率的に使用しない可能性があることを懸念しています。また、モデルによって全体的な調整時間の増加が妨げられる可能性があることも懸念されます。したがって、有望なジョブを終了せずに節約を提供する早期停止基準をモデルに実装する必要があります。
テスト
Azure Machine Learning Studio のパーティションとサンプル モジュールを使用して、サンプリングに基づいてデータセットの複数のパーティションを作成する必要があります。交差検証のために 3 つの等しい分割を作成する必要があります。テスト データセットとトレーニング データセットの行が、各都市の主な河川に近いプロパティによって均等に分割されるように、クロス検証プロセスを構成する必要もあります。プロパティが川の近くにあることを識別するデータは、NextToRiver という名前の列に保持されます。データがサンプリング プロセスを通過する前に、このタスクを完了する必要があります。
大都市の不動産価格のデータを示す不動産データセットを使用して線形回帰モジュールをトレーニングする場合、モデルで使用する最適な機能を決定する必要があります。機能の重要性プロセスが完了する前と後のパフォーマンスを測定するために提供される標準メトリックを選択できます。複数のトレーニング モデル間で特徴の分布が一貫していることを確認する必要があります。
データの視覚化
テスト結果を Fabrikam Residences チームに提供する必要があります。結果の表示に役立つデータ視覚化を作成します。
モデルの診断テスト評価を行うには、受信者動作特性 (ROC) 曲線を作成する必要があります。2 クラス デシジョン フォレストと 2 クラス デシジョン ジャングル モジュールを相互に比較するには、Azure Machine Learning Studio で ROC 曲線を作成するための適切な方法を選択する必要があります。
モデルの開発
質問セット 3