シナリオ:
現在のコスト要因シナリオと提案されたコスト要因シナリオのパフォーマンス曲線を次の図に示します。

広告傾向モデルではカットしきい値は0.45で、加重カッパが0.1から外れると再トレーニングが行われます。
+/- 5% です。
モデルを開発する
テストレット2
ケーススタディ
概要
あなたは、米国の質の高い個人および商業用不動産を専門とする企業、Fabrikam Residences のデータ サイエンティストです。Fabrikam Residences はヨーロッパへの進出を検討しており、ヨーロッパの主要都市の個人住宅の価格を調査するよう依頼されました。Azure Machine Learning Studio を使用して、不動産の中央値を測定します。線形回帰モジュールとベイジアン線形回帰モジュールを使用して、不動産価格を予測する回帰モデルを作成します。
データセット
ロンドンとパリの 2 つの都市の不動産詳細を含む CSV 形式のデータセットが 2 つあり、次の列があります。

2 つのデータセットは、Azure Machine Learning Studio に個別のデータセットとして追加され、実験の開始点として組み込まれています。
データセットの問題
両方のデータセットの AccessibilityToHighway 列には欠損値が含まれています。欠損値を埋める前に、データ内の他の変数を使用して条件付きでモデル化できるように、欠損データを新しいデータに置き換える必要があります。
各データセットの列には欠損値と null 値が含まれています。データセットには多くの外れ値も含まれています。Age 列には外れ値の割合が高くなっています。Age 列に外れ値がある行を削除する必要があります。
MedianValue 列と AvgRoomsinHouse 列はどちらも数値形式でデータを保持します。2 つの列の関係をより詳細に分析するには、特徴選択アルゴリズムを選択する必要があります。
モデルの適合
モデルは過剰適合の兆候を示しています。過剰適合を軽減する、より洗練された回帰モデルを作成する必要があります。
実験要件
パフォーマンスを評価するには、線形回帰モジュールとベイズ線形回帰モジュールを相互検証する実験を設定する必要があります。
いずれの場合も、データセットの予測子は MedianValue という列です。最初の調査で、データセットは MedianValue 列を除いて構造が同一であることがわかりました。小さい方のパリのデータセットにはテキスト形式の MedianValue が含まれていますが、大きい方のロンドンのデータセットには数値形式の MedianValue が含まれています。パリのデータセットの MedianValue 列のデータ型がロンドンのデータセットの構造と一致していることを確認する必要があります。
結果を予測するには、データの列に優先順位を付ける必要があります。関係性を測定するには、非パラメータ統計を使用する必要があります。
MedianValue 列と AvgRoomsinHouse 列の関係を分析するには、特徴選択アルゴリズムを使用する必要があります。
モデルのトレーニング
トレーニング済みのモデルとテスト データセットが与えられた場合、特徴変数の順列特徴重要度スコアを計算する必要があります。モデルの精度を調査し、結果を再現するには、正しいメトリックを選択するように順列特徴重要度モジュールを設定する必要があります。
ハイパーパラメータを使用して学習フェーズを高速化するには、モデル学習プロセスでハイパーパラメータを構成する必要があります。さらに、この構成では、各評価間隔で最もパフォーマンスの低い実行をキャンセルし、成功する可能性の高いモデルに労力とリソースを集中させる必要があります。
モデルがハイパーパラメータの調整でコンピューティング リソースを効率的に使用しない可能性があることを懸念しています。また、モデルが全体的な調整時間の増加を阻止する可能性があることも懸念しています。したがって、有望なジョブを終了せずに節約できる早期停止基準をモデルに実装する必要があります。
テスト
Azure Machine Learning Studio のパーティションとサンプル モジュールを使用して、サンプリングに基づいてデータセットの複数のパーティションを作成する必要があります。クロス検証用に 3 つの等しいパーティションを作成する必要があります。また、テスト データセットとトレーニング データセットの行が各都市の主要な川の近くにある物件ごとに均等に分割されるように、クロス検証プロセスを構成する必要があります。物件が川の近くにあることを識別するデータは、NextToRiver という列に保持されます。データがサンプリング プロセスを通過する前に、このタスクを完了する必要があります。
大都市の不動産価格データを示す不動産データセットを使用して線形回帰モジュールをトレーニングする場合、モデルで使用する最適な特徴を決定する必要があります。特徴の重要度プロセスの完了前と完了後にパフォーマンスを測定するために提供されている標準メトリックを選択できます。複数のトレーニング モデル間で特徴の分布が一貫していることを確認する必要があります。
データの視覚化
テスト結果を Fabrikam Residences チームに提供する必要があります。結果の提示に役立つデータ視覚化を作成します。
モデルの診断テスト評価を実行するには、受信者動作特性 (ROC) 曲線を作成する必要があります。Two-Class Decision Forest モジュールと Two-Class Decision Jungle モジュールを相互に比較するには、Azure Machine Learning Studio で ROC 曲線を作成するための適切な方法を選択する必要があります。
モデルを開発する
質問セット3