解説・参考:
Explanation:
Azure Machine Learning Studio の Convert to ARFF モジュールを使用して、Azure Machine Learning のデータセットと結果を、Weka ツールセットで使用される属性関連ファイル形式に変換します。この形式は ARFF として知られています。
Weka の ARFF データ仕様は、データの前処理、分類、特徴選択など、複数の機械学習タスクをサポートしています。この形式では、データはエンティティとその属性によって編成され、1 つのテキスト ファイルに含まれます。
参考文献:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/convert-to-arff テストレット 1 ケース スタディ 概要 あなたは、専門家向けにデータ サイエンスを提供する会社のデータ サイエンティストです。スポーツイベント。モデルは、グローバルおよびローカルの市場データを使用して、次のビジネス目標を達成します。
群衆の反応からの音声に基づいて、スポーツ イベントでのモバイル デバイス ユーザーの感情を理解します。

広告に反応するユーザーの傾向を評価します。

モバイル デバイスに配信される広告のスタイルをカスタマイズします。

ビデオを使用してペナルティ イベントを検出する

現在の環境
ペナルティ イベントの検出に使用されるメディアは、コンシューマ デバイスによって提供されます。メディアには以下が含まれる場合があります

スポーツ イベント中に撮影され、ソーシャル メディアを使用して共有された画像や動画。画像と動画のサイズと形式はさまざまです。
モデル構築に利用できるデータは、7 年間のスポーツ イベント メディアで構成されています。スポーツ

イベントメディアには以下が含まれます。記録されたビデオ トランスクリプトまたはラジオ解説、およびスポーツ イベント中にキャプチャされた関連するソーシャル メディア フィードからのログ。
観衆の感情には、イベント参加者がモノラルとステレオの両方で提出したオーディオ録音が含まれます

フォーマット。
ペナルティの検出とセンチメント
データ サイエンティストは、ペナルティのために複数の機械学習モデルを使用してインテリジェントなソリューションを構築する必要があります

イベント検出。
データ サイエンティストは、自動特徴量エンジニアリングを使用して、ローカル環境でノートブックを構築する必要があります。

機械学習パイプラインでのモデル構築。
動的なワーカー割り当てを使用して Spark インスタンスを使用して再トレーニングするには、ノートブックをデプロイする必要があります。

ノートブックは、新しい Spark インスタンスで同じコードを使用して実行し、ソースのみを再コーディングする必要があります。

データ。
グローバル ペナルティ検出モデルは、動的ランタイム グラフ計算を使用してトレーニングする必要があります。

トレーニング。
ローカル ペナルティ検出モデルは、BrainScript を使用して作成する必要があります。

ローカル群衆センチメント モデルの実験では、ローカル ペナルティ検出データを組み合わせる必要があります。

群衆感情モデルは、歓声や既知のキャッチ フレーズなどの既知の音を識別しなければなりません。

個々の群衆感情モデルは、同様の音を検出します。
ローカル モデルの共有機能はすべて連続変数です。

共有機能は倍精度を使用する必要があります。後続のレイヤーには総移動平均が必要です

および標準偏差メトリックが利用可能です。
広告
本番環境の最初の数週間で、次のことが観察されました。
広告レスポンスの評価が拒否されました。

ドロップは広告スタイル間で一貫していませんでした。

トレーニング データと本番データの間での特徴の分布に一貫性がない

分析によると、ユーザーの位置と行動に関する 100 の数値特徴のうち、位置情報源に由来する 47 の特徴が生の特徴として使用されています。バイアスと分散の問題を解決するために推奨される実験は、10 個の線形相関のない機能を設計することです。
初期のデータ検出では、クラウドに使用されるトレーニング データのターゲット状態の密度の範囲が広いことが示されます

感情モデル。
すべてのペナルティ検出モデルは、確率的勾配降下法 (SGD) を使用した推論フェーズが次のとおりであることを示しています。

実行が遅すぎる。
音声サンプルによると、キャッチ フレーズの長さは地域によって 25% ~ 47% の間で変化します。

グローバル ペナルティ検出モデルのパフォーマンスは、次の場合に分散が低くなりますが、バイアスが高くなります。

トレーニング セットと検証セットの比較。機能の変更を実装する前に、すべてのトレーニングと検証のケースを使用してバイアスと分散を確認する必要があります。
広告応答モデルは、各イベントの開始時にトレーニングし、スポーツ中に適用する必要があります

イベント。
市場セグメンテーション モデルは、同様の広告応答履歴に合わせて最適化する必要があります。

サンプリングは、ローカル セグメンテーションとグローバル セグメンテーションの間で排他的に相互および集合を保証する必要があります

同じ機能を共有するモデル。
ユーザーの反応傾向を判断する前に、ローカル市場セグメンテーション モデルが適用されます。

広告。
広告応答モデルは、特徴の非線形境界をサポートする必要があります。

広告傾向モデルは、0.45 のカットしきい値を使用し、加重カッパが逸脱した場合に再トレーニングが発生します。

0.1 +/- 5% から。
広告傾向モデルは、次の図に示すコスト要因を使用します。


広告傾向モデルは、次の図に示す提案されたコスト ファクターを使用します。


現在および提案されているコスト要因シナリオのパフォーマンス曲線は、次の図に示されています。

