説明
ポスト バッチ正規化統計 (PBN) は、推論元の論文で使用できるバッチ正規化の母平均と分散を評価する方法の Microsoft Cognitive Toolkit (CNTK) バージョンです。
CNTK では、カスタム ネットワークは BrainScriptNetworkBuilder を使用して定義され、CNTK ネットワーク記述言語「BrainScript」で記述されます。シナリオ:
ローカル ペナルティ検出モデルは、BrainScript を使用して作成する必要があります。
参考文献:
https://docs.microsoft.com/en-us/cognitive-toolkit/post-batch-normalization-statistics
トピック 1、ケース スタディ 1
概要
あなたは、プロのスポーツ イベントにデータ サイエンスを提供する会社のデータ サイエンティストです。モデルは、次のビジネス目標を達成するためのグローバルおよびローカル市場データになります。
*群衆の反応からの音声に基づいて、スポーツ イベントでのモバイル デバイス ユーザーの感情を理解します。
*広告に反応するユーザーの傾向にアクセスします。
*モバイル デバイスに配信される広告のスタイルをカスタマイズします。
*ビデオを使用して、ペナルティ イベントを検出します。
現在の環境
要件
* ペナルティ イベントの検出に使用されるメディアは、コンシューマ デバイスによって提供されます。メディアには、スポーツ イベント中に撮影され、ソーシャル メディアを使用して騙された画像や動画が含まれる場合があります。画像と動画のサイズと形式はさまざまです。
* モデル作成に使用できるデータは、7 年間のスポーツ イベント メディアで構成されています。スポーツ イベント メディアには、記録されたビデオ、ラジオ解説の書き起こし、関連するソーシャル メディア フィードからのログ、スポーツ イベント中にキャプチャされたフィードが含まれます。
*観衆の感情には、モノとステレオの両方の形式でイベント参加者から提出されたオーディオ録音が含まれます。
広告
* 広告応答モデルは、各イベントの開始時にトレーニングし、スポーツ イベント中に適用する必要があります。
* 市場セグメンテーション nxxlels は、同様の広告 resporr.r 履歴を最適化する必要があります。
* サンプリングは、同じ機能を共有するローカルおよびグローバル セグメンテーション モデルの相互および集合的排他性を保証する必要があります。
* ユーザーが広告に反応する傾向を判断する前に、ローカル市場セグメンテーション モデルが適用されます。
* データ サイエンティストは、モデルの劣化と崩壊を検出できなければなりません。
* 広告応答モデルは、非線形境界機能をサポートする必要があります。
* 広告傾向モデルではカットしきい値が 0.45 であり、加重カッパが 0.1 から逸脱すると再トレーニングが発生します
+/-5%。
* 広告傾向モデルは、次の図に示すコスト要因を使用します。

広告傾向モデルは、次の図に示す提案されたコスト ファクターを使用します。

現在および提案されているコスト要因シナリオのパフォーマンス曲線は、次の図に示されています。

ペナルティの検出とセンチメント
所見
*データ サイエンティストは、ペナルティ イベントの検出に複数の機械学習モデルを使用して、インテリジェントなソリューションを構築する必要があります。
*データ サイエンティストは、機械学習パイプラインで自動機能エンジニアリングとモデル構築を使用して、ローカル環境でノートブックを構築する必要があります。
*動的ワーカー割り当てを使用して Spark インスタンスを使用して再トレーニングするには、ノートブックをデプロイする必要があります
*ノートブックは、データのソースのみを再コード化するために、新しい Spark インスタンスで同じコードを使用して実行する必要があります。
*グローバル ペナルティ検出モデルは、トレーニング中に動的ランタイム グラフ計算を使用してトレーニングする必要があります。
*ローカル ペナルティ検出モデルは、BrainScript を使用して作成する必要があります。
* ローカル群衆センチメント モデルの実験では、ローカル ペナルティ検出データを組み合わせる必要があります。
* 群衆感情モデルは、歓声や既知のキャッチ フレーズなどの既知の音を識別しなければなりません。個々の群衆感情モデルは、同様の音を検出します。
* ローカル モデルの共有機能はすべて連続変数です。
* 共有機能は倍精度を使用する必要があります。後続のレイヤーには、総移動平均と標準偏差メトリックが使用可能である必要があります。
セグメント
本番環境の最初の数週間で、次のことが観察されました。
※広告の反応率が低下。
*ドロップは広告スタイル間で一貫していませんでした。
*トレーニング データと本番データの間での特徴の分布は一貫していません。
分析によると、ユーザーの位置と行動に関する 100 の数値特徴のうち、位置情報源に由来する 47 の特徴が生の特徴として使用されています。バイアスと分散の問題を解決するために推奨される実験は、10 個の直線的に修正されていない機能を設計することです。
ペナルティの検出とセンチメント
*初期データ検出では、群衆センチメント モデルに使用されるトレーニング データで、広範囲の密度のターゲット状態が示されます。
*すべてのペナルティ検出モデルは、確率的勾配降下法 (SGD) を使用した推論フェーズが過小に実行されていることを示しています。
*音声サンプルによると、キャッチフレーズの長さは地域によって 25% ~ 47% の間で異なります。
*グローバル ペナルティ検出モデルのパフォーマンスは、トレーニング セットと検証セットを比較すると、分散は低くなりますが、バイアスは高くなります。機能の変更を実装する前に、すべてのトレーニングと検証のケースを使用してバイアスと分散を確認する必要があります。