DP-100日本語版問題解説質問133：大規模なデータセットを Azure Machine Learning Studio から Weka 環境に移動しています。 Weka 環境用にデータをフォーマットする必要があります。どのモジュールを使用する必要がありますか?

<<前へ次へ>>

質問 133/262

大規模なデータセットを Azure Machine Learning Studio から Weka 環境に移動しています。
Weka 環境用にデータをフォーマットする必要があります。
どのモジュールを使用する必要がありますか?

A. CSVに変換 B. データセットに変換 C. ARFFに変換 D. SVMLight に変換

正解：C

解説・参考：
Explanation:
Azure Machine Learning Studio の Convert to ARFF モジュールを使用して、Azure Machine Learning のデータセットと結果を、Weka ツールセットで使用される属性関連ファイル形式に変換します。この形式は ARFF として知られています。
Weka の ARFF データ仕様は、データの前処理、分類、特徴選択など、複数の機械学習タスクをサポートしています。この形式では、データはエンティティとその属性によって編成され、1 つのテキストファイルに含まれます。
参考文献:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/convert-to-arff テストレット 1 ケーススタディ概要あなたは、専門家向けにデータサイエンスを提供する会社のデータサイエンティストです。スポーツイベント。モデルは、グローバルおよびローカルの市場データを使用して、次のビジネス目標を達成します。
群衆の反応からの音声に基づいて、スポーツイベントでのモバイルデバイスユーザーの感情を理解します。

広告に反応するユーザーの傾向を評価します。

モバイルデバイスに配信される広告のスタイルをカスタマイズします。

ビデオを使用してペナルティイベントを検出する

現在の環境
ペナルティイベントの検出に使用されるメディアは、コンシューマデバイスによって提供されます。メディアには以下が含まれる場合があります

スポーツイベント中に撮影され、ソーシャルメディアを使用して共有された画像や動画。画像と動画のサイズと形式はさまざまです。
モデル構築に利用できるデータは、7 年間のスポーツイベントメディアで構成されています。スポーツ

イベントメディアには以下が含まれます。記録されたビデオトランスクリプトまたはラジオ解説、およびスポーツイベント中にキャプチャされた関連するソーシャルメディアフィードからのログ。
観衆の感情には、イベント参加者がモノラルとステレオの両方で提出したオーディオ録音が含まれます

フォーマット。
ペナルティの検出とセンチメント
データサイエンティストは、ペナルティのために複数の機械学習モデルを使用してインテリジェントなソリューションを構築する必要があります

イベント検出。
データサイエンティストは、自動特徴量エンジニアリングを使用して、ローカル環境でノートブックを構築する必要があります。

機械学習パイプラインでのモデル構築。
動的なワーカー割り当てを使用して Spark インスタンスを使用して再トレーニングするには、ノートブックをデプロイする必要があります。

ノートブックは、新しい Spark インスタンスで同じコードを使用して実行し、ソースのみを再コーディングする必要があります。

データ。
グローバルペナルティ検出モデルは、動的ランタイムグラフ計算を使用してトレーニングする必要があります。

トレーニング。
ローカルペナルティ検出モデルは、BrainScript を使用して作成する必要があります。

ローカル群衆センチメントモデルの実験では、ローカルペナルティ検出データを組み合わせる必要があります。

群衆感情モデルは、歓声や既知のキャッチフレーズなどの既知の音を識別しなければなりません。

個々の群衆感情モデルは、同様の音を検出します。
ローカルモデルの共有機能はすべて連続変数です。

共有機能は倍精度を使用する必要があります。後続のレイヤーには総移動平均が必要です

および標準偏差メトリックが利用可能です。
広告
本番環境の最初の数週間で、次のことが観察されました。
広告レスポンスの評価が拒否されました。

ドロップは広告スタイル間で一貫していませんでした。

トレーニングデータと本番データの間での特徴の分布に一貫性がない

分析によると、ユーザーの位置と行動に関する 100 の数値特徴のうち、位置情報源に由来する 47 の特徴が生の特徴として使用されています。バイアスと分散の問題を解決するために推奨される実験は、10 個の線形相関のない機能を設計することです。
初期のデータ検出では、クラウドに使用されるトレーニングデータのターゲット状態の密度の範囲が広いことが示されます

感情モデル。
すべてのペナルティ検出モデルは、確率的勾配降下法 (SGD) を使用した推論フェーズが次のとおりであることを示しています。

実行が遅すぎる。
音声サンプルによると、キャッチフレーズの長さは地域によって 25% ～ 47% の間で変化します。

グローバルペナルティ検出モデルのパフォーマンスは、次の場合に分散が低くなりますが、バイアスが高くなります。

トレーニングセットと検証セットの比較。機能の変更を実装する前に、すべてのトレーニングと検証のケースを使用してバイアスと分散を確認する必要があります。
広告応答モデルは、各イベントの開始時にトレーニングし、スポーツ中に適用する必要があります

イベント。
市場セグメンテーションモデルは、同様の広告応答履歴に合わせて最適化する必要があります。

サンプリングは、ローカルセグメンテーションとグローバルセグメンテーションの間で排他的に相互および集合を保証する必要があります

同じ機能を共有するモデル。
ユーザーの反応傾向を判断する前に、ローカル市場セグメンテーションモデルが適用されます。

広告。
広告応答モデルは、特徴の非線形境界をサポートする必要があります。

広告傾向モデルは、0.45 のカットしきい値を使用し、加重カッパが逸脱した場合に再トレーニングが発生します。

0.1 +/- 5% から。
広告傾向モデルは、次の図に示すコスト要因を使用します。

広告傾向モデルは、次の図に示す提案されたコストファクターを使用します。

現在および提案されているコスト要因シナリオのパフォーマンス曲線は、次の図に示されています。

質問 133/262

コメントを発表する

Download PDF File