PySpanc を使用して Fabric ノートブックで顧客の購入を分析しています。次の DataFrame があります。

customer_id 列で DataFrame を結合する必要があります。ソリューションでは、データのシャッフルを最小限に抑える必要があります。次のコードを記述します。

結果のデータフレームを設定するにはどのコードを実行する必要がありますか?
正解:A
The correct code to populate the results DataFrame with minimal data shuffling is Option A. Using the broadcast function in PySpark is a way to minimize data movement by broadcasting the smaller DataFrame (customers) to each node in the cluster. This is ideal when one DataFrame is much smaller than the other, as in this case with customers. Reference = You can refer to the official Apache Spark documentation for more details on joins and the broadcast hint.