分析ワークロードで使用するために raw JSON ファイルを変換する Azure Data Lake Storage ソリューションを設計しています。 変換されたファイルの形式を推奨する必要があります。ソリューションは、次の要件を満たす必要があります。 ファイル内の各列のデータ型に関する情報が含まれています。 ファイル内の列のサブセットのクエリをサポートします。 読み取り負荷の高い分析ワークロードをサポートします。 ファイル サイズを最小化します。 何をお勧めしますか?
正解:D
Parquet, an open-source file format for Hadoop, stores nested data structures in a flat columnar format. Compared to a traditional approach where data is stored in a row-oriented approach, Parquet file format is more efficient in terms of storage and performance. It is especially good for queries that read particular columns from a "wide" (with many columns) table since only needed columns are read, and IO is minimized. Reference: https://www.clairvoyant.ai/blog/big-data-file-formats