
説明

データストレージ:Azure Data Lake Store
Azure Data Lake Storage Gen2がオブジェクトストレージの規模と価格でファイルシステムのパフォーマンスを提供できるようにする主要なメカニズムは、階層的な名前空間の追加です。これにより、アカウント内のオブジェクト/ファイルのコレクションを、コンピューター上のファイルシステムが編成されているのと同じ方法で、ディレクトリの階層とネストされたサブディレクトリに編成できます。階層型名前空間を有効にすると、ストレージアカウントは、分析エンジンとフレームワークに馴染みのあるファイルシステムセマンティクスを使用して、オブジェクトストレージのスケーラビリティと費用対効果を提供できるようになります。
バッチ処理:HD Insight Spark
Aparch Sparkは、ビッグデータ分析アプリケーションのパフォーマンスを向上させるためのインメモリ処理をサポートするオープンソースの並列処理フレームワークです。
HDInsightはマネージドHadoopサービスです。これを使用して、AzureでHadoopクラスターをデプロイおよび管理します。バッチ処理には、Spark、Hive、Hive LLAP、MapReduceを使用できます。
言語:R、Python、Java、Scala、SQL
分析データストア:SQLデータウェアハウス
SQLデータウェアハウスは、超並列処理(MPP)を使用するクラウドベースのエンタープライズデータウェアハウス(EDW)です。
SQLデータウェアハウスは、列型ストレージを備えたリレーショナルテーブルにデータを格納します。
参照:
https://docs.microsoft.com/en-us/azure/storage/blobs/data-lake-storage-namespace
https://docs.microsoft.com/en-us/azure/architecture/data-guide/technology-choices/batch-processing
https://docs.microsoft.com/en-us/azure/sql-data-warehouse/sql-data-warehouse-overview-what-is