データエンジニアがデータパイプラインを設計しています。ソースシステムは、他のプロセスでも使用される共有ディレクトリにファイルを生成します。そのため、ファイルはそのまま保持され、ディレクトリ内に蓄積されます。データエンジニアは、パイプラインの前回の実行以降に追加されたファイルを特定し、各実行でそれらの新しいファイルのみを取り込むようにパイプラインを設定する必要があります。
データ エンジニアがこの問題を解決するために使用できるツールは次のどれですか。
正解:E
Auto Loader is a tool that can incrementally and efficiently process new data files as they arrive in cloud storage without any additional setup. Auto Loader provides a Structured Streaming source called cloudFiles, which automatically detects and processes new files in a given input directory path on the cloud file storage. Auto Loader also tracks the ingestion progress and ensures exactly-once semantics when writing data into Delta Lake. Auto Loader can ingest various file formats, such as JSON, CSV, XML, PARQUET, AVRO, ORC, TEXT, and BINARYFILE. Auto Loader has support for both Python and SQL in Delta Live Tables, which are a declarative way to build production-quality data pipelines with Databricks. Reference: What is Auto Loader?, Get started with Databricks Auto Loader, Auto Loader in Delta Live Tables