データエンジニアは、Auto Loaderを使用してJSONソースからデータを取り込むデータパイプラインを開発しましたが、パイプラインに型推論やスキーマヒントを一切提供していませんでした。データエンジニアはデータを確認したところ、ターゲットテーブル内の一部のフィールドには浮動小数点値またはブール値しか含まれていないにもかかわらず、すべての列が文字列型になっていることに気付きました。
オートローダーがすべての列を文字列型であると推測した理由を説明するのは次のどれですか?
正解:B
JSON data is a text-based format that represents data as a collection of name-value pairs. By default, when Auto Loader infers the schema of JSON data, it treats all columns as strings. This is because JSON data can have varying data types for the same column across different files or records, and Auto Loader does not attempt to reconcile these differences. For example, a column named "age" may have integer values in some files, but string values in others. To avoid data loss or errors, Auto Loader infers the column as a string type. However, Auto Loader also provides an option to infer more precise column types based on the sample data. This option is called cloudFiles.inferColumnTypes and it can be set to true or false. When set to true, Auto Loader tries to infer the exact data types of the columns, such as integers, floats, booleans, or nested structures. When set to false, Auto Loader infers all columns as strings. The default value of this option is false. Reference: Configure schema inference and evolution in Auto Loader, Schema inference with auto loader (non-DLT and DLT), Using and Abusing Auto Loader's Inferred Schema, Explicit path to data or a defined schema required for Auto loader.