クラウドストレージに追加されたデータファイルを効率的に自動で処理するコンポーネントです。
できる事
クラウドストレージに追加されたデータファイルを検出し自動でロードできます。
例)AWS S3 → Databricks Delta Lake
特に大量のデータを効率的にストリーミング処理するのに適しています。
※ストリーミング処理とはデータはリアルテイムで処理する方法の事です。対して、バッチ処理は一定期間のデータをまとめて処理します。
対象のクラウドストレージ
Auto Loaderは下記のクラウドストレージからデータファイルをロードします。
- Amazon S3
- Azure Data Lake Storage Gen2
- Google Cloud Storage
- Azure Blob Storage
新しいデータの識別方法
Databricks の Auto Loader では、新しいデータの識別方法として以下の 2 つがサポートされています。
1.ディレクトリリスト(Directory Listing)
・ストレージのディレクトリを定期的にスキャンし、新しいファイルを識別する
・クラウドストレージの新しいファイル検出
2.ファイル通知(File Notification)
・クラウドストレージのイベント通知を使用し、新しいファイルが追加時にリアルタイムで検知。
・AWS S3 などと統合。イベントドリブンで動作するため、大量のデータを扱う事ができる。
Schema Location
Auto Loader では、クラウドストレージ(AWS S3、Azure Data Lake、Google Cloud Storage など)から 新しいファイルを自動的に読み取る際にスキーマを推論 します。
この 推論されたスキーマを保存するための場所 が 「スキーマの場所(schema location)」 です。
参考
Databricks公式
https://docs.databricks.com/aws/ja/ingestion/cloud-object-storage/auto-loader
Databricks公式 Auto Loaderファイル検出モードの比較
https://docs.databricks.com/aws/ja/ingestion/cloud-object-storage/auto-loader/file-detection-modes?utm_source=chatgpt.com

コメント