【Databricks】Auto Loaderとは

クラウドストレージに追加されたデータファイルを効率的に自動で処理するコンポーネントです。

できる事

クラウドストレージに追加されたデータファイルを検出し自動でロードできます。
例)AWS S3 → Databricks Delta Lake

特に大量のデータを効率的にストリーミング処理するのに適しています。
※ストリーミング処理とはデータはリアルテイムで処理する方法の事です。対して、バッチ処理は一定期間のデータをまとめて処理します。

対象のクラウドストレージ

Auto Loaderは下記のクラウドストレージからデータファイルをロードします。

  • Amazon S3
  • Azure Data Lake Storage Gen2
  • Google Cloud Storage
  • Azure Blob Storage

新しいデータの識別方法

Databricks の Auto Loader では、新しいデータの識別方法として以下の 2 つがサポートされています。

1.ディレクトリリスト(Directory Listing)

・ストレージのディレクトリを定期的にスキャンし、新しいファイルを識別する
・クラウドストレージの新しいファイル検出

2.ファイル通知(File Notification)

・クラウドストレージのイベント通知を使用し、新しいファイルが追加時にリアルタイムで検知。
・AWS S3 などと統合。イベントドリブンで動作するため、大量のデータを扱う事ができる。

Schema Location

Auto Loader では、クラウドストレージ(AWS S3、Azure Data Lake、Google Cloud Storage など)から 新しいファイルを自動的に読み取る際にスキーマを推論 します。
この 推論されたスキーマを保存するための場所「スキーマの場所(schema location)」 です。

参考

Databricks公式

https://docs.databricks.com/aws/ja/ingestion/cloud-object-storage/auto-loader

Databricks公式 Auto Loaderファイル検出モードの比較

https://docs.databricks.com/aws/ja/ingestion/cloud-object-storage/auto-loader/file-detection-modes?utm_source=chatgpt.com

コメント

タイトルとURLをコピーしました