まずDatabricks ってなんやねんって方はこちらをご覧ください
Databricksについて学習する必要があるので備忘録としても記事にしていこうと思います。
この記事では本当に簡単に解説していきます。詳細に関してはそれぞれ別の記事にできたらいいなと考えています。
注意点
あちらこちらに間違いがあるかもしれません。ご了承ください。
※コンポーネントと言っていいのかも微妙です。m(__)m
ノートブック
コードを記述・実行する環境です。
「Jupyter Notebook」を使った事がある方ならイメージはそれです。
プログラミング言語としてはPython、SQL、Scala、Rを実行できます。
クラスター
データを扱う環境の事です。
データそのものは別にあり、それらを扱う環境というイメージでしょうか。
もう少し専門的な言葉を使うと、データを扱う為の仮想マシンの集合体ですね。
Databricks では高速処理の為、複数の仮想マシンをまとめてクラスターとするようです。
Deltaテーブル
Delta Lakeのデータ形式を使用した表形式データです。
SQLやPySparkで操作できます。
Delta Live Table (DLT)
データの処理を簡単に安全に自動化できるコンポーネントです。
もう少し専門的な言葉を使うと、Databricks 上で ETL/ELT のデータパイプラインを構築・管理 するために設計されたフレームワークです。
他にもデータ品質の監視を自動化できる他、モード(トリガー、連続)を2つ使い分ける事でデータを柔軟に使い分ける事ができます。
Apache Spark
ビッグデータの処理を高速かつ効率的に行う為の分散処理フレームワークです。
※Databricksの直接的なコンポーネントではないようです。関係は大有りですが、Databricksからは独立しているイメージ?
PySpark
Apache SparkをPythonで扱う為のライブラリです。
Auto Loader
クラウドストレージに追加されたデータファイルを効率的に自動で処理するコンポーネントです。
“AWS S3″や”Azure Blob”、”GCS”等を対象とします。
上記のクラウドストレージに新たなデータが追加されると、Delta Lakeに自動でロードしたりします。
比較される機能?として「COPY INTO」がありますが、あちらはコンポーネントというよりSQLで、手動実行が主な利用方法かと思います。
【Databricks】Auto Loaderとは
https://yurutech.tech/2025/02/20/%e3%80%90databricks%e3%80%91auto-loader/
Unity Catalog
Databricksのデータガバナンス機能 で、データのアクセス制御やメタデータ管理を アカウントレベル で一元化することで、複数のワークスペースをまたいで統合的に管理 できます。
参考
Databricks公式
https://docs.databricks.com/ja/delta-live-tables/index.html
【Qiita】Databricks Community Editionを使ってDatabricksの機械学習を体験してみる
https://qiita.com/taka_yayoi/items/5918a0e88d9b2472578c
【Qiita】Databricks Community Editionで画像データを分析してみる
https://qiita.com/taka_yayoi/items/1c02542125bc327282d5
【Qiita】Delta Lakeクイックスタートガイド
https://qiita.com/taka_yayoi/items/345f503d5f8177084f24

コメント