Databricks

Databricks

【Databricks】合格体験記-Databricks Certified Data Engineer Associate

この度「Databricks Certified Data Engineer Associate」に合格する事ができました!!!私がどのように合格したか、勉強方法等を公開いたします。長々と書きますので目的の物だけ見たい方は目次から遷移してく...
Databricks

【Databricks】Delta Lake

Delta Lake は、Databricks のレイクハウスのテーブルの基盤を提供する最適化されたストレージ レイヤーです。Time TravelDelta Lake には 「タイムトラベル (Time Travel)」 機能があり、以前...
Databricks

【Databricks】Managed TableとExternal Tableについて

Databricks では、テーブルのデータ管理方法によって Managed Table(管理対象テーブル) と External Table(外部テーブル) の2種類のテーブルがあります。Managed Table(管理対象テーブル)テー...
Databricks

【Databricks】データベースを作成する際の格納場所

デフォルトの格納場所dbfs:/user/hive/warehouse例-- customer360を「dbfs:/user/hive/warehouse」に作成CREATE DATABASE IF NOT EXISTS customer3...
Databricks

【Databricks】ジョブに使用されるクラスターの起動時間を短縮する方法(クラスタープール、ジョブクラスター)

結論クラスター プールからのクラスターを使用するジョブクラスターを使用するクラスタープールを使う事でクラスターの起動時間を短縮できます。また、ジョブクラスターはジョブ専用の一時クラスターで、起動時間を最適化できます。"プール"については下記...
Databricks

【Databricks】クラスターの開始がうまく行かない時に見るべきログ

結論クラスターイベントログを確認DatabricksのUI載せていいのか分からないので載せませんが、クラスターの設定画面?で対象のクラスターに移動すると"クラスターイベントログ"があります。上記の他にも"クラスタードライバーのログ"というの...
Databricks

【Databricks】PySparkでDeltaテーブルにアクセス

テーブル名やパスを指定するまず一番簡単なのは下記コマンドかなと思います。# salesテーブルをDataFrameとして取得df = spark.table("sales")物理パスがわかっている場合、下記の様にDelta テーブルを読み込...
Databricks

【Databricks】SQLエンドポイント(SQLウェアハウス)使用時のSQLクエリ実行速度の改善

資格取得の為、Udemyの問題を解いていて"SQLエンドポイント"というのが出てきたんで、備忘録として残しておきます。できればDatabricksの公式ドキュメントから答えを探し出したかったんですが、見つからなかったので、ChatGPTを使...
Databricks

【Databricks】構造化ストリーミング(Structured Streaming)

Databricksの資格勉強中にやたら出てくるキーワードなので備忘録として残しておきます。簡単に説明下記の特徴を持っています。バッチ処理と同じ感覚でストリーミング処理ができるフォールトトレランス(障害耐性)が強いさまざまなデータソースに対...
Databricks

【Databricks】レイクハウスのデータオブジェクト

資格勉強の備忘録です。データオブジェクトテーブル:オブジェクトストレージのデータファイルとして格納される行と列のコレクションビュー:1つ以上のテーブル、データソースに対するクエリーカタログ:データベースのグルーピングデータベース/スキーマ:...
ShamNeko88をフォローする