この度「Databricks Certified Data Engineer Associate」に合格する事ができました!!!
私がどのように合格したか、勉強方法等を公開いたします。
長々と書きますので目的の物だけ見たい方は目次から遷移してください。
事前情報
そもそもの私のスペックは下記の通りです。詳細はこちら
※Databricksに関連するもののみ挙げています
英語分かりません
Databricksに限らず、英語のドキュメントは単語をいちいち調べたり、場合によっては全文翻訳してもらうレベルです。(英検では準二級レベルでした)
エラーの様に短い英文は何となく分かりますが、基本的に理解できません。
Pythonそこそこできます
「Python認定基礎試験」と「Python認定実践試験」という資格を持っています。
業務で使った事は無いに等しいですが、個人レベルの「Webアプリの作成とデプロイ」や「デスクトップアプリの作成」はできます。
また、エクセルファイルをpandasというライブラリで操作した経験がDatabricksにも活きました。
SQL(データベース)そこそこできます
DB設計の経験はありませんが、データの加工や抽出はSQLやPL/SQLで2年間がっつりやっています。
結合等は勿論の事、階層問い合わせ等のSQLも組んでいました。
GitやCI/CDちょこっとできます
チームとしてではなく個人利用しかありませんが、Git Flowの真似事はしています。
また、Cirlcle CIでウェブサーバーにリモートリポジトリへの更新後自動デプロイ等やってます。
感想
AWSやOracle系の資格と比べると日本語の資料等が少なく、理解するのは大変なイメージです。
しかし、SQLやデータベース、Python、Gitに関連する問題がいくつかあり、それらに関しては経験が2年ほどある為すんなり解けました。
AWS等にも言えますが、「理解できる」「イメージできる」を達成する為には問題を解いたり、資料を読むだけでは難しいと思います。※合格自体はそこまでしっかり理解する必要はありません
実施した事
Udemyの問題集(URL)
日本語の問題集がUdemyにあります。元が英語の問題集を英語に訳している様でかなり文脈がおかしい所が多いです。例えば下記の様なSQLも日本語に直訳されてたりします(笑)
SELECT * FROM my_table; → 自分のテーブルから選択する。
あとは解説もありませんので、理解する為には都度調べるなりする必要はあります。
Databricks Community Edition
無料でお試しできます。「Databricks Japan」の中の人のQiita記事を参考に少し操作しました。
正直機械学習等は詳しくないので理解できてはいませんが、イメージはできるようになりました。
Databricks公式ドキュメント
Databricksに限らず公式ドキュメントというものは難しく理解し難いものですが、間違いがない情報ですので、見るようにはしていました。
Qiita記事
Databricksの中の人含め、いくつか記事が上がっていますのでそちらを参考にしていました。
ChatGPT
最終手段ではありますが、生成AIも活用しました。
Udemyの問題も解説がなかった為、問題文と解答を含めChatGPTに聞いていました。ただし、間違いも多いのでドキュメント等も併せて確認していました。
結論
下記の点に注意すれば合格は容易いです。
勉強したてで単語が分からん過ぎるって方はこちらの記事で簡単に説明してますので、公式ドキュメントと併せて確認してみてください。
必要な知識
- Databricks独自の知識
ノートブック、クラスター、Delta Lake等のDatabricks独自のコンポーネントの知識 - Python
IF文等の基本的な文法ができれば問題ない - SQL
簡単なSELECT、INSERT、UPDATE、DELETE、GRANTが理解できれば問題ない - Git
バージョン管理システムへの理解があれば問題ない
pull、push、merge、commitがわかればOK - CI/CD
基本的なCI/CDへの理解あればOK
Udemyの問題集
日本語の問題集を9割くらい安定させれば合格できるかと思います。Udemyの問題集はこちらです。


コメント