Work Detail

データ基盤刷新

”データ基盤を有効に活用するための土台がない” という現状を解決するためにデータ基盤の刷新を行いました。

以前の基盤はこのような形になっていました。 ec2上のdb(ebs)からのデータをdigdag + embulkで取得、bigqueryに流し込みをしていました。しかし、digdagサーバーが自社内にあるmac mini上のdockerで起動しており、・UPSがつながっていない為、定期的にビルの計画停電で落ちる・サーバーに直接入ってコードを編集していたようで、github上のコードと実際のコードに乖離がある状況でした、、笑 == まずは、この事態を解決するためにGCE上にサーバーをリプレイス + github actionsを使ってcicd構築を行いました。

プロジェクト概要

実施背景や成果物などの詳細です。

下記のような課題がありました。 1. データの流し込み処理だけオンプレ環境になっているコードが適切にgit管理されていない UPSがないため計画停電でサーバーが落ちる 2. データ分析にかける予算を削減したい / 全社意向でawsに移行させたい 3. データの定義が記載されていないため、現場の人が活用できない定義がどこにもなく、探りながらテーブル定義を探す必要有しかも定義を知っている人がすでに退職しているため探りながらデータ基盤を探さないといけなく、、、) そこでデータ基盤を刷新いたしました。 1. データの流し込み処理をクラウド/git管理化 2. awsに統一、S3 + Glue + Athenaを利用して格納コストを下げる 3. Notionとdbt docsでテーブル定義などを管理