【Google認定MLエンジニア】Google Cloud MLプロジェクトにおけるコラボレーションとコミュニケーション

1. データパイプラインの構築と前処理

Dataflowを活用した前処理
データをクレンジングし、モデルのトレーニングに適した形に整える。BigQueryやCloud SQLに格納されているデータをDataflowで前処理し、AutoMLやVertex AIに渡す。特にヒストリカルデータを扱う場合は、予測モデルの精度に大きく影響する。

Exam Focus:
Dataflowによる前処理はほぼすべてのシナリオで重要。見落とさずに設計に組み込むこと。

Vertex AI Workbench
データサイエンティストと協働し、特徴量エンジニアリングやモデルのトレーニングを行うための統合開発環境。Jupyterベースでクラウド上でノートブックを共有可能。
Vertex AI Experiments
モデルバージョンを比較・管理し、最良のモデルを選択するための仕組み。複数のハイパーパラメータ設定や異なるトレーニングセットアップを一元管理できる。

Exam Focus:
Workbenchは協働の中心。Experimentsはモデルバージョン管理の中核。

CI/CD = Continuous Integration(継続的インテグレーション)とContinuous Delivery(継続的デリバリー)(またはContinuous Deployment(継続的デプロイ))

Cloud BuildやJenkins を使用して、モデルのトレーニング、デプロイ、評価を自動化。CI/CDにより、データやモデルの更新時に即座にパイプラインが走り、最新状態が維持される。

Exam Focus:
CI/CD構築はデプロイの効率性と品質管理に必須。

Vertex AI Model Monitoring
モデルドリフトや性能低下を検出し、長期的にモデルの効果を維持。
データスタジオ（Looker、Google Sheets）
モデル結果や評価指標をステークホルダー向けに可視化し、理解と合意形成を促進。ただし、初期構築・設計段階では補助的な役割にとどまる。

項目	推奨ツール	目的	重要性
データ前処理	Dataflow	データをクレンジングしモデル用に整備	高
共同作業・開発環境	Vertex AI Workbench	データサイエンティストとの共同開発・トレーニング	高
モデルバージョン管理	Vertex AI Experiments	モデルの最適なバージョンを選択	高
CI/CDパイプライン	Cloud Build / Jenkins	モデルの自動トレーニング・デプロイ	高
モデルモニタリング	Vertex AI Model Monitoring	モデルの性能維持・改善	高
可視化・ステークホルダー共有	Data Studio / Looker	モデル結果を可視化し共有	中
リアルタイム通知（オプション）	Pub/Sub	モデルのリアルタイム通知・連携	低