1. データパイプラインの構築と前処理
- Dataflowを活用した前処理
データをクレンジングし、モデルのトレーニングに適した形に整える。BigQueryやCloud SQLに格納されているデータをDataflowで前処理し、AutoMLやVertex AIに渡す。特にヒストリカルデータを扱う場合は、予測モデルの精度に大きく影響する。
Exam Focus:
Dataflowによる前処理はほぼすべてのシナリオで重要。見落とさずに設計に組み込むこと。
2. 共同作業のためのツール
-
Vertex AI Workbench
データサイエンティストと協働し、特徴量エンジニアリングやモデルのトレーニングを行うための統合開発環境。Jupyterベースでクラウド上でノートブックを共有可能。 -
Vertex AI Experiments
モデルバージョンを比較・管理し、最良のモデルを選択するための仕組み。複数のハイパーパラメータ設定や異なるトレーニングセットアップを一元管理できる。
Exam Focus:
Workbenchは協働の中心。Experimentsはモデルバージョン管理の中核。
3. CI/CDパイプラインの構築
CI/CD = Continuous Integration(継続的インテグレーション)とContinuous Delivery(継続的デリバリー)(またはContinuous Deployment(継続的デプロイ))
- Cloud BuildやJenkins を使用して、モデルのトレーニング、デプロイ、評価を自動化。CI/CDにより、データやモデルの更新時に即座にパイプラインが走り、最新状態が維持される。
Exam Focus:
CI/CD構築はデプロイの効率性と品質管理に必須。
4. モデルのモニタリングと可視化
-
Vertex AI Model Monitoring
モデルドリフトや性能低下を検出し、長期的にモデルの効果を維持。 -
データスタジオ(Looker、Google Sheets)
モデル結果や評価指標をステークホルダー向けに可視化し、理解と合意形成を促進。ただし、初期構築・設計段階では補助的な役割にとどまる。
5. リアルタイム更新と通知(補足)
- Pub/Sub
モデルパフォーマンスのリアルタイム通知に有効だが、初期構築フェーズでは必須ではない。
総合ポイント
項目 | 推奨ツール | 目的 | 重要性 |
---|---|---|---|
データ前処理 | Dataflow | データをクレンジングしモデル用に整備 | 高 |
共同作業・開発環境 | Vertex AI Workbench | データサイエンティストとの共同開発・トレーニング | 高 |
モデルバージョン管理 | Vertex AI Experiments | モデルの最適なバージョンを選択 | 高 |
CI/CDパイプライン | Cloud Build / Jenkins | モデルの自動トレーニング・デプロイ | 高 |
モデルモニタリング | Vertex AI Model Monitoring | モデルの性能維持・改善 | 高 |
可視化・ステークホルダー共有 | Data Studio / Looker | モデル結果を可視化し共有 | 中 |
リアルタイム通知(オプション) | Pub/Sub | モデルのリアルタイム通知・連携 | 低 |
CAUTION ALERT まとめ
- Dataflowの前処理を怠らない:データ品質がモデルの成功を左右する。
- CI/CDの自動化を省略しない:継続的な改善とデプロイの効率化に不可欠。
- 可視化ツールやGoogle Sheetsは補助的:初期段階ではロバストなコラボレーションツール(Workbenchなど)が重要。