Google Cloud AutoMLを活用した機械学習モデルのトレーニングにおいては、データの種類(表形式、テキスト、画像、動画)ごとに異なるワークフローと注意点が存在します。本ガイドでは、試験対策として必要な知識を体系的に整理します。
1. 共通ステップ
ステップ | 説明 |
---|---|
データの前処理 | Dataflow を使用して、AutoMLに送信する前にデータをクリーニング・整形する。 |
ラベル付け | 画像、テキスト、動画データでは、高品質なラベル付けが必要。AutoML表形式データでは不要。 |
トレーニングの自動化 | Vertex AI Pipelines を使用し、定期的なトレーニングをスケジュール。 |
スケーラビリティとワークフロー統合 | GCPの各種サービスと統合し、拡張性の高いソリューションを構築。 |
2. データタイプ別戦略
2.1 表形式データ(BigQuery)
必須ステップ:
- Dataflowでデータ前処理
欠損値処理、型変換などを実施。 - Vertex AI Feature Store を活用し、特徴量を一元管理。
- Vertex AI Pipelinesでモデルの定期トレーニングを自動化。
避けるべき:
- カスタムデータラベリングツールの使用(表形式では通常不要)。
- BigQuery MLによる特徴量エンジニアリング(Vertex AIで一元管理する方が効率的)。
EXAM FOCUS:
Vertex AI Pipelinesでのトレーニング自動化。
CAUTION ALERT:
表形式データでのカスタムラベリングは不要。
2.2 テキストデータ(Cloud Storage)
必須ステップ:
- Dataflowでテキストデータ前処理
正規化、ストップワード除去、トークン化など。 - カスタムデータラベリング
正確なラベル付けが不可欠。 - Vertex AI Pipelinesでトレーニングを自動化。
避けるべき:
- Vertex AI Workbenchでの特徴量エンジニアリング(AutoMLが自動対応)。
EXAM FOCUS:
高品質なラベルの確保。
CAUTION ALERT:
特徴量エンジニアリングはAutoMLが担当するため不要。
2.3 画像データ(Cloud Storage)
必須ステップ:
- Dataflowで画像データ前処理
サイズ調整、フォーマット変換などを実施。 - カスタムデータラベリング
高精度なラベルが必要。 - Vertex AI Pipelinesでトレーニングを自動化。
避けるべき:
- Vertex AI Workbenchでの画像前処理(AutoMLが対応)。
- BigQueryでの画像保存(Cloud Storageが推奨)。
EXAM FOCUS:
Dataflowによる画像前処理。
CAUTION ALERT:
画像はBigQueryでなくCloud Storageに保存。
2.4 動画データ(Cloud Storage)
必須ステップ:
- Dataflowで動画データ前処理
フレーム抽出、圧縮などを実施。 - カスタムデータラベリング
高精度なラベルが必要。 - Vertex AI Pipelinesでトレーニングを自動化。
避けるべき:
- Vertex AI Workbenchでの動画前処理(AutoMLが対応)。
- BigQueryでの動画保存(Cloud Storageが推奨)。
EXAM FOCUS:
Vertex AI Pipelinesで定期的なトレーニングを実行。
CAUTION ALERT:
複雑な前処理は不要。AutoMLが効果的に対応。
3. まとめ:データタイプ別対応表
データタイプ | Dataflow前処理 | ラベル付け | 特徴量管理 | Vertex AI Pipelines | 避けるべき |
---|---|---|---|---|---|
表形式 | 必須 | 不要 | Vertex AI Feature Store | 必須 | BigQuery MLでの特徴量設計 |
テキスト | 必須 | 必須 | AutoMLが対応 | 必須 | Workbenchでの特徴量設計 |
画像 | 必須 | 必須 | AutoMLが対応 | 必須 | BigQueryでの画像保存 |
動画 | 必須 | 必須 | AutoMLが対応 | 必須 | BigQueryでの動画保存 |