ホーム » Google認定MLエンジニア » ローコード機械学習ソリューションの構築 » 【Google認定MLエンジニア】AutoMLモデルトレーニング戦略ガイド

【Google認定MLエンジニア】AutoMLモデルトレーニング戦略ガイド

Google Cloud AutoMLを活用した機械学習モデルのトレーニングにおいては、データの種類(表形式、テキスト、画像、動画)ごとに異なるワークフローと注意点が存在します。本ガイドでは、試験対策として必要な知識を体系的に整理します。


1. 共通ステップ

ステップ説明
データの前処理Dataflow を使用して、AutoMLに送信する前にデータをクリーニング・整形する。
ラベル付け画像、テキスト、動画データでは、高品質なラベル付けが必要。AutoML表形式データでは不要。
トレーニングの自動化Vertex AI Pipelines を使用し、定期的なトレーニングをスケジュール。
スケーラビリティとワークフロー統合GCPの各種サービスと統合し、拡張性の高いソリューションを構築。

2. データタイプ別戦略

2.1 表形式データ(BigQuery)

必須ステップ:

  • Dataflowでデータ前処理
    欠損値処理、型変換などを実施。
  • Vertex AI Feature Store を活用し、特徴量を一元管理。
  • Vertex AI Pipelinesでモデルの定期トレーニングを自動化。

避けるべき:

  • カスタムデータラベリングツールの使用(表形式では通常不要)。
  • BigQuery MLによる特徴量エンジニアリング(Vertex AIで一元管理する方が効率的)。

EXAM FOCUS:
Vertex AI Pipelinesでのトレーニング自動化。

CAUTION ALERT:
表形式データでのカスタムラベリングは不要。


2.2 テキストデータ(Cloud Storage)

必須ステップ:

  • Dataflowでテキストデータ前処理
    正規化、ストップワード除去、トークン化など。
  • カスタムデータラベリング
    正確なラベル付けが不可欠。
  • Vertex AI Pipelinesでトレーニングを自動化。

避けるべき:

  • Vertex AI Workbenchでの特徴量エンジニアリング(AutoMLが自動対応)。

EXAM FOCUS:
高品質なラベルの確保。

CAUTION ALERT:
特徴量エンジニアリングはAutoMLが担当するため不要。


2.3 画像データ(Cloud Storage)

必須ステップ:

  • Dataflowで画像データ前処理
    サイズ調整、フォーマット変換などを実施。
  • カスタムデータラベリング
    高精度なラベルが必要。
  • Vertex AI Pipelinesでトレーニングを自動化。

避けるべき:

  • Vertex AI Workbenchでの画像前処理(AutoMLが対応)。
  • BigQueryでの画像保存(Cloud Storageが推奨)。

EXAM FOCUS:
Dataflowによる画像前処理。

CAUTION ALERT:
画像はBigQueryでなくCloud Storageに保存。


2.4 動画データ(Cloud Storage)

必須ステップ:

  • Dataflowで動画データ前処理
    フレーム抽出、圧縮などを実施。
  • カスタムデータラベリング
    高精度なラベルが必要。
  • Vertex AI Pipelinesでトレーニングを自動化。

避けるべき:

  • Vertex AI Workbenchでの動画前処理(AutoMLが対応)。
  • BigQueryでの動画保存(Cloud Storageが推奨)。

EXAM FOCUS:
Vertex AI Pipelinesで定期的なトレーニングを実行。

CAUTION ALERT:
複雑な前処理は不要。AutoMLが効果的に対応。


3. まとめ:データタイプ別対応表

データタイプDataflow前処理ラベル付け特徴量管理Vertex AI Pipelines避けるべき
表形式必須不要Vertex AI Feature Store必須BigQuery MLでの特徴量設計
テキスト必須必須AutoMLが対応必須Workbenchでの特徴量設計
画像必須必須AutoMLが対応必須BigQueryでの画像保存
動画必須必須AutoMLが対応必須BigQueryでの動画保存