タグ: 前処理

  • 【Google認定MLエンジニア】AutoMLモデルトレーニング戦略ガイド

    【Google認定MLエンジニア】AutoMLモデルトレーニング戦略ガイド

    Google Cloud AutoMLを活用した機械学習モデルのトレーニングにおいては、データの種類(表形式、テキスト、画像、動画)ごとに異なるワークフローと注意点が存在します。本ガイドでは、試験対策として必要な知識を体系的に整理します。


    1. 共通ステップ

    ステップ 説明
    データの前処理 Dataflow を使用して、AutoMLに送信する前にデータをクリーニング・整形する。
    ラベル付け 画像、テキスト、動画データでは、高品質なラベル付けが必要。AutoML表形式データでは不要。
    トレーニングの自動化 Vertex AI Pipelines を使用し、定期的なトレーニングをスケジュール。
    スケーラビリティとワークフロー統合 GCPの各種サービスと統合し、拡張性の高いソリューションを構築。

    2. データタイプ別戦略

    2.1 表形式データ(BigQuery)

    必須ステップ:

    • Dataflowでデータ前処理
      欠損値処理、型変換などを実施。
    • Vertex AI Feature Store を活用し、特徴量を一元管理。
    • Vertex AI Pipelinesでモデルの定期トレーニングを自動化。

    避けるべき:

    • カスタムデータラベリングツールの使用(表形式では通常不要)。
    • BigQuery MLによる特徴量エンジニアリング(Vertex AIで一元管理する方が効率的)。

    EXAM FOCUS:
    Vertex AI Pipelinesでのトレーニング自動化。

    CAUTION ALERT:
    表形式データでのカスタムラベリングは不要。


    2.2 テキストデータ(Cloud Storage)

    必須ステップ:

    • Dataflowでテキストデータ前処理
      正規化、ストップワード除去、トークン化など。
    • カスタムデータラベリング
      正確なラベル付けが不可欠。
    • Vertex AI Pipelinesでトレーニングを自動化。

    避けるべき:

    • Vertex AI Workbenchでの特徴量エンジニアリング(AutoMLが自動対応)。

    EXAM FOCUS:
    高品質なラベルの確保。

    CAUTION ALERT:
    特徴量エンジニアリングはAutoMLが担当するため不要。


    2.3 画像データ(Cloud Storage)

    必須ステップ:

    • Dataflowで画像データ前処理
      サイズ調整、フォーマット変換などを実施。
    • カスタムデータラベリング
      高精度なラベルが必要。
    • Vertex AI Pipelinesでトレーニングを自動化。

    避けるべき:

    • Vertex AI Workbenchでの画像前処理(AutoMLが対応)。
    • BigQueryでの画像保存(Cloud Storageが推奨)。

    EXAM FOCUS:
    Dataflowによる画像前処理。

    CAUTION ALERT:
    画像はBigQueryでなくCloud Storageに保存。


    2.4 動画データ(Cloud Storage)

    必須ステップ:

    • Dataflowで動画データ前処理
      フレーム抽出、圧縮などを実施。
    • カスタムデータラベリング
      高精度なラベルが必要。
    • Vertex AI Pipelinesでトレーニングを自動化。

    避けるべき:

    • Vertex AI Workbenchでの動画前処理(AutoMLが対応)。
    • BigQueryでの動画保存(Cloud Storageが推奨)。

    EXAM FOCUS:
    Vertex AI Pipelinesで定期的なトレーニングを実行。

    CAUTION ALERT:
    複雑な前処理は不要。AutoMLが効果的に対応。


    3. まとめ:データタイプ別対応表

    データタイプ Dataflow前処理 ラベル付け 特徴量管理 Vertex AI Pipelines 避けるべき
    表形式 必須 不要 Vertex AI Feature Store 必須 BigQuery MLでの特徴量設計
    テキスト 必須 必須 AutoMLが対応 必須 Workbenchでの特徴量設計
    画像 必須 必須 AutoMLが対応 必須 BigQueryでの画像保存
    動画 必須 必須 AutoMLが対応 必須 BigQueryでの動画保存