ホーム » Google認定MLエンジニア » ローコード機械学習ソリューションの構築 » 【Google認定MLエンジニア】Data Preparation for AutoML 完全ガイド

【Google認定MLエンジニア】Data Preparation for AutoML 完全ガイド

AutoMLを効果的に活用するためには、**データ準備(Data Preparation)**が不可欠です。このプロセスでは、データをクリーンで一貫性があり、機械学習モデルに適した形式に整えます。本記事では、Google Cloudの各サービスを用いたAutoML向けのデータ準備方法を、ユースケース別に体系的に整理します。


🧩 1. データ準備の主要ステップ

ステップ 説明 主要サービス
特徴量選択 (Feature Selection) 重要な特徴量を選定してモデル性能を最適化 BigQuery, BigQuery ML
欠損値処理 (Missing Data Handling) 欠損値を適切に補完してデータの完全性を保つ Dataflow, Cloud Dataprep
特徴量エンコーディング (Encoding) カテゴリカルデータを数値データへ変換してモデルが処理しやすい形式に整える BigQuery ML
正規化 (Normalization) 数値データのスケールを統一し、学習を安定化 Cloud Dataprep, BigQuery ML
データラベリング (Data Labeling) 目的変数(ターゲット変数)のラベル付けを行い、教師あり学習に備える Vertex AI Data Labeling
言語統一 (Language Consistency) テキストデータにおいて多言語のばらつきを防ぎ、一貫した解析を可能にする Cloud Translation API
特徴量管理 (Feature Management) 特徴量を一元管理し、モデルへの供給を効率化 Vertex AI Feature Store

🏢 2. ユースケース別のアプローチ

① 小売業での売上予測(タブラー形式データ)

目標:AutoMLで売上を予測するために、データ準備を行う。

タスク 推奨アクション ツール
特徴量選択 重要な特徴量をBigQueryで分析 BigQuery
欠損値処理 Dataflowでデータクリーニングおよび欠損補完 Dataflow
特徴量管理 Vertex AI Feature Storeで特徴量を管理・提供 Vertex AI Feature Store

② 医療業界での患者アウトカム予測(カテゴリカル+数値データ)

目標:AutoMLで患者の予後を予測するため、データを整える。

タスク 推奨アクション ツール
カテゴリカルエンコーディング BigQuery MLでカテゴリカル変数を数値化 BigQuery ML
数値データ正規化 Cloud Dataprepで数値変数を正規化 Cloud Dataprep
欠損値処理 Dataflowでインピューテーション技法を適用 Dataflow

③ Eコマースのカスタマーレビュー分析(テキストデータ)

目標:AutoMLでレビューを分析し、顧客満足度スコアを予測する。

タスク 推奨アクション ツール
言語統一 Cloud Translation APIで全レビューを1言語に統一 Cloud Translation API
欠損値処理 Dataflowでテキストデータを前処理、欠損補完 Dataflow
データラベリング Vertex AI Data Labeling Serviceで満足度ラベル付け Vertex AI Data Labeling

④ 金融業界でのローンデフォルト予測(数値データ中心)

目標:AutoMLでローンデフォルトを予測するために、金融指標データを準備する。

タスク 推奨アクション ツール
特徴量選択 BigQueryで最も関連性の高い金融指標を選定 BigQuery
欠損値処理 Dataflowでインピューテーションを適用 Dataflow
特徴量管理 Vertex AI Feature Storeで選択した特徴量を管理 Vertex AI Feature Store

🎯 試験対策のポイント(EXAM FOCUS)

  • BigQueryを活用して、特徴量の重要度分析やカテゴリカルデータのエンコーディングを行いましょう。
  • Dataflowを使って、欠損値の補完(インピューテーション)やデータクレンジングを実施しましょう。
  • 数値データの正規化には、Cloud Dataprepを使用するのが効果的です。
  • テキストデータ分析では、Cloud Translation APIで多言語データを統一し、解析の一貫性を確保しましょう。

⚠️ 注意すべき落とし穴(CAUTION ALERT)

  • Cloud StorageCloud SQLはあくまでデータの保管先であり、データ準備プロセス(前処理)の一部ではありません。これらを選択肢に入れる際は目的をよく確認しましょう。
  • TensorFlowは画像やテキストデータの拡張(データ増強)には有効ですが、AutoMLのタブラー形式データ準備では不要です。無駄な工程を増やさないようにしましょう。