ホーム » Google認定MLエンジニア » ローコード機械学習ソリューションの構築 » 【Google認定MLエンジニア】Data Preparation for AutoML 完全ガイド

【Google認定MLエンジニア】Data Preparation for AutoML 完全ガイド

AutoMLを効果的に活用するためには、データ準備(Data Preparation)が不可欠です。このプロセスでは、データをクリーンで一貫性があり、機械学習モデルに適した形式に整えます。本記事では、Google Cloudの各サービスを用いたAutoML向けのデータ準備方法を、ユースケース別に体系的に整理します。


🧩 1. データ準備の主要ステップ

ステップ説明主要サービス
特徴量選択 (Feature Selection)重要な特徴量を選定してモデル性能を最適化BigQuery, BigQuery ML
欠損値処理 (Missing Data Handling)欠損値を適切に補完してデータの完全性を保つDataflow, Cloud Dataprep
特徴量エンコーディング (Encoding)カテゴリカルデータを数値データへ変換してモデルが処理しやすい形式に整えるBigQuery ML
正規化 (Normalization)数値データのスケールを統一し、学習を安定化Cloud Dataprep, BigQuery ML
データラベリング (Data Labeling)目的変数(ターゲット変数)のラベル付けを行い、教師あり学習に備えるVertex AI Data Labeling
言語統一 (Language Consistency)テキストデータにおいて多言語のばらつきを防ぎ、一貫した解析を可能にするCloud Translation API
特徴量管理 (Feature Management)特徴量を一元管理し、モデルへの供給を効率化Vertex AI Feature Store

🏢 2. ユースケース別のアプローチ

① 小売業での売上予測(タブラー形式データ)

目標:AutoMLで売上を予測するために、データ準備を行う。

タスク推奨アクションツール
特徴量選択重要な特徴量をBigQueryで分析BigQuery
欠損値処理Dataflowでデータクリーニングおよび欠損補完Dataflow
特徴量管理Vertex AI Feature Storeで特徴量を管理・提供Vertex AI Feature Store

② 医療業界での患者アウトカム予測(カテゴリカル+数値データ)

目標:AutoMLで患者の予後を予測するため、データを整える。

タスク推奨アクションツール
カテゴリカルエンコーディングBigQuery MLでカテゴリカル変数を数値化BigQuery ML
数値データ正規化Cloud Dataprepで数値変数を正規化Cloud Dataprep
欠損値処理Dataflowでインピューテーション技法を適用Dataflow

③ Eコマースのカスタマーレビュー分析(テキストデータ)

目標:AutoMLでレビューを分析し、顧客満足度スコアを予測する。

タスク推奨アクションツール
言語統一Cloud Translation APIで全レビューを1言語に統一Cloud Translation API
欠損値処理Dataflowでテキストデータを前処理、欠損補完Dataflow
データラベリングVertex AI Data Labeling Serviceで満足度ラベル付けVertex AI Data Labeling

④ 金融業界でのローンデフォルト予測(数値データ中心)

目標:AutoMLでローンデフォルトを予測するために、金融指標データを準備する。

タスク推奨アクションツール
特徴量選択BigQueryで最も関連性の高い金融指標を選定BigQuery
欠損値処理Dataflowでインピューテーションを適用Dataflow
特徴量管理Vertex AI Feature Storeで選択した特徴量を管理Vertex AI Feature Store

🎯 試験対策のポイント(EXAM FOCUS)

  • BigQueryを活用して、特徴量の重要度分析やカテゴリカルデータのエンコーディングを行いましょう。
  • Dataflowを使って、欠損値の補完(インピューテーション)やデータクレンジングを実施しましょう。
  • 数値データの正規化には、Cloud Dataprepを使用するのが効果的です。
  • テキストデータ分析では、Cloud Translation APIで多言語データを統一し、解析の一貫性を確保しましょう。

⚠️ 注意すべき落とし穴(CAUTION ALERT)

  • Cloud StorageCloud SQLはあくまでデータの保管先であり、データ準備プロセス(前処理)の一部ではありません。これらを選択肢に入れる際は目的をよく確認しましょう。
  • TensorFlowは画像やテキストデータの拡張(データ増強)には有効ですが、AutoMLのタブラー形式データ準備では不要です。無駄な工程を増やさないようにしましょう。