<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=445779107733115&amp;ev=PageView&amp;noscript=1">

【検証画像付き】Geminiを使った
データクレンジングの方法|
精度向上のポイントや注意点を解説

 2026.04.09  株式会社電算システム


社内に散在するデータを分析し効果的に活用するには、事前にデータクレンジングの作業が欠かせません。収集したデータに対して重複データの削除や表記揺れの補正、エラー値の修正などを行うことで、データが整形された結果、分析精度の向上につながります。

このデータクレンジングの作業は何かと時間や手間がかかるものです。しかし、Google社の生成AIモデル「Gemini」を活用すれば、自然言語の指示文だけで作業の自動化が可能です。その結果、データクレンジングの工数を大幅に削減でき、データ分析や戦略策定などのコア業務に注力できるようになります。本記事では、Gemini を活用したデータクレンジングの方法やメリット、注意点などを詳しく解説します。特にGoogleスプレッドシートやExcelの操作に慣れている方は、すぐに理解できるはずです。

データクレンジングを行わないことで発生する3つのリスク

データクレンジングは、収集したデータを分析へとスムーズに展開させるための重要な作業です。分析前にデータクレンジングを実施しないと、データ分析の精度低下や営業活動の機会ロスなどにつながる恐れがあります。それぞれのリスクについて詳しく解説します。

データ分析の精度低下

データクレンジングを実施しなければ、重複データや表記揺れが含まれたまま分析を行うこととなります。仮に、表記揺れによって「株式会社電算システム」と「(株)電算システム」が別々の企業として集計された場合、顧客数といったデータの母数に齟齬が生じてしまいます。その結果、ターゲットが正しく分類されなかったり、特定の施策が過大・過小評価されたりと、データ分析にも悪影響を与えかねません。

分析結果の精度が低下すると、経営の意思決定にも影響を及ぼします。正確かつスピーディーな意思決定を行うには、分析前にデータクレンジングを実施し、重複データや表記揺れなどを修正する必要があります。

営業活動の機会ロス

営業活動の機会ロスにつながりやすいのも、データクレンジングを実施しない場合のリスクだといえます。

例えば、顧客リストにおいて、同一企業であるにもかかわらず、別々の企業としてデータが登録されていると、対応履歴やステータスといった情報が分散します。このような状態では、営業担当者が過去のやり取りや正確な進捗状況を把握できず、提案やフォローの機会を逃してしまう可能性が出てきます。

そのため、案件管理表や進捗管理表などは特に、定期的にデータクレンジングを実施して重複データや表記揺れなどを取り除くことが重要です。

顧客満足度の低下

データベースに重複データや表記揺れが存在すると、顧客満足度の低下につながりかねない点にも注意が必要です。

例えば、部署ごとに同一の顧客を別々のデータとして登録した場合、営業部門とカスタマーサポート部門で別顧客として扱われ、対応内容に差が生まれることも考えられます。また、部署間で問い合わせ履歴が共有されなければ、顧客が別々の担当者に繰り返し同じ質問をしなければならず、二度手間につながる恐れもあります。

顧客情報は営業やマーケティング、カスタマーサポートなど、さまざまな部署で扱われるため、データクレンジングによって定期的に内容を精査し、組織内で情報を統一することが大切です。

手動によるデータクレンジングの課題と Gemini を活用するメリット

データクレンジングでは、データの整形や正規化、エラー値の修正、重複データの統合など、さまざまな作業を行う必要があります。これらすべてのプロセスを手作業で行う場合、データの削除や再登録、関数の入力などが必要で手間や時間がかかります。また、確認漏れや入力ミスといったヒューマンエラーが発生しやすいことも難点です。

一方、Gemini であれば、「テーブル内の表記揺れを訂正して」といった自然言語によるプロンプト(指示文)を提示するだけで、作業を自動的に実行してくれます。そのため、データクレンジングにかかる工数の大幅な削減につながります。

特にGoogleスプレッドシートでは、Gemini サイドパネルからAIに指示を与えられます。修正されたテーブルを、そのままワンクリックでスプレッドシート内に反映できる点が大きなメリットです。出力結果に不備があっても、Gemini と対話を繰り返しながらブラッシュアップできるため、より質の高いデータクレンジングを効率良く実行できます。

data-cleansing-methods-using-gemini-1

Gemini サイドパネルを利用するには、有料ユーザーへの登録が必要です(料金は後ほど詳しく紹介)。Gemini サイドパネルの仕組みや使い方については、こちらの記事で詳しく解説しています。

【作業別】Gemini で自動データクレンジングを行う方法と検証結果

データクレンジングでは主に以下3つの処理を行うのが一般的で、Gemini を活用すれば、プロンプトを入力するだけで自動的に作業を行ってくれます。

  • データの整形
  • データの正規化
  • 重複データの統合

今回は、実際にGoogleスプレッドシートで検証を行ってみました。具体的な使い方やプロンプトの入力例も交えつつ、詳細を解説します。

データの整形

データクレンジングではまず、処理効率を高めるため、収集したデータを整形する必要があります。手動で整形する場合は、TRIM関数(不要なスペースの削除)やCLEAN関数(不要な改行や非表示文字の削除)などを使用することが一般的ですが、Gemini なら自然言語のプロンプトのみで済みます。

Gemini でデータ整形を実行するために、まずは顧客リストや在庫リストといったデータベースを用意します。

data-cleansing-methods-using-gemini-2

Gemini サイドパネルで以下のようなプロンプトを入力します。

【プロンプトの一例】

以下のようにデータを整形し、修正後の表を作成してください。
・会社名に含まれる不要なスペースを削除
・所在地に含まれる不要な改行を削除

結果、以下のようなテーブルが完成しました。

data-cleansing-methods-using-gemini-3

会社名の不要なスペースがなくなり文字詰めが実行されたほか、所在地の不自然な改行も削除されていることがわかります。修正後のテーブルは、Gemini サイドパネル上の[挿入]や[上書き]をワンクリックすれば済むため、手作業よりも少ない工数で整形が可能です。

データの正規化

データの正規化とは、「株式会社電算システム」や「(株)電算システム」といったデータベース内の表記揺れを修正する作業です。GoogleスプレッドシートやExcelで手作業でデータを正規化する場合、SUBSTITUTE関数(指定文字列への置換)やASC関数(半角に統一)、あるいは置換機能を活用することが一般的です。一方の Gemini であれば、このような細かい作業を行う必要がありません。

Gemini でデータの正規化を実行するために、まずはGoogleスプレッドシートでサンプルとなるデータベースを用意します。

data-cleansing-methods-using-gemini-4

Gemini サイドパネルで以下のようなプロンプトを入力します。

【プロンプトの一例】

以下のように表記揺れを訂正し、修正後の表を作成してください。
・性別:男性または女性に統一
・電話番号:08012345678のように半角で統一(ハイフン・スペース不要)

結果、以下のようなテーブルが完成しました。

data-cleansing-methods-using-gemini-5

表記揺れが発生していた箇所(「性別」と「電話番号」の項目)が、指定通りに訂正されていることがわかります。

重複データの統合

データベースには重複データが含まれていることもあり、データクレンジングによってそれを取り除く必要があります。GoogleスプレッドシートやExcelには、重複削除機能(Googleスプレッドシートは[データ > データクリーンアップ > 重複削除]の順にクリック)が用意されているものの、データ量が多い場合は、[削除する]や[無視する]といった個別の作業に時間が取られがちです。

その点、Gemini なら、簡易的なプロンプトを入力するだけで、重複箇所の特定から修正、統合(修正後のテーブル生成)まで自動的に実行してくれます。例えば、以下のような重複データが含まれたデータベースがあるとします。

data-cleansing-methods-using-gemini-6

Gemini サイドパネルで以下のようなプロンプトを入力します。

【プロンプトの一例】

重複データを修正した表を作成してください。

結果、以下のようなテーブルが完成しました。

data-cleansing-methods-using-gemini-7

もともとのデータベースには、「田中太郎」と「小林美咲」の行がそれぞれ2つ存在していました。Gemini を活用すると、それらの行が削除され、重複データが統合された美しいテーブルへと仕上がりました。

Gemini で自動データクレンジングを行う際の2つの注意点

Gemini でデータクレンジングを実施する際、いくつか注意すべき点が存在します。ここでは、複数のポイントに分けて注意点を解説します。

常に正しい結果が出力されるとは限らない

Gemini は非常に精度の高い生成AIモデルではあるものの、ハルシネーションが起きる可能性もあります。ハルシネーションとは、あたかも正解かのように見える誤回答をAIが出力してしまう現象です。その原因としては、学習・参照するデータに誤りがある、AIがプロンプトの内容を正しく理解できていないなど、さまざまな理由が考えられます。

そのため、Gemini でデータクレンジングを行った後、必ず目視によるチェックを行いましょう。特に、Gemini サイドパネルを使って新たなテーブルを生成する場合は、修正した項目だけでなく、「Gemini が手を加えていない箇所のデータが変わっていないか」といった形で表全体を見直す必要があります。

機密情報の入力を避ける

Gemini をはじめとする生成AIサービスでは、入力したプロンプトの内容がAIモデルの学習に利用されるリスクがあります。その学習済みのAIモデルを起点に、自社の機密情報が別のユーザーの目に触れることも考えられるため、特に顧客の個人情報や人事情報、開発中の製品データなどは、極力入力しないことが肝要です。

データクレンジングの場合は、セル内のデータではなく、項目名やテーブル内の範囲などを指定して指示を与えると良いでしょう。例えば、「株式会社○○の表記揺れをチェックして」と指示するのではなく、「会社名の項目の表記揺れをチェックして」といったプロンプトを提示するのがおすすめです。

Gemini の自動データクレンジングの精度を高めるための4つのポイント

Gemini によるデータクレンジングの品質は、指示の出し方や作業の進め方に大きな影響を受けます。出力精度を向上させるには、次のポイントを意識することが大切です。

  • データクレンジングの業務フローを明確にする
  • 作業を細分化して指示を出す
  • データ品質基準を定める
  • 入力規則を設定する

それぞれの内容について詳しく解説します。

データクレンジングの業務フローを明確にする

データクレンジングは一度きりの作業ではなく、定期的に実施してはじめて品質の向上につながります。そのため、継続して作業に取り組める体制や環境を整えることが重要です。

データの整形や正規化、重複データの統合など、データクレンジングには複数のプロセスが存在するため、あらかじめ明確な業務フローを構築することをおすすめします。担当者のアサインや申請・承認など、継続的な作業実行に必要なプロセスも業務フローに組み込むと良いでしょう。

業務フローを明確にすることで、作業プロセスの棚卸しや細分化を行いやすくなり、Gemini に対してより的確な指示を与えられるようになります。

作業を細分化して指示を出す

Gemini に指示を与える際は、複数の作業を詰め込み過ぎないように注意が必要です。例えば、「不要なスペースを削除し、表記揺れを直し、重複をなくして」と作業内容が異なる複数のアクションを指定した場合、指示の意図をAIが正しく理解できず、誤った出力結果が生成される可能性があります。

そのため、データクレンジングの際は、「データの整形・データの正規化・重複データの統合」の3種類程度の作業に細分化し、別々に指示を与えることが重要です。作業内容を正しくAIに認識させることで、出力精度の向上につながります。

データ品質基準を定める

データクレンジングを実施する前に、「どのようなデータなら正解か(または誤りか)」といった品質基準を設けることが大切です。必須となる入力条件や形式、文字数の範囲や上限など、細かいルールを設定しましょう。逸脱した場合の修正方法や補完の方針を定めることも一案です。

Gemini を利用したからといって、必ずしも正しい出力結果が得られるわけではないので、目視によるチェック作業を行うことになります。その際、明確なデータ品質基準があれば、エラーが発生している箇所を特定しやすくなり、作業効率の向上につながります。また、担当者を問わず誰でも同じように作業を進められるため、業務の属人化を抑制できる点もメリットです。

入力規則を設定する

Googleスプレッドシートでは、メニューバーの[データ > データの入力規則]からデータ入力時のルールを設定できます。これにより、以下のような設定が可能です。

  • 「0を超える値のみ」といった入力値の設定
  • 「特定の文字を含む」「有効なメールアドレス形式」といったテキスト制限
  • 「○月○日より後」といった日付制限
  • 「未対応・対応中・対応済み」といったプルダウン化
  • 規則に反した場合の警告の表示や入力拒否の設定

入力規則が明確になれば、表記揺れや誤入力が減少し、データクレンジングにかかる工数の削減につながります。結果として、簡易的なプロンプトでもAIが作業内容を正しく理解し、より適切なアクションを行えるようになります。

Gemini の利用料金

Googleスプレッドシート内で Gemini の機能を利用するには、Google Oneか Google Workspace の有料プランに契約する必要があります。それぞれ役割や登録ユーザー数に違いがあるので、目的や利用人数に合わせて最適なプランを選択しましょう。

Google Oneの料金体系

Google Oneは、Googleドライブのストレージ拡張や Google Workspace の一部機能を利用できる、個人・小規模事業者向けの有料サービスです。ストレージ容量が最大30TBまで拡張されるほか、Google Meetの録画やノイズキャンセリングの機能を利用できるなど、さまざまな恩恵を受けられます。

Google Oneには2種類のGoogle AIプランがあり、いずれの場合でもGoogleスプレッドシート内で Gemini の機能を利用できるようになります。

  • Google AI Pro:月額2,900円(初月のみ無料)
  • Google AI Ultra:月額36,400円(最初の3ヶ月間のみ月額18,000円)

無料版では、最新(2025年12月時点)の生成AIモデル「Gemini 3」を1日数回までしか利用できませんが、Google AI Proなら最大100回、Google AI Ultraは最大500回まで拡張されます。そのほか、Deep ResearchやNano Banana Proなどの回数上限も増えるため、Gemini の活用範囲が大きく広がります。

Google Workspace の料金体系

Google Workspace は、GmailやGoogleドライブ、Googleドキュメントなど、複数のコミュニケーションアプリが統合されたグループウェアです。アカウント・権限情報を一元管理できる管理コンソールや高度なセキュリティ機能が備わっているほか、ストレージ容量も組織単位でプールされる仕組みで、中小~大企業まで利用できる汎用性の高さに特徴があります。

料金体系は次の通りです。

  • Business Starter:月額800円/ユーザー
  • Business Standard:月額1,600円/ユーザー
  • Business Plus:月額2,500円/ユーザー
  • Enterprise:要問い合わせ

Google Workspace には、Gemini in Googleスプレッドシートの機能が搭載されており、Googleスプレッドシートと Gemini を組み合わせた活用が可能です。Gemini サイドパネルも利用できるため、より効率的にデータクレンジングを実施できます。

Gemini の機能を最大限に活かしてデータクレンジングを効率化しよう

顧客リストや在庫管理表など、普段からGoogleスプレッドシートを使って情報管理を行っている場合は、Gemini サイドパネルを使ってデータクレンジングを実施するのがおすすめです。関数の入力は不要で、簡単な自然言語のプロンプトを入力するだけで、煩雑になりがちなデータの整形や正規化、重複データの統合といった作業が自動的に処理されます。質の高いクレンジング処理を効率良く実行できるため、工数削減やコア業務への時間分配といったメリットが生まれます。

Gemini サイドパネルを利用する場合は、Google Workspace の導入を検討してみてはいかがでしょうか。Gemini とGoogleスプレッドシートだけでなく、GmailやGoogleドライブ、Googleドキュメントなどのアプリを組み合わせて活用できる点が強みです。

電算システムでは、Google Workspace だけでなく、Google Workspace with Gemini の導入支援サービスを提供しています。Gemini の活用方法や体系的な知識を学べるハンズオントレーニングやワークショップ、カスタマイズトレーニングを提供しており、Google Workspace with Gemini のスムーズな定着を支援します。Google Workspace with Gemini の特徴や機能、最新情報などに関しては、以下の資料で詳しく解説しているので、ぜひ参考にしてください。