<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=445779107733115&amp;ev=PageView&amp;noscript=1">

データ分析に不可欠なデータクレンジングとは?重要性や手順を解説!

 2021.04.22  2023.08.08

データの整理や統一ができていないとお困りではありませんか? この記事では、データを修正して保存する「データクレンジング」について、概要や方法、メリットを紹介します。データの質を高めたい方は、ぜひ参考にしてください。

データクレンジングとは?

近年のIT技術の発展はすさまじく、それに伴いシステムから発生するデータや、私たちが日々の暮らし、業務の中で生み出すデータも増加しています。当然、業務の中でもデータを扱う機会が増えています。しかし、これらのデータはすべて整った状態で生み出されるわけではありませんので、データ活用の障害となる品質の悪いデータも多く存在します。例えば、表計算ソフトで数値が文字列として入っている、住所録で同じ住所の表記違いが存在する、日次のデータと組み合わせたいデータが月次に集計されてしまっている、といったことは、誰しも一度は経験があるのではないでしょうか。

 

データクレンジングとは、このような「品質の悪い=活用が難しい」データに対して、名寄せや無駄な空白文字の除去、データ型の変換、重複データの削除などを行い「品質の良い=活用しやすい」状態にしてあげることを指します。

これは一見、地味で面倒な作業に思えますが、企業のデータ活用において無視できないタスクのひとつであると言えます。

その理由の1つはデータ活用のスピード向上です。近年のデータ活用では、複数のデータソースから取得したデータを組み合わせて活用することが一般的になっています。もし、それらのデータがクレンジングされていなければ、欲しかったデータを作成するまでに毎回膨大な時間をかけてデータを整えなければいけないため、スピード感を持ったデータ活用ができません。

2つ目の理由はデータの信頼性向上です。例えば、クレンジングされていない品質の悪いデータのせいで集計のミスが発生し、AさんとBさんがそれぞれ出した売上の数値が違ってしまったとします。このようなことが起きると、データに対して、「今見ているデータは本当に正しいのか?」という疑問が付きまとい、データを信用できなくなってしまいます。信用できなくなったデータは誰も使わなくなりますので、せっかくデータ活用のためにコストをかけて収集した大量のデータが水の泡になってしまいます。

なぜデータが汚れるのか

そもそもなぜ、データクレンジングが必要になるのでしょうか?
品質の悪いデータというのは、データベース内の会社名の表記が微妙に異なっていたり、電話番号のハイフンの有無が異なっていたり、集計の粒度が異なっていたりと、データが整っていない状態を指します。

品質の悪いデータが生まれてしまう原因としては、例えば、データを収集するセンサーの調子が悪く、一定の割合でデータが欠損してしまうといった機械的な原因もありますが、多くは人的なミスや、データに関するルールが定められていないために発生します。

特に、普段からデータの取り扱いについて社内で管理を徹底していない場合に起こりやすいといえるでしょう。どのデータはどういった形式や規則で扱うかを決められた定義が存在しないと、個人や部署ごとによる独自の判断によって、異なる方法でデータが入力される事態を引き起こします。

また、きちんと管理していても、事業や部門の統合などによって異なるデータベースを併用したり、システムの刷新により旧システムとデータの形式が変わったりすることも考えられます。

加えて、システム側での考慮漏れといったケースもあります。ルールが存在しても、従うのが人間である以上完璧は存在しません。例えば、半角文字で入力するルールの入力システムで、半角、全角どちらでも入力できる状態の入力項目が存在したとします。すると、同じデータが半角と全角でそれぞれ重複して登録されるという事態がいずれ発生してしまうでしょう。

このような複数の要因によって、品質の悪いデータは発生します。
その結果、前の段落でお伝えしたように、データ活用の障害となってしまうのです。

花王株式会社様 導入事例
freee株式会社様導入事例

データクレンジングのメリット

データクレンジングによるデータ品質の向上は、業務の効率化やコスト削減など、さまざまなメリットがあります。ここでは、代表的な3つのメリットを紹介します。

業務効率の向上

データクレンジングを実施することにより、データベース上で検索すれば、必要なデータがすぐに取り出せます。

これまで必要とされていた、データ修正や整理の時間がなくなるため、企業全体の業務効率化につながります。

その結果、データの準備以外の業務に時間を割くことができ、より業務上の成果も出しやすくなるでしょう。

コスト削減

データが汚れていると、データの修正のために無駄な時間がかかり、その結果人的コストが増大してしまいます。しかしデータが整っていれば、業務のスピードが上がり、コスト削減が可能です。

また、データが整備されていれば、データ分析で誤った結果が出る可能性も減らすことができ、データの正確性も確保できます。

データが正確であれば、データの修正に時間を取られることもありません。

迅速な意思決定

企業の意思決定には様々なデータが必要ですが、必要なデータがあるたびに「用意するので来週まで待ってください」ではとても迅速な意思決定はできません。データがクレンジングされていれば、必要なデータをすぐに提供でき、意思決定のスピードも向上するでしょう。

また、迅速なデータ提供は議論の活発化にも繋がります。データを見ていて気になる箇所があったにも関わらず、その疑問を深掘りするためのデータがすぐに出せないまま時間が経ち、忘れてしまった、という経験をした方も多いのではないでしょうか。このようなちょっとした疑問をその場で議論することができれば、新しいアイデアやビジネスチャンスに繋がることもあるでしょう。

必要なデータを迅速に提供できるだけで、競合他社の中で優位に立つという効果が得られるかもしれないのです。

データクレンジングの方法

では、データクレンジングはどのように行うのでしょうか? ここでは、データクレンジングの具体的な方法を説明します。

1. データの収集

まずはデータの収集を行います。データベースすべてのデータクレンジングを行いたい場合は収集する必要はありませんが、特定のデータの場合は、必要なものを抽出しておくことで、データの修正が素早く行えます。特に、クレンジング対象となるデータ範囲の選定は重要です。1つのデータだけをクレンジングするのではなく、関連しているデータも含めてクレンジングする必要があるかもしれません。クレンジングしたデータを何に利用するかを考慮したうえで、データ同士の関連性を整理しながら進めると良いでしょう。

2. データの取り込み

続いて行うのが、収集したデータの取り込みです。データをひとつのデータベースにまとめます。データが様々なプラットフォームやアプリケーションに散在していると、それぞれのアプリケーションでクレンジングを実施しなければいけないので、手間がかかります。データを統合されたデータベースに集約することで、SQLなどを用いてシステマチックにクレンジング処理を行うことができます。扱うデータ量が多い時には、必須のステップといえるでしょう。

3. クレンジングの実行

データクレンジングのメイン作業となるのが、クレンジングの実行です。データの誤りやゆらぎを探し出して、データの修正を行います。

このクレンジングを行う前に、データの修正基準を決めておきましょう。例としては、「半角英数字に統一する」「株式会社を(株)に統一する」「電話番号のハイフンは抜く」「売上の集計は税抜きとする」などがあります。また、データの重複削除も行いましょう。

4. データの整理

最後に、データの整理を行います。データの整理とは、データクレンジングが終わったデータを、目的に合わせてリスト化し、適切な保存場所に保存しておくことを指します。その際は、そのようなクレンジング処理を施したか、使用したSQLなどと共に残しておくのが良いでしょう。再度同じクレンジングを行いたいときの手間を省くことができます。また、クレンジングしたデータについて、データの使用者に周知することも重要です。せっかくデータを利用しやすい状態にしても、その存在が知られなければ意味がありません。

5. 継続的なクレンジング

一度クレンジングを実施したら、継続的に実施できる環境を構築することも検討しましょう。データは継続的に発生しますので、同じ作業を毎回手動で行うのは手間がかかります。クレンジング処理のSQLを保存しておくなど、繰り返し実施できるようにしておくと良いでしょう。場合によっては、データクレンジングツールを使用することも良い手段です。ツールには、表記の揺らぎや重複を検出したり、各種システムからのデータ収集パイプラインを構築できる機能を持つものもありますので、データクレンジングに割ける時間や人的リソースが少ない場合にはツールの導入がおすすめです。

ひとつ、忘れてはいけないのは、データクレンジングはあくまでその場しのぎだという点です。データの品質をデータクレンジングだけで担保しようとしてはいけません。そもそも、データの上流(データの発生源に近い方)で、品質の悪いデータが発生しないような仕組みを作ってあげるのが基本になります。継続的なデータクレンジングと、システムの改修にかかるコストを天秤に掛けたうえで、データ発生源のシステムを改善することも検討しましょう。

Google Cloud 事例
Google Cloud

データクレンジングの注意点

上記では、データクレンジングの具体的な方法について説明しました。ここでは、データクレンジングを行ううえで、押さえておきたい2つの注意点を紹介します。

1つ目の注意点は、データの品質、つまりデータを活用する上で有用なクレンジングとなっているかに注意することです。データのクレンジング自体は目的ではなく、本来の目的はデータの活用をスムーズにすることにあります。データを整えることを意識しすぎるあまり、データ使用者にとって扱いにくいデータとなってしまわないように注意する必要があります。

2つ目の注意点は、目視でのチェックを行うことです。
データクレンジングをツールで行う場合、どうしても人の目で確認しなければわからないデータの重複などが起きる可能性があります。最終的にデータを活用するのは人間なわけですから、より正確なデータにするためにも、データクレンジングの最後に目視での確認をしたほうが良いでしょう。自動化する場合にも、初回は必ず人間がチェックし、本当に使いやすいデータとなっているかどうかを確認しましょう。

データクレンジングの課題

ここまで述べてきた様に、データクレンジングには手間と時間がかかります。実はこれがデータクレンジングにおける最大の課題です。

世界各国に展開しているクラウドソーシングサービスを運営する米国 CrowdFlowerが2017年に行った調査によると、データ分析者にとって、データクレンジングを含むデータの前処理は最も時間を割かれるものであり、最も楽しめない業務として挙げられています。

そのため、クレンジング作業を効率化し、実施者の心理的負担を減少させられるようにしなければなりません。
参照:https://www.youtube.com/watch?v=um-V9FM0Oe0

DSKのデータ分析

そこでDSKでは、企業やデータ分析者の負担を減少させるべく、データ分析サービスを実施しています。

データ分析サービスでは、弊社の誇るデータサイエンティスト・データエンジニア達がデータ分析における課題の設定、計画、データ収集、データの加工、集計、可視化まで一貫してサポート致します。

データ分析に興味のある方におすすめのEbookをご用意していますので、是非ご覧ください。

まとめ

データクレンジングとは、取り溜めたデータの修正や加工をして、データを整理することをいいます。データを整理しておくことにより、必要なときに必要なデータをすぐに取り出せたり、データの不備を減らせたりと、企業の実務において役立ちます。

その一方で、データクレンジングには、時間がかかることが課題として挙げられているため、適切な手順に沿ってデータの修正を行うことが大切です。

データの収集、データの取り込み、クレンジングの実行、データの整理の順に、データクレンジングを行いましょう。もし時間や人員が足りない場合は、データクレンジング専用のツール導入や、専門サービスを利用する事も検討しましょう。

データを活用すればビジネスは変わる。
さぁ、データ・ドリブン経営へ舵を切りましょう。

データ・ドリブン時代の歩き方

RELATED POST関連記事


RECENT POST「Google Cloud(GCP)」の最新記事


Google Cloud(GCP)

データクレンジングとは情報を正規化する作業|実際のやり方や活用事例をわかりやすく解説

Google Cloud(GCP)

【今日から始めるデータ分析】データ分析を効率的にすすめるためのヒント

Google Cloud(GCP)

【GoogleCloud】BigQueryのデータリネージ(Dataplex機能)を紹介|データマネジメントには欠かせないデータリネージの考え方とは

Google Cloud(GCP)

データ分析の5つのプロセスとは?成功のためのポイントも解説

データ分析に不可欠なデータクレンジングとは?重要性や手順を解説!