データエンジニアとは「データのよき理解者」である

 2019.05.13  電算システムブログ編集部

2017年、Google 傘下のディープマインド社が開発した囲碁AIのAlphaGoが最強の棋士に勝利したことを覚えてますでしょうか?この頃から各メディアでAIが大々的に取り上げられ始め、AIが非常に身近な存在となりました。

ビジネスの世界でも自社でAI技術を取り入れたいと考える企業が一気に増え、AIサービスの導入やAI人材の獲得と、AI市場が非常に活性化し始めました。
皆さんはAI人材と聞くとどんな職種を思い浮かべますか?恐らく多くの方はデータサイエンティストをイメージされるかと思います。

本稿では、データサイエンティストと共にAI市場で注目され始めているデータエンジニアについてお話をしたいと思います。

データエンジニアとは?

データエンジニアという言葉を初めて聞く方もいらっしゃるかと思いますので、名前の由来からお話させて頂きます。データエンジニアは海外では「データラングラー」と呼ばれていたりします。”ラングラー(Wrangler)”とは牛といった家畜を飼いならす、いわゆるカウボーイのことです。データラングラー(データエンジニア)は牛のように暴れまわるデータを自由自在に操ってデータ分析に活用できる状態にすることに起因したネーミングと考えています。

このようなネーミングがされるように、データというのは非常にやんちゃです。データエンジニアが注目されているのはこのやんちゃなデータが膨大に存在していることが理由の一つです。データエンジニアは、暴れまわるやんちゃなデータをあらゆるスキルやツールを用いて、収集・加工・集計・可視化することを主業務とします。

データエンジニアの仕事内容

それではもう少し具体的な仕事内容をお話したいと思います。

皆さんは自社のデータをビジネスに活かしたいと思ったことはありますでしょうか?実際に目の前にあるデータを分析してみた方もいらっしゃるかもしれません。ただ、分析できる状態になっていないデータを分析ツールや可視化ツールに投入してもピンとこない結果になったりしているのではないでしょうか。実はこういったデータは、何らかの加工をしてあげる必要があります。

例えば、CSVファイルに収めたデータをGoogle Cloud Platform のBigQuery(テラバイト、ペタバイト級のデータをSQLクエリで処理できるツール)に投入しようとすると、大体はスムーズに入りません。CSVデータを投入する際の条件を満たせるように変換してあげる必要があるからです。UTF-8という文字コードで採録されていることがBigQueryにCSVデータを導入する際の条件となるので、Shift-JISやASCIIで持っているデータはエンコード(データ形式の変換)が必要です。

このように、一見、綺麗なデータであっても、別のツールで読み込もうとすると様々なエラーが返ってきて、データをグラフなどで可視化するまでに時間がかかってしまうことがよくあります。さらに、データをツールに投入した後も、集計・可視化するまでに、多くの試練が待っています。

また、対象となるデータは、自社で保持しているデータに限りません。分析に必要なオープンデータ(天候データなどの二次利用可能な公開されているデータ)も必要に応じて収集し、活用します。少し話がそれてしまいますが、スポーツ観戦チケットなどの事例で有名なダイナミックプライシング(需要と供給に合わせて価格を変動させること)でもチケット販売データと天候データなどのオープンデータを組み合わせて実現しています。

ビジネス課題を解決する上で適宜使われるオープンデータはインターネットで誰でも収集可能ですが、データ分析用に整理されているわけでもありませんし、フォーマットもバラバラです。データエンジニアは、そういった統制が取れていないデータをまとめ上げ、ストレスなく横断して活用できるようにします。

データサイエンティストとの違い

データエンジニアという言葉の定義は様々ですが、電算システムではデータサイエンティストがデータ分析業務に集中できるようにという発想から生まれた職種として定義しています。

これまで、データ分析案件に携わるデータサイエンティストの工数のうち約8割を占めていたのは、データの準備(本稿でお話しているデータエンジニアの領域)です。残り2割の工数で整理されたデータに対して高度な統計数理を適用したり、機械学習モデルを作ったりと、本来専門性を発揮すべき分野に費やせる時間が非常に少ない、もしくは、足りないという状況でした。

データエンジニアはデータを準備し、データサイエンティストが本領発揮できるようにサポートします。また、お互いデータ分析に携わるものとして、データに関する対話を重ねて分析を深めたり、都度、経営と現場を把握している現場の方々も交えて議論をすることでビジネスに関する理解を深めます。

今後、データエンジニアはなくてはならない存在へ

データサイエンティスト、データアナリスト、データコンサルタント、データエバンジェリスト、データニンジャ、etc.、データ分析に携わる職種は様々あります。そのなかでも、電算システムが定義するデータエンジニアは、データの収集・加工・集計・可視化に特化します。

データは生ものです。鮮度がデータ活用の成功に直結する場合もあります。それらのデータを瞬時にビジネスに活かすためには、統計モデルや機械学習モデルの作成に時間をかけるよりも先に、一刻も早く集計・可視化して、観察でき、示唆を得られる状態にすることが求められます。

また、鮮度が大切とお伝えはしましたが、扱いが難しそうで役に立たなそうな過去データも、加工を施して磨いたり、他のデータと組み合わせたりすることによって、鮮度のいいデータとは異なる輝きを放ちます。

電算システムでは、自社で保持するデータからオープンデータまで、お客様のビジネスを含めたデータに関することを広範囲に理解し、データ分析案件の相談役となるデータエンジニアチームがいます。データ活用に関するお悩みがありましたら是非ご相談下さいませ。

お問い合わせ

RECOMMEND関連記事


RECENT POST「Google Cloud Platform」の最新記事


この記事が気に入ったらいいねしよう!
よくわかるGSuite無料セミナー