Google Cloud Vision APIは、画像に含まれる顔やテキストをはじめとしたあらゆる情報を検出できる優れたツールです。ツールの利用によって、画像内のテキストをデータ化したり、ロゴを検出して権利チェックに活用したりできます。また、Google Cloud Vision APIは、他のサービスと組み合わせてより高度な機能を利用可能です。Google Cloud Vision APIを活用して、ビジネスのさらなる成長につなげましょう。
この記事では、Google Cloud Vision APIの概要や料金、機能などを解説しています。Google Cloud Vision APIについてわかりやすくまとめた内容になっているので、ぜひ最後までご覧ください。
Google Cloud Vision APIとは
Google Cloud Vision APIとは、Googleが開発した独自の画像認識サービスです。対象の画像を、事前に定義された数百万にもおよぶカテゴリに分類でき、利用者に以下のような機能を提供します。
- 顔や物体の検出
- ロゴの検出
- 不適切なコンテンツの検出
- ランドマークの検出
- 手書きの文字や入力されたテキストの読み取り
Google Cloud Vision APIでは、Googleオリジナルの機械学習モデルが活用されており、高速で優れた画像分析が可能です。
Google Cloud Vision APIの料金
Google Cloud Vision APIでは「ユニット」と呼ばれる単位によってツールの利用量が算出され、料金が決定します。1ヶ月1,000ユニットまでは、無料で機能を利用可能です。
例えば、1ヶ月1,000ユニットを使った後に、任意の画像1枚で「顔検出」と「テキスト検出」を使用した場合、「顔検出」と「テキスト検出」それぞれの1ユニットの料金が請求されます。そのためGoogle Cloud Vision APIの複数の機能を頻繁に利用する場合は、費用が高額になりやすいのが特徴です。コストを抑えたい方は、1ヶ月あたり1,000ユニット以内になるよう利用量を調整すると良いでしょう。
Google Cloud Vision APIの7つの機能
Google Cloud Vision APIの機能は、以下の7つです。
- 物体検出
- 顔検出
- テキスト抽出
- ロゴ検出
- ランドマーク検出
- ドミナントカラー検出
- セーフサーチ
機能の詳細を確認して、Google Cloud Vision APIで具体的に何ができるのかを把握しましょう。
参照:Google Cloud「機能リスト」
物体検出
Google Cloud Vision APIでは、画像に含まれているあらゆる物体を検出できます。また、物体以外にも、以下のようなものを高速で検出可能です。
- 動物
- 食べ物
- 商品
- 活動
- 場所
検出したものは、カテゴリ分けした後に「動物」「食べ物」などラベルをつけて利用者にわかるよう表示します。
顔検出
Google Cloud Vision APIを活用すれば、画像にある人の顔を素早く検出可能です。目や口などの顔を構成するパーツの位置情報や表情を分析して、喜怒哀楽のデータも取得できます。
テキスト抽出
Google Cloud Vision APIは、OCR(光学文字認識)という機能を備えており、画像内のテキストデータを検出可能です。テキストであれば、手書きか入力されたものかにかかわらず高速で検出して、表示します。
ロゴ検出
Google Cloud Vision APIは、画像に含まれるロゴの検出が可能です。例えば、ロゴ検出機能を特定の画像における権利チェックの際に活用すれば、企業やブランドのロゴを素早く検出して、作業を効率化できます。
ランドマーク検出
Google Cloud Vision APIを活用すれば、画像にあるランドマークを検出できます。例えば、東京スカイツリーや高尾山などのランドマークを検出して、位置情報を表示可能です。
ドミナントカラー検出
Google Cloud Vision APIは、画像に含まれるドミナントカラー(配色)の検出が可能です。画像にある色や配色に加えて、画像で使われている色が占めるピクセルの割合も表示できます。
セーフサーチ
Google Cloud Vision APIには、画像内に不適切なコンテンツが含まれていないかを判定できるセーフサーチ機能があります。セーフサーチ機能では、以下の5つのカテゴリによって不適切なコンテンツを判定します。
- adult
- violence
- medical
- spoof
- racy
Google Cloud Vision APIでは、上記のカテゴリから評価されたコンテンツの適切度合いも確認可能です。コンテンツの適切度合いは、以下の5段階で評価されます。
- VERY_UNLIKELY
- UNLIKELY
- POSSIBLE
- LIKELY
- VERY_LIKELY
コンテンツの評価ができない場合は「UNKNOWN」と表示されます。
Google Cloud Vision APIの利用方法
Google Cloud Vision APIの利用方法を、以下の4つのケースに分けて解説します。
- まずはデモを試したい場合
- プロジェクトを作成する場合
- Google Cloud Vision APIを呼び出して実行する場合
- 「PermissionDenied」エラーが出る場合
それぞれのケースに応じた具体的な手順を確認して、Google Cloud Vision APIをスムーズに活用するための参考にしてください。
参照:Google Cloud「Cloud Vision の設定とクリーンアップ」
まずはデモを試したい場合
まずはツールを試してみたいという場合は、Google Cloud Vision APIで任意の画像をアップロードしてみましょう。
- 「Drag image file here or Browse from your computer」というテキストが表示されている場所に、 任意の画像をドラッグ&ドロップする
- 「私はロボットではありません」の横にあるチェックボックスをクリックして、チェックを入れる
- 画像がアップロードされて、分析結果が表示される
画像の分析結果では、ラベルに加えて一致する画像が存在するWeb画像やWebサイトのURLなども表示されます。
プロジェクトを作成する場合
Google Cloud Vision APIは、Google Cloudに含まれるサービスの1つです。Google Cloud Vision APIを利用するには、Google Cloudでプロジェクトを作成しなければなりません。Google Cloudでのプロジェクト作成の方法は、以下の通りです。
- Google Cloudのプロジェクトセレクタページを開く
- Google Cloud Vision APIを有効にする
- 「認証情報」「サービスアカウント」の設定を行う
- サービスアカウントから「キー」を選択する
- 鍵を追加から「新しい鍵を作成する」をクリックし、認証キーを作成する
上記の設定が完了すれば、Google Cloud Vision APIを呼び出す際に必要なサービスアカウントキーを取得できます。
参照:Google Cloud「Cloud Vision の設定とクリーンアップ」
Google Cloud Vision APIを呼び出して実行する場合
Google Cloud Vision APIは、Pythonの活用によってより簡単にアクセス可能です。Pythonを活用する方法は、以下を参考にしてください。
- Cloud Visionクライアントライブラリをインストールする
- Pythonのライブラリをインストールする
- コードを入力して実行する
上記の方法でエラーになった場合は、課金設定が有効になっているかどうかを確認しましょう。
「PermissionDenied」エラーが出る場合
Google Cloud Vision APIを利用する際にGoogleの公式サイトに掲載されているサンプルコードを使用してエラーが出た時は、課金設定が無効になっている可能性があります。Google Cloud Vision APIを使用するには、無料枠で利用する場合でも、課金設定を有効にしなければなりません。「PermissionDenied」というエラーが出た時は、エラーのURLをクリックして、課金設定を有効にしましょう。
Google Cloud Vision APIと他の機能を組み合わせてできる3つのこと
Google Cloud Vision APIは、他のサービスと組み合わせて、以下のようなより便利な機能を利用できます。
- 画像内テキストを翻訳する
- 名刺から情報抽出する
- 不適切な画像にぼかしを入れる
他のサービスと組み合わせて得られる機能を把握して、Google Cloud Vision APIをより便利に利用しましょう。
画像内テキストを翻訳する
Google Cloud Vision APIは、Googleのサービスである「Text-to-Speech」と「Cloud Translation」との組み合わせで、画像に含まれるテキストの読み上げや翻訳が可能です。画像内のテキストを翻訳して読み上げたい場合は、最初にGoogle Cloud Vision APIで画像に含まれるテキストを検出し、Cloud Translationで翻訳した後、Text-to-Speechで読み上げます。
名刺から情報抽出する
Google Cloud Vision APIと「Natural Language API」を組み合わせれば、カメラに写した名刺から名前や企業名などの情報抽出が可能です。名刺から情報を抽出する際は、最初にGoogle Cloud Vision APIでテキストを検知した後、Natural Language APIで名前や企業名、住所といった情報を抽出します。
参照:Google Cloud「Natural Language AI」
不適切な画像にぼかしを入れる
Google Cloud Vision APIと「ImageMagick」を組み合わせれば、不適切な画像を自動で検出してぼかしを入れられます。この機能によって、暴力的なものや性的な表現などが含まれる不適切な画像の閲覧を制限できます。
参照:Google Cloud「Cloud Storage から画像を取得してぼかしを入れ、ストレージ バケットにアップロードする」
Google CloudでGoogle Cloud Vision APIを使うメリット
Google Cloud Vision APIを利用するには、Google Cloudの利用開始の手続きが必要です。Google Cloudには、Google Cloud Vision APIをはじめとした以下のようなさまざまなサービスが備わっています。
- Cloud Text-To-Speech API:テキストの音声変換
- Cloud Translation API:言語の翻訳
- Cloud Storage:ストレージ
- Google BigQuery:ビッグデータ解析
- TensorFlow:機械学習
- App Engine:コンピューティング
Google Cloudは、安定したデータ通信や処理スピードの速さ、高いセキュリティレベルといった優れた点が多く、企業の生産性向上や新しいビジネスチャンスの創出に貢献します。
Google Cloud Vision APIを活用して画像データを扱う業務の効率化を
Google Cloud Vision APIは、Googleが開発した独自の画像認識サービスです。対象の画像を高速でカテゴリに分類して、顔や物体、ロゴ、ランドマーク、テキストなどを検出します。Google Cloud Vision APIは、Google Cloudに含まれるサービスの1つで、他のGoogleのサービスと組み合わせれば、より便利な機能を利用可能です。
Google Cloudには、Google Cloud Vision API以外にも、ビッグデータ解析や機械学習、ストレージ、言語翻訳などの豊富な機能を備えています。Google Cloud Vision APIの利用をきっかけにGoogle Cloudを自社に導入すれば、現場の生産性向上に大きく貢献するでしょう。
電算システムでは、Google Cloudについてより詳しく解説した資料を無料で提供しています。Google Cloud Vision APIの導入を検討している方や、Google Cloudに興味のある方は、以下のページから資料をダウンロードしてみてください。
- カテゴリ:
- Google Cloud(GCP)
- キーワード:
- google cloud vision api