OCR(光学文字認識)とは、画像やPDFなどのファイルから文字情報を認識する技術です。データを読み取った後、テキストデータへと変換できるため、本来なら手入力していた情報を文字起こしする際に役立ちます。
最近ではフリーソフトや有償のサービスなど、OCRに関連するさまざまな製品が登場していますが、複数のOCRサービスが搭載されたGoogle Cloudを活用するのも一案です。
そこで本記事では、Google CloudのOCRサービスである、Document AIとCloud Vision APIの特徴やメリット・デメリットを解説します。Google Cloudを活用すれば、単なるテキストの認識だけでなく、非構造化ドキュメントのデータベース化や自動翻訳など、幅広いシーンで活用できます。
Google CloudではAI技術を用いたOCRを活用できる
まずはOCRの概要や、なぜGoogle Cloudを導入する必要があるのかという点を解説します。
OCRの概要と歴史
OCR(Optical Character Recognition)とは、画像やPDFなどのファイルから文字情報を認識する技術です。日本語では「光学文字認識」と訳されることもあります。スキャナーで紙文書を読み込むだけで文字がデジタル化されるため、帳票作成におけるデータ入力の負担軽減や、検索性の向上といったメリットが生まれます。
意外にも歴史は古く、1967年に東芝ソリューション(東芝のコンピュータ事業を前身とする企業)が、世界初となる手書きの郵便番号を識別するOCRを開発しました。つまり、郵便局では約60年も前からOCRを活用しているということです。
Google CloudのOCRでできること
OCRが開発されて数十年が経ち、その間にもさまざまな技術開発が行われてきました。なかでも近年は、OCRにAI技術を組み合わせて活用するのが主流です。
特にGoogleは、動画の文字起こしや翻訳、生成AIなど、幅広いシーンでAI技術を導入しており、その精度の高さに定評があります。そのため、Google Cloudに搭載されているAI機能付きのOCRを活用すると、いままでOCRの分野で課題だった、日本語の読み取り精度が低いという点を改善できます。日本語は英語と比較して、「文章の区切りがわかりにくい」「縦書きや横書きのフォーマットが存在する」など、独自の言語文化からOCRの精度を高めるのが難しいためです。
高精度で文字を認識し、OCRをビジネスシーンで最大限に活用するなら、Google Cloudの活用をおすすめします。
Google CloudのOCR製品は「Document AI」と「Cloud Vision API」の2つ
Google Cloudには100種類以上のプロダクトが含まれていますが、そのなかでもOCRに関連するのは「Document AI」と「Cloud Vision API」の2つです。ここでは、それぞれのプロダクトの特徴を解説します。
Document AIの特徴
企業内のデータベースは、必ずしもすべてのデータが高度に体系化され、即座に検索できるようフォーマットされているわけではありません。企業が取り扱うドキュメントは構造化されたデータばかりではなく、画像やPDF、メール、特許情報といった非構造化データも数多く含まれています。このような非構造化データのデータベース化に重きを置いているのが、Document AIの特徴です。
Document AIを導入すれば、いままで読み取るのが難しかった非構造化データを、OCR技術によって瞬時にテキスト化できます。それ以外にも、抽出したテキストからエンティティ(データベース上で管理すべき個別の情報単位)を割り出したり、各コンテンツを分類したりといったことも可能です。そのため、組織内に蓄積されたあらゆるドキュメントを体系化するのに役立ちます。
Cloud Vision APIの特徴
Cloud Vision APIとは、高度な機械学習を済ませたAIが画像を読み取り、高速で結果を分類できるサービスです。テキスト情報だけでなく、画像ファイルに含まれた物体や人物の顔、企業のロゴなど、幅広い情報を検出できます。例えば、物体検出をする際に、あらかじめ「食べ物」という抽出条件を設定しておくと、検出対象が自動的にカテゴリ分けされ、食べ物に関する適切なラベルが出力される仕組みです。
また、APIサービスなので、GoogleやGoogle以外のサービスと柔軟に連携できるのも強みです。連携するサービスによっては、不適切な画像にぼかし処理を入れたり、画像内のテキストを自動翻訳して読み上げたりと、幅広いシーンで活用できます。
Google CloudのOCR機能を利用する5つのメリット
Google CloudのOCR機能を活用するメリットは次の通りです。
- 一般的なOCR製品よりも活用範囲が広がる
- データ入力時間の短縮につながる
- ヒューマンエラーを防ぎやすい
- 従量課金制なので費用対効果に優れる
- ほかのプロダクトと組み合わせて活用できる
ここでは、それぞれのメリットについて詳しく解説します。
一般的なOCR製品よりも活用範囲が広がる
従来のOCRは文字情報をデジタル化するのが目的だったため、データ入力の手間削減や検索性向上など、業務効率化が費用対効果の基準となっていました。しかし、Google CloudではOCRとAI技術を組み合わせることで、活用範囲の拡張に成功しています。
Document AIやCloud Vision APIのところで紹介した通り、Google CloudにはOCR以外の付加機能が搭載されていることがわかります。例えば、非構造化ドキュメントの体系化や、APIを用いた機能の拡張などです。
そのため、Google CloudのOCRサービスを利用すれば、単なる業務効率化だけでなく、データ活用の推進や新たなビジネスチャンスの発見にも発展が可能です。もちろん以下で紹介するように、OCRとしての精度も高いため、業務効率化向けのツールとしても活用できます。
データ入力時間の短縮につながる
納品書や請求書といった帳票類は、まだ紙で運用されているケースも往々にしてあります。その場合、紙から電子情報へと変換するには手作業でのデータ入力が必要です。
一方、OCRを活用すると、例えば書類をスキャンして画像やPDFに変換するだけで、文字起こしの処理は機械側が自動的に行ってくれます。そのため、データ入力の大幅な時間短縮が可能です。データ入力に費やしていた時間を、より優先度の高いコア業務に割り当てることで、単なる業務効率化だけでなく生産性の向上にもつながります。
ヒューマンエラーを防ぎやすい
手作業でデータ入力を行う場合は何かとヒューマンエラーが起こりがちです。入力ミスや漏れなどが多いと、確認作業や手戻りにも手間がかかります。
Google CloudのOCR機能は、GoogleのAI技術を使って文字起こしできるのがポイントです。このAI技術は動画の文字起こしや翻訳、生成AIなど、幅広く活用されており、精度の高さに特徴があります。
Google Cloudでも誤変換の可能性はあるものの、そもそも精度が高いため、ダブルチェックに要する時間短縮につながります。ヒューマンエラーを未然に防ぐことでデータ化の精度向上が可能です。
従量課金制なので費用対効果に優れる
Google Cloudに搭載されているDocument AIやCloud Vision APIはいずれも、従量課金制の料金体系が採用されています。例えば、Cloud Vision APIの場合、使用した機能やユニット数ごとに価格が定められています。また、利用するユニット数によっては価格が無料です。このようにGoogle Cloudでは、使用した分のみ課金されるため、費用対効果に優れるほか、費用の最適化にもつながります。
ほかのプロダクトと組み合わせて活用できる
幅広いプロダクトが搭載されているGoogle Cloudは、複数のプロダクト同士を柔軟に組み合わせられるのが利点です。Google CloudにはOCRサービスのほかにも、クラウドコンピューティングやデータ分析基盤の構築、AutoML(機械学習の自動化)などに関するプロダクトが含まれています。
一例としてDocument AIなら、ビッグデータ解析ツールのBigQueryと組み合わせて、OCRの出力結果の正否や一連の処理の精度を確かめられます。Cloud Vision APIであれば、翻訳ツールのCloud Translationとの組み合わせで、「画像データの読み取り+翻訳」の作業がワンストップで完了します。連携するツールが多いほど活用シーンの幅が広がるでしょう。
Google CloudのOCR機能を利用する際の2つの注意点
Google CloudのOCR機能を利用する場合、以下で紹介するような注意すべきポイントがあります。あらかじめ要点を押さえておくと、OCR機能をより効果的に活用できます。
自社のセキュリティ要件を反映しにくい
Google Cloudはすべてのプロダクトがクラウド上で利用できる点に特徴があります。これは自社でハードウェアやインフラを用意せずにサービスを利用できるということですが、その一方で、セキュリティがGoogle側に依存しやすい課題が発生してしまいます。
基本的にGoogleは、社内に専任のセキュリティチームを発足したり、最先端のデータセンターを構えていたりと、データセキュリティに関するさまざまな取り組みを行っています。そのため、数ある企業のなかでも安全性の高いサービスではあるものの、インシデントのリスクがゼロになるわけではありません。この点を意識して、Google Cloudを利用するうえで社内でも実行可能なセキュリティ対策を行うことが肝要です。
100%の精度で内容を読み取れるわけではない
Google CloudのOCRは、AI技術の活用で従来よりも読み取り精度が向上したとはいえ、確実に正しい内容を抽出できるわけではありません。手書きの書類や不鮮明な画像など、読み込むファイルによっては文字が正しく認識されないケースもあります。
これはGoogle Cloudに限らず、AI技術を用いたOCR分野全般の課題ともいえます。人の手を介した確認や修正がどの程度発生するのか、事前に予測したうえで費用対効果を見極めることが重要です。
Googleが提供するOCRソリューションを最大限に活用しよう
OCRを上手く活用することで、データ入力の工数削減やヒューマンエラーの防止に加え、データ分析といった高度な業務にも活用が可能です。特にGoogle Cloudは幅広いシーンで活用できます。OCRの機能が利用できるDocument AIやCloud Vision APIのほか、自社の業務や課題に合わせて複数のプロダクトを組み合わせるのも良いでしょう。
電算システムでは、環境構築やコンサルティングなど、Google Cloudの導入支援サービスを提供しています。専門領域に精通した数多くのエンジニアが在籍しているので、スピーディかつ質の高いサポートを行えるのが強みです。さらに、電算システムのリセールサービスを活用すれば、Google Cloudの利用料に関する請求書発行や割引などを利用できます。Google Cloudと電算システムについては以下の資料で詳細を紹介しているので、参考にしてください。
- カテゴリ:
- Google Cloud(GCP)
- キーワード:
- ocr google