データセットは、膨大なデータを必要とする機械学習において極めて重要ですが、手元のデータが不足している場合もあるでしょう。しかし、インターネット上には、日本で公開されているものから海外で公開されているものまで、様々なオープンデータが存在します。、、構築したいシステムや目的に応じたデータセットを選び取ることができれば、きっとあなたの助けになるでしょう。そこで、この記事では、インターネットで公開されている代表的な機械学習用のデータセットをまとめてご紹介します。
データセットまとめ
ここでは、さまざまなデータセットをまとめている代表的なサイトをご紹介します。
DATA GO JP
日本政府が公開しているデータセットをまとめたサイトです。国民の生活状況や企業活動といった公共データを提供しており、横断的に検索することもできます。公開されているデータセットは、営利目的を含めた二次利用が認められています。以前は、政府が公開するデータには機械で扱いづらいフォーマットのものが多くありましたが、2020年に「統計表における機械判読可能なデータの表記方法の統一ルール」が策定されて以降は改善が進んでいます。
Kaggle
企業や政府といった組織と、データ分析を行うデータサイエンティストや機械学習エンジニアをつなげるプラットフォームです。機械学習のコンペティションや、初心者向けの学習コンテンツが主ですが、さまざまな企業や研究機関などが公開するデータセットをダウンロードすることもできます。英語のみに対応しており、利用する際は会員登録(無料)が必要です。
Google Dataset Search
Google が提供するデータセット検索サービスです。2020年にリリースされたばかりで、世界各地の行政機関や研究所がインターネット上で公開する豊富なデータを手軽に検索できます。
国立情報学研究所
国立情報学研究所(NII)が研究者に向けて、日本の民間企業や大学などの研究データを提供しています。Yahooや楽天のレビュー付きのデータセットもあります。データセットを利用できるのは、原則として研究者またはNTCIR 参加者です。無料で利用できますが、申請して覚書を提出する必要があります。
AWS パブリックデータセット
Amazon AWS が公開しているデータセットで、機械学習に適したオープンデータが50億以上公開されています。他にも全世界のニュースのモニタリングデータを毎日更新するなど、幅広いデータを提供しています。
Harvard Dataverse
アメリカのハーバード大学が公開しているデータセットで、機械学習などに利用できるデータセットが500件ほど公開されています。利用する際は、データレポジトリ「Dataverse」のソフトウェアが必要です。
UC Irvine Machine Learning Repository
カルフォルニア大学アーバイン校が公開しているデータセットで、現在約400件のデータセットが公開されています。表記は英語のみで、無料でダウンロードできます。アヤメ、ワインの品質データといった、機械学習の教材としてよく使われるデータもこのデータセットです。
Microsoft Research Open Data
Microsoft が提供するデータセットで、Microsoft が研究のために作成・使用したデータをオープンデータとして検索・ダウンロードすることができます。Microsoft Azure を使用している場合、データをAzure上の仮想マシンに簡単にコピーし、使用開始することができます。
facebook research Dataset
Meta(旧facebook社) が公開しているデータセットです。
楽天データセット
楽天技術研究所が公開しているデータセットです。大学や公的研究機関向けに公開されており、楽天の商品レビューやアノテーション付きの文字画像などが提供されています。利用する際は、登録が必要です。
Google Cloud 一般公開データセット
Google が提供するデータセットで、気象、経済、医療、小売など様々な分野の200以上のデータセットを利用することができます。Google Cloud 上のビッグデータ分析プラットフォームであるBigQuery のデータセットとして提供されているため、大規模なデータに対してすぐに分析や機械学習モデルの作成を行うことができます。
画像データセットまとめ
次に、画像に関する代表的なデータセットをご紹介します。
MNIST
MNISTでは、7万枚もの手書き数字の画像データセットをダウンロードできます。機械学習初心者でも使いやすく、画像認識などのディープラーニングにも利用でき、応用が利くデータが揃っています。
LabelMe
LabelMe は、PythonとQtで実装されたGUIを持つアノテーションツールです。アノテーションの種類が豊富で、スムーズに作業を行うことができます。
ImageNet
ImageNetは、1,400万枚超の画像データを有するデータセットです。文字列検索によって検索単語に合うクラスが表示されるため、データを取得しやすいのが特徴です。
Google Open Image V6
Google が公開している画像データセットで、ラベルとバウンディング ボックスが付与された900万枚の画像データが公開されています。バウンディングボックスは全部で600のオブジェクトクラスに分類され、174万画像に対して実に1,460万個ものデータが付与されています。
CIFAR-10
AlexNetのAlex Krizhevsky氏のグループが公開しているデータセットで、10クラス、6万の 32×32カラーイメージで構成されています。クラスごとに6,000イメージがあり、5万個のトレーニング画像と1万個のテスト画像が公開されています。また、100クラスにそれぞれ600のイメージがある、CIFER-100データセットも公開されています。
動画データセット
次に、動画関係の代表的なデータセットをご紹介します。
YouTube-8M Dataset
Google の研究チームが公開している動画データセットで、700万件もの動画が公開されており4,800件のナレッジグラフのエンティティがタグ付けされています。動画データは、TensorFlowファイルとしてダウンロードできます。また、動画データ分析を開始するためのpythonコードも公開されています。
YouTube-BoundingBoxes Dataset
YouTube-8M Dataset と同じく、Google が公開している動画データセットです。一般公開されているYouTubeビデオから抽出された、約38万の15-20ビデオセグメントで構成された動画データが約24万件公開されています。オブジェクトを自動的に選択でき、編集や後処理を行うことなく使用できます。
UCF101- Action Recognition Data Set
セントラルフロリダ大学が提供する動画データセットで、人間のアクション認識を判別するための動画データを公開しています。1万3,320動画が分類され、動画には101個のアクションラベルが付与されています。無料で利用できますが、利用する際はデータ発行元のクレジットを記載する必要があります。
AVA
AVAは「Atomic Visual Actions(最小単位の視覚的なアクション)」の略で、Google から公開されている人間のアクションに関するラベルが付与された動画データを公開しています。ワンシーンに複数のラベルが付与されており、複雑なアクションを機械学習によって学ぶことができます。
EPIC KITCHENS
トロント大学カタニア大学ブリストル大学のコンピュータービジョン合同研究チームが公開する動画データセットです。調理や食器洗いといったキッチンでの作業を、ヘッドマウントカメラで撮影した55時間分の動画データが公開されており、動画データには約4万件の行動ラベルと約45万件のオブジェクトラベルが付与されています。無料で利用できますが商用利用は不可で、使用する際はクレジット記載が必要です。
テキストデータセット
次に、テキスト関係の代表的なデータセットをご紹介します。
青空文庫形態素解析データ集
青空文庫形態素解析データ集では、青空文庫の作品に対し形態素解析を行ったCSVデータを取得できます。CCライセンスの範囲であれば登録報告は不要で、営利目的でもデータを利用できます。青空文庫で公開されている作品のうち約11,000県のデータが利用可能です。
自然言語処理のためのリソース
京都大学の黒橋河原村脇研究室が公開するテキストデータで、自然言語処理用のツールやデータセット情報が公開されています。毎日新聞の記事に各種言語情報を付与したテキストコーパスを始めとした様々なコーパスデータセットを利用できます。
Google Books
Google の公開するテキストデータ検索サービスで、N-gram(文字列)処理が施された2.2TBのテキストデータが公開されています。Google が紙の書籍からデータをスキャンしており、書籍内の全文を検索できます。著作権切れの書籍であれば、すべてのページが無料で表示されます。
ウィキペディア・リンク・データ
ウィキメディア財団が公開する共同編集型のデータベースです。誰もが使用できることを目的に、Wikipediaの全文をデータセットとして公開しています。
Stanford University
アメリカのスタンフォード大学が提供するデータセットです。視覚情報(画像)と概念(言葉)をつなぐ、10万を超えるデータセットを提供しています。
専門分野のデータセット
経済・金融・健康情報などの各専門分野に関する、代表的なデータセットをご紹介します。
HealthData.gov
公共機関から提供されるデータの他、民間の医療機関からのデータなど、約1,000データセットが公開されています。
Quandl
Quandlは、各種金融・経済にまつわるデータを公開するデータスペースです。APIが公開されているため、Pythonなどプログラム上からデータを直接呼び出すことができ、経済指標や株価の予想に使用する機能学習モデルの構築に貢献します。有料データもありますが、会員登録だけで多くのデータを無料で利用可能です。
日経平均プロファイル
日本経済新聞が提供するデータスペースです。日経平均や日経アジア指数、JPX日経インデックス400を始めとする各種指数データをCSVファイルで取得できます。日次データは3年分、月次データは10年分が提供されています。
フィナンシャルタイムズ市場データ
オハイオ州立大学が公開しているデータセットです。株式や為替、債券などの金融データが公開されており、世界の金融市場の最新情報をいち早く取得できます。
[RELATED_POSTS]
まとめ
データセットは機能学習において欠かせない存在ですが、きちんとしたデータが揃っているケースは多くありません。数多くのオープンデータから、自社が抱える課題に適したデータセットを見つけ出すのは至難の業ですが、データから新たな価値を生み出すためには様々なデータ同士を組み合わせることが重要です。
株式会社電算システムでは、Google Cloud Platform をはじめ、データの収集・統合・可視化を実現するさまざまなプラットフォームサービスを提供し、当社ならではのデータ分析の強みを活かした提案と支援を行っています。会社ごとに最適なデータ活用方法をご提案いたしますので、ぜひ一度ご相談ください。
- カテゴリ:
- Google Cloud(GCP)
- キーワード:
- Google Cloud