<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=220807558931713&amp;ev=PageView&amp;noscript=1">

機械学習に便利なデータセット30選

 2020.09.17  ラクまるブログ編集部

データセットは、膨大なデータを必要とする機械学習において極めて重要です。独自のシステムを開発するためには、インターネット上で公開されているさまざまなオープンデータを活用するだけでなく、構築したいシステムや目的に応じたデータを選び取ることも大切です。現在は、日本で公開されているものから海外で公開されているものまで、豊富なオープンデータが存在します。この記事では、インターネットで公開されている代表的な機械学習用のデータセットをまとめてご紹介します。

データセットまとめ

ここでは、さまざまなデータセットをまとめている代表的なサイトをご紹介します。

DATA GO JP

日本政府が公開しているデータセットをまとめたサイトです。国民の生活状況や企業活動といった公共データを提供しており、横断的に検索することもできます。公開されているデータセットは、営利目的を含めた二次利用が認められています。

Kaggle

企業や政府といった組織と、データ分析を行うデータサイエンティストや機械学習エンジニアをつなげるプラットフォームで、さまざまな企業や研究機関などが公開するデータセットをダウンロードできます。英語のみに対応しており、利用する際は会員登録(無料)が必要です。

Google Dataset Search

Google が提供するデータセット検索サービスです。2020年にリリースされたばかりで、世界各地の行政機関や研究所がインターネット上で公開する豊富なデータを手軽に検索できます。

国立情報学研究所

国立情報学研究所(NII)が研究者に向けて、日本の民間企業や大学などの研究データを提供しています。Yahooや楽天のレビュー付きのデータセットもあります。データセットを利用できるのは、原則として研究者またはNTCIR 参加者です。無料で利用できますが、申請して覚書を提出する必要があります。

AWS パブリックデータセット

Amazon AWS が公開しているデータセットで、機械学習に適したオープンデータが50億以上公開されています。他にも全世界のニュースのモニタリングデータを毎日更新するなど、幅広いデータを提供しています。

Harvard Dataverse

アメリカのハーバード大学が公開しているデータセットで、機械学習などに利用できるデータセットが500件ほど公開されています。利用する際は、データレポジトリ「Dataverse」のソフトウェアが必要です。

UC Irvine Machine Learning Repository

カルフォルニア大学アーバイン校が公開しているデータセットで、現在約400件のデータセットが公開されています。表記は英語のみで、無料でダウンロードできます。

Microsoft Research Open Data

Microsoft が提供するデータセットで、Microsoft が公開するオープンデータを検索・ダウンロードできます。Microsoft Azure との連携もできます。

facebook research Dataset

facebook research が公開しているデータセットです。

楽天データセット

楽天技術研究所が公開しているデータセットです。大学や公的研究機関向けに公開されており、楽天の商品レビューやアノテーション付きの文字画像などが提供されています。利用する際は、登録が必要です。

データ・ドリブン時代の歩き方
GCP総合ブローシャー

画像データセット

次に、画像に関する代表的なデータセットをご紹介します。

MNIST

MNISTでは、7万枚もの手書き数字の画像データセットをダウンロードできます。機械学習初心者でも使いやすく、画像認識などのディープラーニングにも利用でき、応用が利くデータが揃っています。

LabelMe

LabelMe では、PythonとQtで実装されたGUIを持つアノテーションツールです。アノテーションの種類が豊富で、スムーズに作業を行うことができます。

ImageNet

ImageNetは、1,400万枚超の画像データを有するデータセットです。文字列検索によって検索単語に合うクラスが表示されるため、データを取得しやすいのが特徴です。

Google Open Image V4

Google が公開している画像データセットで、ラベルとバウンディング ボックスが付与された900万枚の画像データが公開されています。バウンディングボックスは全部で600のオブジェクトクラスに分類され、174万画像に対して実に1,460万個ものデータが付与されています。

CIFAR-10

AlexNetのAlex Krizhevsky氏のグループが公開しているデータセットで、10クラス、6万の 32×32カラーイメージで構成されています。クラスごとに6,000イメージがあり、5万個のトレーニング画像と1万個のテスト画像が公開されています。

動画データセット

次に、動画関係の代表的なデータセットをご紹介します。

YouTube-8M Dataset

Google の研究チームが公開している動画データセットで、700万件もの動画が公開されており4,800件のナレッジグラフのエンティティがタグ付けされています。動画データは、TensorFlowファイルとしてダウンロードできます。

YouTube-BoundingBoxes Dataset

YouTube-8M Dataset と同じく、Google が公開している動画データセットです。一般公開されているYouTubeビデオから抽出された、約38万の15-20ビデオセグメントで構成された動画データが約24万件公開されています。オブジェクトを自動的に選択でき、編集や後処理を行うことなく使用できます。

UCF101- Action Recognition Data Set

セントラルフロリダ大学が提供する動画データセットで、人間のアクション認識を判別するための動画データを公開しています。1万3,320動画が分類され、動画には101個のアクションラベルが付与されています。無料で利用できますが、利用する際はデータ発行元のクレジットを記載する必要があります。

AVA

AVAは「Atomic Visual Actions(最小単位の視覚的なアクション)」の略で、Google から公開されている人間のアクションに関するラベルが付与された動画データを公開しています。ワンシーンに複数のラベルが付与されており、複雑なアクションを機械学習によって学ぶことができます。

EPIC KITCHENS

トロント大学カタニア大学ブリストル大学のコンピュータービジョン合同研究チームが公開する動画データセットです。調理や食器洗いといったキッチンでの作業を、ヘッドマウントカメラで撮影した55時間分の動画データが公開されており、動画データには約4万件の行動ラベルと約45万件のオブジェクトラベルが付与されています。無料で利用できますが商用利用は不可で、使用する際はクレジット記載が必要です。

テキストデータセット

次に、テキスト関係の代表的なデータセットをご紹介します。

青空文庫形態素解析データ集

青空文庫形態素解析データ集では、青空文庫の作品に対し形態素解析を行ったCSVデータを取得できます。CCライセンスの範囲であれば登録報告は不要で、営利目的でもデータを利用できます。

自然言語処理のためのリソース

京都大学の黒橋河原村脇研究室が公開するテキストデータで、自然言語処理用のツールやデータセット情報が公開されています。毎日新聞の記事に各種言語情報を付与したテキストコーバスを利用できます。

Google Books

Google の公開するテキストデータ検索サービスで、N-gram(文字列)処理が施された2.2TBのテキストデータが公開されています。Google 社が紙の書籍からデータをスキャンしており、書籍内の全文を検索できます。著作権切れの書籍であれば、すべてのページが無料で表示されます。

ウィキペディア・リンク・データ

ウィキメディア財団が公開する共同編集型のデータベースです。誰もが使用できることを目的に、Wikipediaの全文をデータセットとして公開しています。

Stanford University

アメリカのスタンフォード大学が提供するデータセットです。視覚情報(画像)と概念(言葉)をつなぐ、10万を超えるデータセットを提供しています。

専門分野のデータセット

経済・金融・健康情報などの各専門分野に関する、代表的なデータセットをご紹介します。

HealthData.gov

公共機関から提供されるデータの他、民間の医療機関からのデータなど、約1,000データセットが公開されています。

Quandl

Quandlは、各種金融・経済にまつわるデータを公開するデータスペースです。Pythonによるデータ取得記事も多く、経済指標や株価の予想に使用する機能学習モデルの構築に貢献します。

gaincapital.com

gaincapital.comは、為替取引で世界的に有名なゲインキャピタル社が提供するデータセットです。過去の為替レートのデータを公開しており、2000年から最新までの1週間ごとの為替レートをダウロードできます。取得のための会員登録などは必要ありません。

日経平均プロファイル

日本経済新聞が提供するデータスペースです。日経平均や日経アジア指数、JPX日経インデックス400などの経済データを取得できます。

フィナンシャルタイムズ市場データ

オハイオ州立大学が公開しているデータセットです。株式や為替、債券などの金融データが公開されており、世界の金融市場の最新情報をいち早く取得できます。

[RELATED_POSTS]

まとめ

データセットは機能学習において欠かせない存在ですが、自社が抱える課題に適したデータセットを見つけ出すのは至難の業です。

株式会社電算システムでは、Google Cloud Platform をはじめ、データの収集・統合・可視化を実現するさまざまなプラットフォームサービスを提供し、当社ならではのデータ分析の強みを活かした提案と支援を行っています。会社ごとに最適なデータ活用方法をご提案いたしますので、ぜひ一度ご相談ください。

GCP 技術コンサルティング

RELATED POST関連記事


RECENT POST「Google Cloud Platform」の最新記事


機械学習に便利なデータセット30選
【オンライン開催】よくわかるGCPセミナー BigQueryではじめるデータドリブン経営