Google Dataset Search

AI

グーグルデータサーチ(Google Data Seach)で公開されているデータセットを検索して調べてみました。

現在はグーグルデータサーチベータβ版(Google Data Seach β)。

データセット

NASAやNOAA、HarvardのDataverseや学術リポジトリからもデータも見ることができます。kaggleのデータセット(dataset)なども出てくるようになっています。グーグルスカラー(Google Scholar)なども活用すれば良いかもしれません。この入手したデータセットは、schema.orgやその他のメタデータなどを利用していて、データセットに追記することも。

グーグルデータサーチ(Google Data Seach)概要については下記のとおり

データセット検索を利用すれば、ウェブ上の数千ものリポジトリに保存されているデータセットを探し、そのデータセットを世界中に公開して有効に活用することができます。

データセットや関連データはウェブ上のさまざまなデータ リポジトリに分散されている傾向があります。データはリンクされていなかったり、検索エンジンでインデックスに登録されていなかったりすることが多いため、データの検出は煩雑になり、場合によっては、不可能になることもあります。

そこで、Google ではデータを公開して利用する方法を変えたいと思い、複数のリポジトリにわたってデータを検索できる 1 つのインターフェースを作成しました。また、このプロジェクトには、a)データ共有エコシステムを作成することで、データサイト運営者にデータの保存や公開のベスト プラクティスへの準拠を促す、b)科学者に最も望んでいたものを提供する、つまり彼らが作成したデータセットの引用を通じてその研究の影響を示すことができるようにする、という別のメリットがあるとも考えています。


developers.google.com
Google Dataset Seach