Wikidataとのデータ連携、その現況と展望
レポート:福田一史(大阪国際工科専門職大学)
1.はじめに:概要と目的
メディア芸術データベースでは、データの拡張及び活用のための活動の一環としてWikidata(ウィキデータ)1とのデータ連携を試みています。本レポートでは、その技術的な背景を踏まえつつ、データ連携の現況や利用可能性が示された事例を報告し、この試行の概況や意義について検討したいと思います。
2.Wikidataとは
Wikidataとは、ウィキメディア財団が運営する「自由・共同作業・多言語・二次情報を特徴とする、構造化データのデータベース2」です。Wikipediaの姉妹サービスであり、Wikipediaの多言語サービスの記事のハブとして、更に様々な外部データベース識別子のハブとしての役割を担っています3。Wikipediaの全ての記事に対して、Wikidataのページ/リソースは生成されており、図1のようにWikipedia記事の左上に表示されるハンバーガーボタン(三本線のアイコン)をクリックすると表示されるサイドメニューから「ウィキデータ項目」を選択すると、その記事のWikidataリソースにアクセスできます。
同リンク先で表示される画面が図2です。これは、データベースであるWikidataに記録されたデータを閲覧するためのウェブページであり「ファイナルファンタジーVII」の事例です。同作品を対象に分類や題名や派生作品が、さらに、ページ下部にはシリーズ、ジャンル、出版社、本国、言語、出版日、監督、作曲など、数多くの属性とその記録が確認できます。また、図の右側にはWikipedia各言語サービスの「ファイナルファンタジーVII」の記事へのリンクがあり、その件数は43件であると確認できます。
ここで事例として挙げた記事に代表されるとおり、マンガ・アニメーション・ゲームのようなポピュラー文化に関する情報量が多いサービスです。これは、Wikidataのリソースが基本的にはWikipedia記事と対になっており、それら記事の主題となるリソース種別の偏りを継承しています、わかりやすく言えばWikipediaにマンガ・アニメーション・ゲームの記事が多いためです。
Wikidataのデータはリンクト・オープン・データ(Linked Open Data:LOD)としてデータが記録・公開されています。リンクト・オープン・データとは、インターネット上でのデータの公開や交換のための技術です。同技術を用いたデータセットは継続的に増加しつつあり、様々なシステムやアプリケーションで利用実践が進んでいます。リンクト・オープン・データはオープンデータのベターな形式であるとして、例えば、様々なアーカイブ機関やそれらにより生成されるデータを集約するアグリゲーターによるデータ公開の標準となっています。
3.メディア芸術データベースとWikidataのデータ連携の現況
メディア芸術データベースの重要な特徴の一つに、Wikidataと同様に、リンクト・オープン・データでのデータ提供を行っている点が挙げられます。つまり、ブラウザでアクセスするウェブUI(ユーザ・インターフェイス)は、メディア芸術データベースの一つの断面でしかなく、その少し奥側には、生のデータセットとそれにアクセスするためのインターフェイスがあります。これらのデータセットやインターフェイスは、現在はメディア芸術データベース・ラボ4に集約されています。
このように両者はリンクト・オープン・データであるため、その名前のとおり、論理的にも技術的にもデータ接続に適しています。既に、Wikidataには「メディア芸術データベース識別子5」というプロパティが定義されています。これは、Wikidataのリソースを外部データセットと接続させるための識別子用のプロパティの一種でメディア芸術データベースのリソースとリンクするためのものであり、Wikidataコミュニティによる議論を経て設定されたものです6。本プロパティで記録されたデータ件数は31,721件であると確認できます7。メディア芸術データベースでは、記述対象のリソースの種別は「ジャンル(schema:genre)」に記録されます8が、Wikidataからリンクされたメディア芸術データベースのリソースのジャンル内訳を示したものが表1です。
表1. Wikidataに登録されるメディア芸術データベースリソースのジャンルリストとその件数及び割合
(参照2022-12-23)
ジャンル | 件数 | 割合(%) |
---|---|---|
ゲームパッケージ | 17,515 | 55.2 |
責任主体 | 8,902 | 28.1 |
ゲーム作品 | 5,052 | 15.9 |
マンガ単行本シリーズ | 179 | 0.6 |
アニメテレビレギュラーシリーズ | 47 | 0.1 |
#N/A | 12 | 0.0 |
アニメ映画シリーズ | 7 | 0.0 |
マンガ雑誌掲載履歴 | 4 | 0.0 |
アニメテレビ番組 | 1 | 0.0 |
マンガ雑誌単号 | 1 | 0.0 |
ゲームバリエーション | 1 | 0.0 |
この表で示されるとおり、ゲームパッケージ(ゲームの商品単位)の登録件数が多いです。また、それに続くのが、メディア芸術の作成や出版や所蔵などに責任を持つ個人・団体に該当する責任主体であり、次いで多いのがゲーム作品(ゲームの作品/タイトル単位)です。筆者が認識している限りでは、まずライプツィヒ大学図書館のリサーチプロジェクトの活動により登録されたゲームパッケージのデータの件数が多いです。また、立命館大学ゲーム研究センターにより作成されたデータによるゲームパッケージ・ゲーム作品・責任主体のリンキングの成果もあります9。その他に、Wikidataにも登録がある国立国会図書館典拠IDなどで紐付け可能な責任主体などについても、リンキングが行われています。一方で、他のジャンルのデータは登録がごく一部という状況です。
現時点での登録範囲の大部分は、特定のプロジェクトやアーカイブ機関のリンキング実践か識別子を用いた紐付けの容易な一部のジャンルのリソースなどであり、その他のジャンルについては、今後のリンキングの実践や充実が待たれます。
4.SPARQLを用いたデータ活用(LODチャレンジイベントレポート)
前述のとおり、Wikidataとメディア芸術データベースは、リンクト・オープン・データの技術を採用しており、これらがリンクした結果、両サービスはデータ充実・補完に繋がりました。更に広く捉えると、これら二つのデータセットは一つのより大きなデータセットになった、とも捉えられます。
先日、このリンキングによるデータ活用の方向性を考える上で、格好のイベントが行われました。イベント概要は以下のとおりです。
「文化・芸術とLOD」10
開催日時:2022年9月8日(木)18:30~20:00(入退場自由)
開催場所:オンライン(Zoom & YouTube Live)
主催:LODチャレンジJapan実行委員会
参加費:無料
本イベントはYouTube Liveのアーカイブとして現在も視聴可能です11。スピーカーは豊田将平氏(株式会社ソケッツ)であり、ホスト役が大向一輝氏(東京大学)という構成で実施されました。リンクト・オープン・データはRDF(Resource Description Framework)という有指向グラフ(ネットワーク)として表現可能なデータモデルで記述され、SPARQLと呼ばれる言語によるデータの問合せに対応しています。本イベントはその機能を存分に活かしたデータへのアクセスを、参加者とともに実践するものでした。ハンズオン型のイベントであり、豊田氏により作成されたウェブページ12を共有し、同ページで示される実行可能なメディア芸術データベース及びWikidataなどのウェブ上のインターフェイス(SPARQLエンドポイント)にアクセスする問合せを、解説・実行・体験する形式です。以下、その公開されたウェブページで紹介されたWikidataとのリンキングの有効性について簡潔に報告します。
まず、例えばメディア芸術データベースのSPRAQLエンドポイントを用いた問合せとして以下などがあります。
例えばこのようなデータを数行の問合せ文で、メディア芸術データベースに登録される限りにおいてではありますが、一度の処理で動的にデータ取得できます。注釈のリンクからいずれもアクセス可能ですので、未経験の方は是非経験してみてほしいです。
このように本イベントではメディア芸術データベースとWikidataを主たる題材にそれぞれのデータセット問合せの事例が紹介されましたが、後半に紹介されたフェデレーテッド・クエリ16は正に本レポートの趣旨と合致するものです。これらは、複数の別個のSPARQLエンドポイントのデータを結合するための問合せです。
まず「メディア芸術データベースの責任主体の法人番号を取得する17」との問合せがあります。これは機能的に分解すると、メディア芸術データベースのリソースから責任主体のリソースを選択し、それらに記録されるWikidataのIDを用いて、Wikidataにアクセスし記録される法人番号を取得し、それらを合成した表を返す、というものです。
同クエリには「法人番号から更にgBizINFOのSPARQLエンドポイントなどとも繋げられそうですね。」との豊田氏によるコメントも付されていますが、そのような問合せを作成すれば、政府の国内法人情報サービスでありSPARQL検索も可能なgBizINFO18に記録される情報、例えば代表者名、資本金、従業員数、財務情報、株主、特許関連情報なども取得できるでしょう。
もう一つ問合せの事例を見てみましょう。「『日本ゲーム大賞』を受賞したゲームを取得する19」というものです。これは、DBpedia日本語版に記録される日本ゲーム大賞20のリストから、該当するWikidataのリソースを選定し、それと関連するメディア芸術データベースに登録されるゲーム作品やゲームパッケージのリストを返す、というものです。
図3はハンズオンのウェブページでクエリを実行した結果の表示画面、その一部です。
上記のいずれの事例でも共通するのは、それぞれがそれぞれの思わくで作成した別種の公開データが一つの機能を果たしえた、という点です。飽くまで、その一端ではありますが、リンクト・オープン・データという形式や考え方、その強みを明確に示す事例であると言えるでしょう。
ここで紹介したもの以外にも、複数の問合せがハンズオンのページでは公開されていますので、それらも確認していただきたいです。
5.おわりに:総括と課題
近年、リンクト・オープン・データの考え方がじわじわと普及し、多様なデータセットが数多く公開されるようになりました。リンクするこれらのデータを「使いこなす」結果得られる情報に対するニーズは、例えば社会科学や人文科学など各学術分野や、もちろんマーケティング・リサーチやアプリケーション開発などビジネス各分野など、幅広く存在すると想定できます。
ここで論じたWikidataとのデータ接続やその活用事例は、様々なリンクト・オープン・データに対するニーズの一端ですが、メディア芸術分野における新しい発想や活動を創発するものになると想定できます。
幸いここで紹介したデータセットには、二次利用ライセンスが設定されています。メディア芸術データベースはCC-BYと互換性のある政府標準利用規約であり22、WikidataはCC0(再利用制限なし)です23。これらは言うなれば、データセットの再利用を促すサインであり、宣言です。つまり全ての人々に開かれており、またデータの利用確認などといった煩わしい手続は必要ありません。
ただし、これらを「使いこなす」ためには、メディア芸術データベース並びにリンクするデータセットの構造やセマンティクスを理解する必要性があり、この点にノウハウが求められるところに、依然として大きな障壁があります。これを少しでもバリアフリーにしていく必要性があります。そのような状況を踏まえて、既にオントロジーやメタデータスキーマ仕様書やサンプルクエリなど様々な関連文書が作成・公開されており、また今後も継続的に整備される計画があります。
メディア芸術のアーカイブ及びそこから生成されるデータを自在に使いこなすため、それらを支援する文書を充実させるとともに、外部データとのリンクを増やしデータセットの価値の一層の向上を通じて、今後、より多くの人がそれに触れ、メディア芸術を対象とする調査研究や社会的活用が拡張されることを期待したいと思います。