ゲームのデータベースには様々なものがあるが、それぞれにどのような特徴があるのか。そしてそれをどのように評価していくのかを、いくつかのデータを提出しつつ整理を試みる。
1.はじめに
現在、コンピュータ・ゲームのデータベースにはさまざまなものが存在している。2011年まで発刊されていた大技林、英語圏でしばしば参照されるvgchartz.com、Mobygames、筆者自身も含め立命館ゲーム研究センターが制作に関わっているメディア芸術データベース...そして、オタク系の記事が充実していると言われている日本のWikipediaもデータベース的な状況を呈しているといってもよいだろう。
こうしたデータベースは、ゲームに関わるマーケット調査や、研究調査の基礎資料、ゲームアーカイブといった保存活動の基盤として使われるほか、一般のゲームユーザーが好きなゲームを探したりするといった用途にも使われている。
ただ、こういったデータベースの性質は実は、ものによって様々な特徴をもっているが、その違いについてはあまりよく知られていない。本稿では、それぞれのデータベースの性質について見ていきたい。
2.データベースの特性とは何か?
データベースの特性を論じるにあたって、網羅性、正規化、精度、恣意性といった論点について考えていくことが重要になる。ゲームの場合にそれらは、具体的にどういったことなのか、下記に整理しておこう。
・データの網羅性:適切な範囲内で網羅
第一に、適切な範囲での網羅性をもっているかどうか、という点があげられる。例えば、ファミリーコンピュータのDBをつくるのに、売上の高い100本のデータと、全てのゲームソフトのデータが網羅されたものであれば、後者のほうが優れており、かつ信頼に足るDBであるといえるだろう。
・データの正規化の程度:重複がないデータか
第二に、データ重複が存在しないこと(正規化がなされていること)である。同じゲームが何度も意味もなく繰り返し登場するようなDBは、整理されていないDBである。
・精度:間違いのない情報が入力できているか
第三が、データそのものの間違いが防がれているかどうかである。ウェブ上の情報や、雑誌情報などで、うっかりしたヒューマンエラーでの入力ミスなどが存在するが、こうしたものを、複数ソースをチェックするなどの対応によって情報の間違いを排除できているかどうかである。
・項目の恣意性
たとえば評価情報(レビューの点数など)は、データそのものの需要はあるだろうし、ファミ通クロスレビューの点数などを個別のゲームについて知りたいという一般ゲームユーザーは少なくないだろう。ただし、博物館などのアーカイブの基本となる基礎資料情報として項目化する場合にはこういった項目は不適切なものになる。
・DBの信頼性と関わらないDBの利便性について:DBの項目数をどう評価するか
さて、以上にあげたのが、DBの信頼性に関する四点の評価項目であるが、DBの信頼性を別にして、DBの利便性だけを問題にするのであれば、「項目数」がどれだけ多いか、どれだけ豊富な情報が入っているか、ということもDBの評価にとって重要な要素となるだろう。
このDBの項目数の数についてはDBの信頼性や精度とトレードオフの関係になることがある。項目ごとの信頼度が高い項目であるか、それとも情報ソースのあやふやな信頼度の低い項目であるかといった情報が明示されていればよいが、データごとの信頼度が十分に表記されず、データ項目数だけが増えてしまう場合、データ全体の信頼性を低めることになる。
3.データの正確性とはなんだろうか?
さて、さまざまな指標をあげたが、特に考え方の難しいのがデータの正確性や精度と言われる部分だろう。
・動的なデータの精度確保の難しさ
たとえば売上情報のような動的なデータは「122万本の売上」と書いた一ヶ月後に「123万本の売上」となっていることがありえるため、「完全な正確性」のようなものを実現することは難しい。
・情報の入力手順についての情報が含まれるかどうか
情報の入手手順についての確認できるかどうかは、データの再現性の点で重要である。たとえば個人ウェブサイトなどに掲載されているゲームソフトの情報は、実際には間違いのないデータであっても、その情報が何を担保に正確であると言っているのかどうかの判別が難しい。
理想的には、情報の出どころがもっともはっきりとしている物理的なゲームソフトのパッケージや説明書から直接知ることのできる情報が望ましい。ゲームソフトの物理媒体そのものを根拠とすることができる 。またDBには、何を情報の根拠としたかについての記述が求められる。
・精度が確保できない場合の対応が決定されているか
また、複数のソースによって情報が違っておりあるソフトのリリース時の価格について片方の情報源は「6800円」と記載しており、片方の情報源は「4800円」と記載していることがある。いずれかが間違っていることは明らかだが、どれが間違っているのかを検証する手段にコストがかかるようなケースある。理想的には、1つの1つのゲームについてじっくりと時間をかけていくことが望ましいが、たとえば、こうした情報について1つに丸一日以上を費やすような場合、事業コストが莫大になるため、精度についてどうしてもトレードオフが発生してしまう。
こうしたケースでは、たとえばDB作成時に統一基準を作る(商標登録なり、企業ウェブページなりを最終準拠にする)なり、データの信頼性の程度についての補助情報を表記し、DB内の信頼度にグラデーションがあることを積極的に開示するなりの手段を決定し、その手続を開示しアクセス可能にするといったことをどれだけそれらのDBが行っているかということが「精度」への取組ということになってくるだろう。
4.各DBの性質比較
各DBの性質を先に示した点からどのように整理できるかを、表1に示した。
データの範囲 | 正規化 | 精度 | ブレの発生する項目 | |
---|---|---|---|---|
メディア芸術データベース | 家庭用、PC、アーケード | 精度は高い (PC系を除く) |
なし | |
Vgcharz.com | 家庭用、PC、アーケード | やや重複あり | 不明 | 売上数 |
大技林 | 家庭用(1983-2011) | 概ね高い | なし | |
4gamer | 家庭用、PC、アーケードの一部 | 高い | なし | |
任天堂ウェブページ | 任天堂プラットフォーム発売のn64以後のみ | 高い (2000年以前については精度は△) |
なし | |
SCEウェブページ | SCEプラットフォーム発売のみ | 高い | なし | |
MSウェブページ | MSプラットフォーム発売のうち多数(一部欠け) | やや難あり | なし | |
ファミ通 | 家庭用ゲーム(1986年以後) | 概ね高い | 評価情報 |
表1. 各DBとの比較
A.企業による非公式データベース
VGChartz.comなど、は高い網羅性を有している一方で正規化や精度という点では問題がある。国内ではよく参照される『大技林』、『広技苑』も家庭用ゲームについて網羅性はかなり高く、また単純なデータ重複等もほぼない。ただし、例えば『魔界島』と『魔界村』、『クロックワークス』と『クロックタワー』を間違える等ヒューマンエラーはどうしても残ってしまっている。また、大技林は2011年6月までしか発行されておらず、これ以後、網羅的DBの価値は相対的に上昇している。
B.企業による公式のデータベース
SCE、任天堂、MS等のプラットフォーム事業者のウェブページ掲載のDBについては、企業や時期によってもばらつきが見られる。
具体的には、SCEについては、PlayStation Mobileをのぞくプレイステーション以後のゲームタイトル、任天堂であれば2004年以後(Nintendo DS、Wii以後)のゲームタイトルについては、データの正規性と精度はかなり信頼度が高い。
一方で、プラットフォーム事業者のウェブページであってもMicrosoftのXbox事業部が公開しているデータ、2004年以前の任天堂発売ソフト、またPlayStation Mobileについては運用形態が異なっている様子が見受けられる。
たとえば、Microsoft Xbox事業部がウェブページで公開しているデータについては、海外ローカライズタイトルなどで、英語情報そのままのケースなどもありデータの統一性に難が見られる。日本語訳でもパブリッシャーやデベロッパーの情報が北米版のままになっており日本での事業者がわからないケースも多い。とりわけ売上数の少ないゲームタイトルのページについては、正確な情報の取得が難しい傾向にある。
C.官公庁によるデータベース
官公庁によって整備されているデータベースとしては著者もその作成に関わっているメディア芸術データベース(開発版)がある。これは、一件一件のデータソースが何と紐付いているかということを示すという点で、データの遡りや再現性を高くしている。精度については、PC-88のゲームなどについてはデータ作成実施プロセス上、精度が充分高くなっていない部分もあるが、ほとんどのデータは3重〜6重のチェックが行われている。むろん、それでも一定のヒューマン・エラーは見られる。
5.DBの収録本数について
図1:
次に各DBの収録本数についてみていきたい。
図1は、2015年3月現在公開時点のものをまとめたものである。Vgchartzとmobygamesの収録本数が多い理由は日本語圏、英語圏のみならず世界中のゲームソフトを登録しているためである。一方で、メディア芸術データベースと、大技林のデータベースは国内におけるリストであるため、収録本数が相対的に低くなっている。
また、この図から、vgchartzのデータは、2010年前後のデータを中心に充実しているということがわかるだろう。
図2
さて、ゲームのプラットフォーム別にみたものが、図2である。メディア芸術データベースの収録本数としてアーケードゲームの収録数が大きく上回っているのがわかる。
なお大技林は、PCやアーケードのデータについては収録していない。
6.おわりに
以上、各DBの性質について簡単にみてきた。
網羅性が高く、精度の高いデータベースを作成していくには、大きなコストがかかる。一方で、網羅性や精度の高いデータベースを作成したとしてもそのようなデータベースをきちんと評価していくことは実はとても難しい。データの収録件数についてのみ言えば、比較的単純な数値的なデータによって示すことができるが、精度については検証が難しい。
1つ1つのゲームの単純なデータ量のみについて言うのであれば「Wikipediaで充分ではないか」という声もしばしば聞かれるが、研究や保存活動、マーケティング等の一定の精度を必要とする活動にとっては、精度の確保されたデータが整備されていることは重要である。それはゲーム業界および様々な文化政策等にとっての基盤となるものだろう。
本稿は、精度をめぐる評価手法についてに大筋の論点を示すのみだが、今後、こうした精度評価についての手続きを議論していく必要があるだろう。
※なお、本稿はDiGRA Japan 2014全国大会での発表原稿を元としている。
(井上 明人)