ボードゲームの雑感「とある書籍をめぐる騒動とデータ処理の基礎」

本当に面白いボードゲームと称した書籍に載ったゲームの評価について、SNSまわりでガヤガヤしていたらしい。おれはトゥイッターをやっていないので、リアルタイムでピーチクパーチクつぶやかれていた意見を見ていたわけではないし、また件の書籍を読んだわけでもないので、お気に入りのゲームの評価が低くて凹もうが評価の方法がクソだろうが知ったことではないのだが、この騒動を見るにつけて思ったこと、ただしこの騒動に関連する議論とはまったく違うことに対することについて述べていきたいと思う。

今回の騒動のおさらい

まずは後で述べる内容について理解を深めるためにも(そして多分に時事ネタであるため、後から振り返ったときのために意味不明にならないようにするためにも)、今回の騒動の内容をおさらいしておこう。

「本当に面白いボードゲームの世界」(河上 拓・編、太田出版)が2022年5月に出版された。んで、この本のコンセプトはリンク先の出版社の書籍紹介ページにもあるように、いろんなジャンルのボードゲームに対して1作品につき3名の識者がクロスレビューをする、というところにあるようだ。で、このクロスレビューについて、コメントとともにその識者によるゲームの評価が5段階でついていて、それが今回の騒動の発端となった。

www.ohtabooks.com

評価は★で5段階(中にはゼロをつける識者もいたとか)で示されていて、とある読者が自分のお気に入りゲームに対して識者の一人が★1評価だったことに大変ショックを受け、トゥイッターでつぶやいたところ、大きな反響となり、評価の問題点を指摘する意見、識者を非難する意見、ショックを受けた人を非難する意見などが飛び交った、というわけだ。

騒動を代表する意見は細かい差異を別にすれば、次の2つに集約されるようだ。

  1. 書籍側が意図した★評価の基準と一般の考える★評価の基準に乖離があり、出版社側がその乖離について全然想定していなかったことが問題につながった
  2. 所詮は他者の評価であって、自分が面白いと思えばそれでよかろうなのだァーッ!

まあ、底が浅い今回の騒動を考えれば、至極当然の結論であると言える。歯に衣を着せずに、どストレートに思ったことを言えば、トゥイート主のメンタルが弱すぎる(ことの発端となったトゥイッターの発言主が、まわりが認識しているほどに打ちひしがれているのだとすれば、だが)、である。ついでに言えば、気にすんなよ、という声に対して回答した彼の「未プレイの人が見たときの印象が悪くなり、そのゲームの売上に影響する」という懸念も、この手の書籍のターゲットを考えれば、空が落ちてきて潰されるんじゃあなかろうかと心配するのと同じくらい無駄である*1

トゥイッターの主についてのみ言及するだけでは不公平なので、書籍側についても苦言を呈しておくと(こう言っておくと、いかにも自分の本意ではないが仕方なく言及する、という雰囲気がでます)、一つのゲームに3人からのコメントがあるのに、わざわざ★による評価なんかつけなくてもいいだろ。本のタイトルからして、掲載されているゲームは”本当に面白い”のだろう?その中でわざわざ極めて主観的な評価をつける理由がわからない。このあたりの話はこのサイトのゲーム評価についてのポリシーを参照いただければ、この書籍の編集者とは殺し合いになりかねないほど、考えに隔たりがあることがわかると思う。

さて、ここまでは一般的な話。このサイトをご覧になるようなヒマ知識人は、こんな学びの一つもないありふれた話よりも、ひねた新しい視点を求めていると確信しているので、多くの日本人が苦手な「データサイエンス」というスポットから、この騒動に光を当ててみたい。

そもそもデータとはなにか?

データサイエンス、とかいうと偉そうだが、簡単にいえば「データ・情報を分析する方法」ということである。こう聞くと「オレ数学ニガテ」とボビーオロゴンになる人もいるかと思う。が、そういう人は「データ=数値」という固定観念を持ってしまっている。確かに演算をする上では、データが数値の形になっているほうが扱いやすいのは事実だ。しかしそれはデータの本質ではない。

ここでちょっと考えてみていただきたい。以下に挙げた項目のうち、データに該当するものはどれだろうか?

  • テストの点数
  • 性別
  • 売上
  • 氏名
  • 性格
  • 問い合わせ件数
  • 通勤経路
  • 現在の所持金
  • 好き嫌い

いかがだろうか。テストの点数や売上、問い合わせ件数は”いかにも”な感じだろう。所得金額ならデータだろうが、現在の所持金とは何ぞや?氏名もデータ?…などと、いろいろなことを考えたことと思う。答えを言えば、ここで挙げた項目はすべてデータである。「そんなことだろうと思ったよ!」という人が多いと思うので、すかさず次の質問だ。ではこれらのうち、「価値の高いデータ」はどれだろう?ここで「”価値”の定義を教えれ」と思った人は理屈っぽい聡明な人である。質問にある条件だけでは、どれが価値あるデータなのかわからない。数値で表現できるかどうかではない。では先ほどの質問に文言を加えよう。教師の立場で成績をつける場合に「価値あるデータ」はどれだろう?これに対して「好き嫌い」「性格」と答えた人は、教師にだけはなってはいけない。まずは取り違いを避けるための「氏名」と成績をつけるための指標の一つとして「テストの点数」が価値の高いデータであると言えそうだ。逆に、婚活パーティーで運命の相手を見つけようとしている場合はどうか?頭の程度という意味でテストの点数も大事かもしれないが、「氏名」「好き嫌い」「性格」が上位にこないと、幸せな前途にはつながらないだろう(「現在の所持金」は微妙なところだ)。では最後の質問。上記で挙げたそれぞれの価値の高いデータは、なぜ「価値が高い」と判断できるのか?もうおわかりだろう。データとは何かの判断をするために必要な情報のことであり、判断に影響を与える重要な情報が価値の高いデータ*2である

この観点に立てば、件の書籍に載っている★評価は、書籍中の「データ」のほんの一部分であり、テキストとして載っているコメントのほうがより情報量が多いと言えるため、データとして「価値が高い」と判断することができる。★評価とコメントに乖離がある場合は、単純にいずれかの情報がノイズであって、判断に悪影響を及ぼすという意味で有害なだけである。つまりデータとしての価値は低い。ただこれも「純粋にボードゲームの情報を得たい」という立場からの見方であって、トゥイッターの主のように「自分の好きなボードゲームの★評価を知りたい」という立場から見れば、★評価こそ至高のデータと言える。これはどちらが正しいかという話ではなく、どちらの立場に立つのかの違いなので、その点は勘違いなきよう。

データの質の話

さて次はデータを扱うときに絶対に頭に入れておかなくてはならないデータの質について話をする。上で見たように、この世の森羅万象はデータであると言ってもおかしくはないくらいのだが、やはりそれぞれのデータには質というものがあって、データの質によっては取り扱いに制約が発生する。データは「質的なデータ」と「量的なデータ」にまず大別され、それぞれさらに2つのレベルにわけることができる(このレベルのことを尺度と呼ぶ)。

データの質
質的なデータ

質的なデータとは、文字通り数値化することが適当ではなく、四則演算することができないデータのこと。ゆえに、見た目が数値っぽいデータであっても質的なデータであれば、例えば平均値を算出することはできない。

量的なデータ

量的なデータは、数値化されているデータであり、四則演算をすることができるデータのこと。演算処理をかけられるデータということで、質的なデータよりも分析の幅は広がる。

名義尺度

次に尺度の説明をする。名義尺度はその名の通り、ラベルとして与えられているデータで、モノを区別するためのデータである。名前や地域、部屋番号(数値に見えるが、べつに富士の間とかそういった名前でも差支えがないので名義尺度である)などが該当する。インタビューのログも、他のログとの区別がつくので、ログ全体が名義尺度データと言える。

順序尺度

順序尺度は順序を表すデータで、大小関係を比較することのできるデータのこと。着順やn段階評価と呼ばれるもの、階級はすべて順序尺度である。件の書籍に限らず、★評価されているものは基本的にこれだ。

間隔尺度

間隔尺度は順序よりも間隔が厳密で、等間隔の目盛りがついた数直線上で表現できるデータのことだ。テストの点数や指数、比率は間隔尺度のデータである。順序尺度との違いは、次のような例を挙げればわかりやすい。4人の学生がいて、国語のテストの順位がA>B>C>Dだったとする。すなわちAが1位、Bが2位…となっていて、この順位は順序尺度のデータだ。しかし、AB間、BC間の国語の実力差は同じだろうか?CD間は?と言われたときに、それぞれ順位差は1で変わらないが、以下のようないずれのパターンもありうる。

順位だけではわからないパターンの例

つまり、順序尺度は相対的なものであるため、それぞれの実態における差は、数直線上における等間隔のように厳密になっていない。一方で、Aが90点、Bが80点、Cが50点、Dが40点だったとすれば、AB間の差とCD間の点数の差は同じだけ離れているということが明確だ。これは、テストの点数が数直線上で表現ができ、1点の違いはどこを見ても1点である(0点付近における1点の価値も50点付近における1点の価値も同じ)。1点を足す、というような計算行為は、数直線上のいずれの場所でも価値が変わらないからこそできることだ。逆に言えば、(順位のように)1のもつ価値が異なる場合には計算行為自体が意味をなさなくなる。もっと言えば誤解を生むことにもなる。

例えばとある会社の営業社員の5年間の営業成績について、年度ごとの平均順位というものがあったとしよう。営業Aは平均1位、Bは平均2.6位、Cは平均2.8位、Dは平均3.6位だった。これだけみれば、営業DはBやCよりも大きく劣るように見えてしまう。だが、それぞれの年度について売上の数直線上に社員を乗せてみよう。

年度ごとの社員の営業成績(売上)

次に、5年間の売上額を合計したグラフを描いてみる。

5年間の売上総額とその順位

5年間1位を維持したAが売上でも1位なのは間違いないが、問題はそれ以外の3名だ。Dは順位平均ではB、Cに大きく水を開けられていたかに見えたが、実際は5年間の売上総額だけに注目すれば全体の2位である。一方、平均順位では2.6と2番手にいたBは僅差でDに及ばず、そしてCは実際にはBとDの差よりも大きな差を開けられて4位になっている。これがもし順位を平均したものでなく、最初から売上額(売上額は間隔尺度のデータ)を平均していれば、最初からA>D>B>Cであることがわかっていたはずだ。

比例尺度

比例尺度は間隔尺度とほぼ同じだが、間隔尺度とは異なるのは「原点」を持っていることだ。原点とはゼロ、文字通り何もない状態を示す点のことで、ほぼすべての、物理量を表す単位がこれに当てはまる。例えば摂氏温度は、絶対零度という原点を持つ単位なので、比例尺度である。長さもゼロという何もない原点が存在するので、比例尺度だ。これに対し、例えば国語の点数はゼロという原点を持たないので比例尺度にはならない。のび太よろしくテストで0点を取ったとしても、それは国語のテストが図りたい「国語の能力がまったく欠如した状態」ではないから、単純にそのテストの最下限の位置にいる、というだけのことなので、原点を持たないデータなのだ。実際のデータを扱う際に、原点の有無はほとんど考慮する必要はないので、実務上は間隔尺度と比例尺度は同等に扱ってよい。

これがデータの質の話だ。データのうちで最も上位のものは比例尺度で、以下間隔尺度>順序尺度>名義尺度となる。上位の尺度は、より下位の尺度として扱う(変換する)ことができるため*3、データを取得する際は、できるだけ上位の尺度であるほうがよいことが多い。

さてここまで来たところで、もう一度★評価について考えてみよう。★評価は順序尺度のデータである。そして書籍としては★の数とその意味するところのなんとなくのモノサシがあったとしても、人の好みなんてものはそれこそ相対的なものだ。あやふやな評価基準に加えて十人十色である好みというフィルターを通した★評価に一喜一憂するなんて、実にバカバカしい。アマゾンの評価が引き合いに出されて語られることも多いが、アマゾンの平均評価を見たところで、最終的にそのアイテムを選ぶかどうかはコメントの内容を吟味して選ぶ人が大半だろう。結構な割合でアイテムではなく配送業者への怒りで★1をつけるレビュアーがいるし*4、それこそヤラセ評価も横行しているのだから。

というわけで最後に大統領護衛警備のマイク・Oさんより、「本当に面白いボードゲームの世界」について一言。

きっぱり。(画像引用は「STEEL BALL RUN(13巻)」)

おしまい。

*1:少なくともこの書籍を手に取る人は、ボードゲーム(もちろん一般の日本人が思い描く人生ゲームではない)のプレイ経験がある人間であり、その中でもトゥイッターの主のように、よくボードゲームをプレイする人がレビューと自分の感覚が一致しているかどうか確かめるような人間が多いと考える(変則的な承認欲求の現れとも言える)。そうでない人が手に取ったとしたら、いくら絶賛されていようが、それなりにルールの多いメーカー小売価格7000円のゲームを買うわけがない。それに今の時代、書籍に載っている情報だけを鵜呑みにする人がどれだけいるだろうか。

*2:「価値」の捉え方としてはデータの信憑性という面もある。例えばきちんとした手続きを踏んだ学術調査とテレビの街頭インタビューでは、どちらのデータに信憑性があるか一目瞭然だが、それはここではわきに措いておこう。

*3:例えば4人の営業社員の売上(間隔尺度)がわかれば、それぞれの営業順位(順序尺度)もまた明らかになる。

*4:この記事で言及した通り、BGGでもkickstarterのときの初期対応ミスというゲーム評価にまったく関係のないところで1点評価がつきまくったBarrageの例もある。