レビュースコアの補正にみられる、ある傾向

「美しい人はより美しく、そうでない方はそれなりに…」
このフレーズを憶えている人は本コラムの読者にどれだけいるだろうか。
いまから30年ほど昔に流れていた、フィルムのTVコマーシャルでのやりとりである。
このコマーシャル自体は本コラムの内容と全く関係ないが、テーマとして挙げた「ある傾向」をどう表現しようかと考えていたら、頭にピンと浮かんだのがこのフレーズ。
なるほどコピーライターは昔からうまいことを考えるものだと、妙に納得した。

このフレーズがどう関係するのか、それが気になる方はぜひともこのまま最後まで読み進めていただきたい。

レビュースコアの取扱い

さて、一般の消費者がネットに書き込むことによってコンテンツが作成されるメディア、いわゆるCGM(Consumer Generated Media)の代表例として「レビュー」がある。
CGMについては本コラムでも以前から何度か取り上げており、レビューの危うさについては「CGMコンテンツの分析は集合痴に要注意」という記事で私も指摘した。
しかし、他人の評判は気になるものだし、一般的には、オンラインショッピングのサイトでそれなりに参考にされている有効なコンテンツといえよう。

多くのレビューでは、「☆1つ」から「☆5つ」というように、対象の良し悪しをスコアで点数化し、数値として評価できるようになっている。
このような指標は感覚的なものなので、本来は順序尺度として扱うべきだ。
ただし多くのシステムでスコアには「各スコア間の距離は等間隔で評価されている」という暗黙の仮定が持ち込まれており、その点数は間隔尺度として扱われている。
間隔尺度として扱うことで各レビューのスコアに関する平均値を計算でき、その値をレビュー対象の良し悪しを測る総合的な評価指標として提示できることになる。

そうはいってもレビューそれ自身が主観的なものだし、ステルスマーケティング、いわゆる「ステマ」や、「やらせ問題」のように、恣意的なレビューが紛れ込む隙が残されている。
そこで、以前の記事で紹介したように、少しでもより客観的な評価とするためにレビューそのものに対する更なる評価を備えているシステムも多い。

レビューそのものの評価を加味した補正の計算

さてここで、レビューコメントの有用度を用いてレビューの平均値を補正するということを考えてみよう。
レビューの有用度とは、前の記事で紹介したように、そのレビューが「参考になった」かどうかの投票を用いて決められる0.0から1.0までの値である。
有用度は、全投票数分の「参考になった」への投票数として定義される。

この有用度を用いて、レビューの平均値を「より客観的になるように」補正することを考える。
そのために、単なる平均の代わりに、有用度を重みに用いた加重平均を採用してみよう。

この加重平均では、参考になったレビューのスコアは重要視され、あまり参考にならなかったレビューのスコアは軽視される。
多くの一般消費者にとって、☆の評価、スコアを付けるだけならいざしらず、わざわざレビューのコメントを投稿する作業は、いささか敷居が高いと感じるひとは多いことだろう。
しかし、レビューを読んで参考になったかどうかをクリックするだけであれば簡単だ。
単純平均の代わりにこの加重平均を使うというアイデアによって、より広い消費者の意見を反映することができるといえないだろうか。

みんなの意見を反映すると…

このように加重平均を用いて補正してみたところ、面白い傾向が浮かんできた。
以下に示す図は、某オンライン書店でのベストセラーを対象として、補正の効果がどのくらい現れているかをプロットしたものだ。
なお対象とした書籍は、これまでのベストセラーとしてリストアップされていたものから100以上のレビューコメントが寄せられていた200冊強を選んだ。

補正値とレビュースコア平均値の相関

縦軸は、単純平均から加重平均を引いた差分の値、そして横軸はレビュースコアに関する加重平均の値である。
簡単にいうと、縦軸に関して中央より上にプロットされたものは、「補正したらレビュースコアは全体としてより高くなった」ものであり、中央より下はその逆、
つまり「補正によってレビュースコアはさらに悪くなった」ものだ。
恣意的なレビューが混ざっていると、そのようなレビューは排斥されるのでレビューの評価は大きく変動する傾向にある。
この補正の根底には、「みんなの意見はだいたい正しい」という集合知の考え方がある。

高い評価はより高く、それなりの評価はそれなりに

ところで、横軸がレビュースコアの平均値である点に注目してほしい。
グラフの上で回帰直線を引いてみると、ちょうど「☆4つ」あたりのところで差分値の正負が逆転する。
すなわち、このグラフから、ユーザによるレビューの補正が行われると、低い評価はより低く、高い評価はより高くなるという傾向も確認することができるだろう(※ 蛇足ながら、冒頭で引用したフレーズはこの結果に対応したものですよ!)。

先に述べたように、加重平均による補正は、レビューの評価にサイレント・マジョリティの意見が反映されたものと考えられる。
これは、より客観的に評価したと考えることもできるが、見方によっては「多くの一般消費者は付和雷同する」ととらえることができなくもなかろう。
ここで新たに気になるのは、「これは日本人特有の気質によるものなのだろうか、それとも海外でも共通に現れる傾向なのだろうか」という疑問である。

今回対象としたのは日本の書籍に対する日本語のレビューだが、海外でも同じシステムが存在する。
海外のデータを使って調べたらどうなるか、誰か挑戦してみませんか?