星評価平均点が4の製品について考えてみよう。もしこれが25人のユーザーによる評価ならば、4という点数は95%の確率で「3.5~4.5の間で平均を取ったもの」と推定できる(統計用語で「95%信頼区間」という)。購入を検討している人は、「サンプルサイズがもっと大きければ、星評価はもっとピンポイントになる」と期待するかもしれない。消費者の心理からすれば、3.5と4.5には雲泥の差がある。

 たしかにサンプルサイズが大きくなるにつれ、95%信頼区間は狭まる。評価者が50人の場合は3.6~4.4、100人ならば3.7~4.3になる。しかし、たとえ評価者が200人になっても、まだ3.8~4.2までの幅があるのだ。1製品の星評価でさえこうなのだから、2製品の星評価の差異がわずか0.4の場合に、有意な結論は得られない。

 とはいえ消費者は、星評価に基づいて品質を判断する際、サンプルサイズをまったくといってよいほど考慮しない。我々の実験結果によれば、購入者は25人による評価の平均点と、200人による評価の平均点を同程度に信頼している。

更新情報知らせます はい 不要