統計にまつわる言葉の一つに次のものがあります。
『世の中には3つの嘘がある。ひとつは嘘、次に大嘘。そして統計である。』
これはイギリスの政治家ベンジャミン・ディズレーリという人の言葉ですが、この言葉にあるように統計の中にも嘘があります。
統計というと物事を判断する際の裏付けとなったり、人を説得する際の根拠として用いられることが多く、社会からは信頼できるものとして認知されていると思われますが、統計をよくわかっている人からすると、その数字の説得力は簡単に人を騙すための便利なツールにもなりえます。
例えば、下記の結論は正しいと言えるでしょうか?
例1:「2020年の日本における新型コロナウィルスによる死者数は約3,400人であり、例年のインフルエンザによる死者数約1万人と比べるとはるかに低い。よって、コロナを過度に恐れる必要はなく、経済優先の対策を実施すべきである。」
→ 比較する前提が異なっており、2020のインフルエンザ死者数と比較すべきではないか?
例2:「GOTOキャンペーンが始まった同時期に新型コロナウィルス感染者数が急増した。その結果、医療体制は逼迫の危機にある。よって、GOTOキャンペーンは実施すべきではなかった。」

→ 確かにそのような傾向はみられるが、直接的な因果関係があると決めつけるのは早急ではないか?
このように、数字やグラフを使うことで一見正しい意見のように思えますが、実際には前提条件が間違っていたり、情報が不足しているということがあります。
では、私たちが統計に騙されないためにはどうしたらいいのでしょうか。
それは統計の元となったデータそのものや、その計算プロセスを確認することです。
我々の身近な統計であるアマゾンのレビューを例に説明したいと思います。
皆さんも買い物をする時に星の数を見て、商品を買うかどうかを判断するかと思いますが、本当にあの星は信頼できるんでしょうか?

1.レビューの数
まずはレビューの数を確認してみるといいと思います。
レビューの数が百よりは千, 千よりは1万のほうが信頼できる統計と言えます。
2.誰が書いたものか?
次に、誰が書いているのかを確認してください。
アマゾンで購入している人は「Amazonで購入」とレビューにかかれます。なので、アマゾンで購入している人だけに絞ると、星の数も変わってくるかもしれません。また、投稿者のプロフィールを確認するというのも大事です。

3.レビューの投稿頻度
レビューの投稿日時がどうなっているかも確認したほうがいいです。
一般的なデータであれば、レビューの投稿数は商品の発売当初が一番多く、その後、徐々に減衰することが予想されますが、それ以外のある一時期に多く投稿されていると、そのレビューは怪しいと疑ったほうがいいかもしれません。

4.客観的に書かれているか?
レビューの文章そのものを確認するというのも大事です。ちゃんとした日本語で書かれているのか、レビューの根拠となる理由が客観的に書かれているかどうかなどです。
5.計算プロセスはどうなっているか?
アマゾンは様々なユーザーのレビュー評価から平均を取ったものを星の数としていますが、
平均の取り方にもいろいろあり、速度の平均をとるのに適したやり方や比率の平均をとるのに適したやり方など、様々な方法があります。それによっても結果が異なってきますので、平均一つとってもその計算プロセスを自分で確認することは大事です。

https://bellcurve.jp/statistics/course/4324.html
以上のように、統計ができた時には鵜呑みにしないで、その数字がどこからもたらされたものなのか、確認するということを覚えておいてください。
ちなみに、アマゾンはレビューの計算方法について、このように説明しており、信頼性の確保に努めています。

(K.K)