2つの値を持つ項目を、測定した数だけ二次元座標に点として打つグラフです。統計でよく使用されます。
多数のデータを点として打つことで、データ全体の傾向が見えます。
傾向には大きく3種類があります(相関関係といいます)。
一方の値が増加すると、もう一方の値も増加しているものを正の相関といいます。
例えば、小学生の身長と体重を相関図に表した場合、順調な身体の成長が見られれば正の相関として表れます。
一方の値が増加し、もう一方の値が減少しているものを負の相関といいます。
例えば、春物の衣類の売上と気温の変化を相関図に表した場合、気温が上がるにつれて春物衣類の売り上げは減少していくため、負の相関として現れます。
データが分散し、正の相関も負の相関も見られないものを相関なしといいます。
例えば、ある活動に費やす時間と健康寿命の関係を相関図に表し、それが正の相関も負の相関も無ければ、その活動と健康寿命には関連がないと言えます。
散布図は、複数個のデータが全体としてどのような傾向(相関関係)を持っているかを知りたい時に使用します。
また、複数個のデータの中に全体の傾向から外れたデータがあればそれを簡単に見つけることができるので、異常値のチェックにも利用できます。
しかし、散布図に使用する二つの値が必ずしも因果関係を持っている訳ではありません。 例えば、高齢者は医療に使う費用が高くなる傾向があります。また、高齢者は一日の摂取カロリーが少なくなる傾向もあります。データを集めた範囲が偶然高齢者に偏っていると、摂取カロリーが減るほど医療費が高くなるという負の相関が出ます。
摂取カロリーと医療費は、偶然相反する同じ傾向をもっていただけで、双方の間に因果関係があるという訳ではありません。
❌医療費の高さとカロリー量の低さは因果関係がある
⭕️年齢の高さと医療費の高さは因果関係がある
⭕️年齢の高さとカロリー量の低さは因果関係がある
散布図を見る時は、単に相関関係の正負を見るだけではなく、データ同士の因果関係にも注意しなくてはいけません。
次回≫ヒストグラム~異常を見つける