散布図と相関(ピアソン・スピアマン)
皆さんこんにちは! 今日もどこかで改善サポート、Kusunoko-CIです。
今回はQC7つ道具から、散布図を取り上げてみたいと思います。こちらを作ることで、二つのデータの関係性を見える化することができます。散布図については、以前もシックスシグマのところで取り上げましたが、今回はMinitabを使ったやり方と、相関係数にもう少し踏み込んだ内容を掲載しています。相関と因果の違いや、異なる2つの相関係数についての説明もありますよ。
これを読んで、散布図や相関と因果の違いなど正しく理解してしまいましょう。
散布図とは
散布図は上のように、2つの変数の数値データをグラフ化して、それらの間の関係を探すためのものです。
グラフに描かれた点がバラツキ具合で、二つのデータに関りがあるのかないのか、あるいはその関りが強いのか弱いのかを調べることができます。
片方が増えれば(あるいは減れば)、もう片方も増える(ないしは減る)という関係性がわかれば、売り上げを予測したり、製造の仕方を考えたり、いろいろな場面で役立ちますね。
ただ散布図でわかることは、2つのデータの間に関係があるか(相関:Correlation)ということだけであり、因果関係(どちらかが原因となって、もう一方が起こる:Causation)を示すものではない、ということを覚えておきましょう。
ここは散布図を学ぶ上で極めて重要な部分になります。次節で少し詳しく説明します。
疑似相関、相関と因果
散布図を学ぶ際に絶対理解しておきたい注意点を、二つ知っておきましょう。
疑似相関
まずは疑似相関から。
いまここに血圧と年収を示したデータがあったとします。
このデータをもとに散布図を作ってみたところ、見事に正の相関関係のある(ように見える)プロットが描かれました。
つまり血圧が上がると、年収も上がっていくことが見て取れたわけです。
しかし、実はこの年収と血圧の関係には、「年齢」というもう一つの隠れた要因が存在しています。
一般的に年齢が高くなると収入が増える傾向にありますね。また年齢を上がると血圧も高くなりがちです。つまり、両者に関係があるのは「年齢」であって、血圧の高さと年収には相関があるとはいえないわけです。
こうした第3のファクターがあるがゆえに、関係性があるように見えてしまうものを「疑似相関」といいます。
相関関係と因果関係は違う
こちらも結構混同しがちなのですが、「相関関係と因果関係は違う」ということを覚えておきましょう。
相関関係というのは、あくまで2つの事象の間に何らかの関係があることを示しているにすぎません。つまり、どちらかの事象がもう片方の事象の直接的な原因かどうかまではわからないということです。
一方「因果関係」は、2つの事象のうち一方が原因となって他方の結果があるという関係のことです。
例えば気温が上昇と共にビールの売り上げが上がっていくのは、相関関係があります。さらに気温の上昇がビールの売り上げの原因になっていると考えられるので、これは因果関係ありという判断ができますね。
売上の予測や品質改善など、こうした散布図を使う場面は結構あると思いますが、疑似相関や、相関と因果の見誤りを犯してしまうと、まったく無意味なアクションを取ってしまうことになるので注意が必要です。
一歩立ち止まって考える癖が必要ですね。
どんな時散布図を使うのか
次に散布図を使用する場面です。
一般的には、以下のように、2つの変数が関連しているかどうかを判断しようとする場合に効果を発揮します。
- 要因と結果:特性要因図(フィッシュボーン)を使用して、要因と結果をブレインストーミングした後、特定の要因と結果が関連しているかどうかを客観的に判断する(テストの点数と勉強時間など)
- 結果と結果:関連しているように見える2つの結果が、同じ原因で発生するかどうかを判断する(数学のテストの点と物理のテストの点の関係)
- 要因と要因:ある結果に影響を与える2つの要因の関係を判断する(テストの点数という結果にインパクトのある、勉強時間や睡眠時間の関係)
具体的な書き方については、多くのサイトでも説明されていますのでここでは割愛しますが、私の好きなMinitabなら、データさえそろえば5秒で出来上がります。便利です。
こちらBMIと体脂肪率の関係ですが、かなり高い相関があることが見て取れます。
サンプルサイズは30~40以上(Minitabは40以上推奨)が望ましいようです。データは当然ランダムに収集してください。
散布図から相関へ
ちなみにすごく細かい話になりますが、散布図というのはグラフに多くの点を打ち込んだ状態で、視覚的に2データの関係性を見る作業の場合に使われています。
そしていわゆる相関関係を、数値を使用して分析し始める時、相関係数というものをひねり出す数式が必要になってきますが、これはまた別の考え方・作業になります。
散布図と相関の両者をごっちゃにしてしまっている説明があるように感じましたので、いちおう別モノであることを意識したほうがいいかなと思います。
相関係数の計算もここでは割愛。
再びMinitabに戻って、今度は「相関」を選択すると、以下のように散布図も出しつつ、相関係数を計算してくれます。
この時相関係数0.863という結果を得ましたので、こちらかなり強い相関関係にあるということが数値で言えるようになりました。
相関係数は、厳密な定義はありませんが、目安として以下の表のようにと判断されます。
ちなみにこの相関にも2種類の方法がありまして、最も一般的なのはピアソン相関と呼ばれるものです。2つの連続変数間の線形関係を調べるときに使います。上のBMIと体脂肪率の関係は、ピアソン相関を使用しています。
一方変数間の関係が線形ではない場合は、スピアマン相関係数というのを使います。これを単調関係といいますが、変数が一緒に変化するもののそれが一定ではないような時です。具体的には順位変数を含む関係を評価するためによく使用されるとのこと。たとえば、従業員が試験を完了する順序が、雇用期間と関連しているかどうかのような場合ですね(Minitab)。
まとめ
いかがでしたでしょうか?
今回はQC7つ道具から、散布図の基本的な見方・使い方、そして相関計数まで説明してみました。
皆さんが気になるエクセルでの書き方は、以前こちらで詳しくまとめておきました。
また統計関係の説明は、総務省の「なるほど統計学園」というページを参照してみてください。このサイトは読みやすいので、私もかなりお世話になっております。
2つの量・データの関係性を確認するのに優れたこの散布図。ぜひ活用して、あなたのカイゼン活動をデータドリブン(Data driven)なものにしてください。
相関と因果の違いも忘れないでくださいね。
今日も読んでいただきましてありがとうございました。
ではまた!
因果関係を詳しく知りたいなら。