マトリックス・データ解析法2 実践編 with Minitab
皆さんこんにちは! 今日もどこかでカイゼンサポート、Kusunoko-CIです。
このひとつ前のエントリーで、あまり日の当たらない新QC7つ道具、「マトリックス・データ解析法」の概要についてお伝えしました。
今回は「実践編」です。
前回の「20人5教科のテスト」データを使用しながら、統計ソフトMinitabでどのような結果が得られるのか見ていきたいと思います。
実際にやってみると、この手法の良さが見えてきますよ。
Minitabでやってみる
さて早速ですがデータは、前回の「5科目20人の生徒の各科目のテスト結果」です。
我々が学生の頃、合計点で一喜一憂したりしましたが、合計点にはさほど合理的な理由はない、というお話は前回すでにいたしました。
マトリックス・データ解析法の「主成分分析」は、減らしつつ、判断にもっと合理的な理屈を与えてくれるのでしたね。
ということで、マトリックスであるデータをMinitabのワークシートに打ち込んで(↓)


Minitabワークシート。エクセルからコピペ。
「多変量解析」の「主成分分析」を選びます。


Minitabの説明は、正直何言ってんだかわかりづらい(笑)
そうしましたら出てくるウィンドウで、変数である5科目の名称を選択。今回はテストの点数という、単位の同じもののデータ分析なので「共分散」にマークをいれます。


変数に科目。行列タイプは「共分散」。
ちなみに、身長や体重といった単位の異なるデータの時や、同じ単位でもばらつきの大きさを解析に入れたくない場合は、上の「相関(行列)」の方にマークを入れます。
こちらの「相関」は、データを標準化したうえで行う解析です。
統計ソフトは、こうした各データの標準化を行ったうえで、主成分分析をやってくれます。いちいち計算しておかなくて良いので、この点も楽ですね。
ということで、出てきた結果がこれです。データさえきちんと揃っていれば、一瞬です。便利だなー。


結果
結果を見てみる 共分散行列の固有分析と固有ベクトル
ではここで出てきた数値の意味を見ていくことにします。
今表の中には、5列の情報が並んでいますね。主成分分析では、解析する変量と同じだけの主成分を取り出すことができます。なので今5列のデータがあります。
ただ5列全部は使いません。この手法は減らすのが目的ですから、全部使ったら意味ないですよね。
さてまずは「共分散行列の固有分析」からです。
固有値


固有値
主成分分析は、たくさんの変量を少なくして、データを見やすくしてくれるもの。その時に情報として使用するのが分散です。
分散=ばらつきが情報、というのがぱっとイメージできないかもしれません。
例えば、今100人の人集めて、身長のデータを集めたとします。
全ての身長が、全く同じ170.0cmだったらどうでしょう? そこには全くばらつきはなく、単一の情報しか含まれていませんね。得られている情報の量は極めて少ないわけです。
逆に様々な身長の人が集まっていたら、でこぼこがいっぱいで、こと身長に関しては多くの数値が取れるはずですね。
なんとなくイメージが付きましたか?
主成分分析は、ばらつきの大きさを情報として扱い、そこに新たな判断の「軸」を見出していく手法なのです。ダイバーシティが好まれるわけです(笑)。
この固有値が、まさにその「情報量」を表しています。つまり、固有値が大きければ大きいほど,情報がたくさんつまった重要な主成分だと言えるということです。
この表で、左から順に新たに生成した主成分の情報量は、それぞれ888.90、46.19、17.90…と続いていますね。左から順に第1主成分、第2主成分…となります。
比率と累積


比率と累積
こちらはその固有値のパーセンテージと、累積の値です。比率は寄与率、累積は累積寄与率とも言います。
寄与する、つまり今回の主成分分析に役立つレベルが値になっているわけですね。
今回の例で言えば、第1主成分が91.4%の寄与率で、次いで第2主成分まで合わせて96.2%。一般に、寄与率で8割程度までカバーできれば、取り上げる主成分としては十分といわれていますので(80 20の法則)、今回は第2主成分まででOKです。
って言うか出来すぎですね。こんなふうにはうまくいかないですから、普通は。
固有ベクトル


固有ベクトル
では次に固有ベクトルを見てみましょう。
固有ベクトルに書かれた「PC」というのが、「Principal component」、すなわち「主成分」です。
こちらはPC1の列、PC2の列ということで縦に見ていきます。
この主成分というのが、要は判断基準の値(合成変量)を与えてくれる式になるのですが、例えば主成分1(PC1)を、式で表すと
P(合成変量)=0.492 ×(国語)+ 0.173 ×(英語)+ 0.196 ×(社会)+ 0.828 ×(理科)+ 0.069 ×(算数)
となります。カッコ内は教科、の点数。
つまりこの式に、それぞれの生徒さんの各科目の点数を入れると、この主成分(今は第1主成分)を新たな判断基準にした「合成変量の値」が得られるのです。
この値を「主成分得点」といって、「より合理定な判断基準」を与えてくれる数値になるのです。
ちなみにこの式の形を「線形結合」といって、それぞれの科目の数値に一定の「重みづけ」をして合計しているものであることが、式から分かりますね。
結果から「改善案」へ


新たな2軸
ということで以上のような主成分分析の結果が得られたわけですが、次はこの読み解きですね。
そして一番大事なのがここです。
まず第1主成分は今、線形結合の式の、変数’科目)に掛かっているすべての数字(主成分負荷量といいます)がプラスですから、各教科のどんな数字を入れてもプラスになって、点数が高ければ高いほど合成変量も大きくなることがわかります。
どうやらこちら主成分1は、「5教科総合学力」のような名称を与えてあげられそうです。
次に今回ここまで取り上げることに決めていた、第2主成分です。
こちらの主成分負荷量は、国語・英語・社会でプラス、理科・算数でマイナスになっています。
どうやら文系・理系どちらの能力に振れているのかを指し示しているようですね。
こうして生徒の学力を判断するのに、主成分1で総合的な学力、主成分2で理系・文系どちらよりなのかを見ることができるようになりました。
新たな2軸の発見ですね。
5科目のままでは今一つよくわからなかった生徒の学力の「個性」が、2主成分に集約することで、あぶりだされてきたのです。
ここまで現状が見えれば、個別の「対応策」を考えることができます。改善アクションが取れることになりますね。
こうしたデータを取っているのは、おそらく教師の側のはずです。目的は、各生徒の学力の特徴を把握し、受験などの進路も含めたうえでより効果的な指導法を考えだすこと。
こうして生徒毎、総合学力、文系・理系の2軸が見えてきましたから、特徴に合わせた学習プランなりアプローチを考えることができますね。
最初の20人・5教科のマトリックスからは、こうしたカイゼン施策の方向性というのは見えてきません。
まさにデータを層別して、「見える化」したからこそ、より効果の望める解決策が見いだせるのですね。
ちなみに現実では、こんなふうに一発できれいに起決まることはそうはないと思います。前回もご説明しましたが、いくつかの変数を入れ替えたりして効きそうなものを探り出す作業が必要になるでしょう。
また、出てきた主成分がどういう意味を持つのか、名称の決め方も含めて、解析者次第です。この辺が、主成分分析の少し面白いところ。
また変な名前を付けてしまえば、ミスリードになってしまう場合もありますので注意が必要です。
ですので、何のための解析なのか、何がしたいのか、その目的をきちんと定めてからデータをしっかり集めるようにしましょう。
「Garbage in, garbage out(ゴミを入れてもゴミしか出ない)」という言葉がありますが、集めたデータの質で結果は変わってきますので、ここは注意が必要なところですね。
グラフで見える化 「主成分得点プロット」
統計ソフトの便利なところは、計算をやってくれるだけでなく、いろいろなグラフもその過程で用意してくれることです。
今回の計算過程では、下のような主成分得点プロットを出すように指示しておきました。


主成分得点プロット(第1、第2主成分)
いかがでしょうか。
これらの点は、主成分1と2の線形結合の式に、それぞれの生徒の教科の点数を入れて算出した、「主成分得点」のプロット図になります。
一番上の赤丸は、8行目のHさん。グラフ重ねたボックスには、第1主成分(文系)が「107.633」で、第2(理系)が「28.4314」と書かれていますね。全体の生徒さんの中での位置づけも、視覚的に確認できます。
Hさんは総合学力(横軸・第1主成分)は中より少し上ですが、文系能力は一番秀でていますね。
ここで成績マトリクッス(表)に戻ってみます


成績はこんなでした。
この表からは、Hさんの各教科の点数は分かります。
が、先ほど決めた主成分の2軸や、その尺度の中での全体の位置づけを判断するのが、難しいいことが分かると思います。
このように主成分プロットは、全体的にどんな傾向が見え、個別の変数がその中でどのような位置にあるのかも見えるようにしてくれます。
説明に当たり、説得力も増すとは思いませんか?
プロットにAさんBさんも赤丸をつけておきました。表の各教科点数を眺めるのと、プロットを読むのでどちらが分かりやすいか、ぜひこちらも試してみてくださいね。
まとめ
いかがでしたでしょうか?
今回は、「マトリックス・データ解析法2 実践編 with Minitab」。主成分分析のMinitabでの算出方法、ならびに結果の活かし方を追いかけてみました。
主成分分析は、エクセルのソルバーというアドオンで行うことも可能ですが、やはりこうした統計ソフトには、かないませんね。
グラフも瞬時に出してくれますから、レポートを作ったりするのもかなり楽です。
本文中でもお話ししましたが、データの算出自体は、一度思えてしまえばどうということはありません。
大事なのはその読み解き方と、当然改善アクションですね。
読み取りがおかしければ、アクションもおかしくなってきますから、この辺はチームの皆さんと議論してみてもいいと思います。正しい方向性を見出すよう、調査対象の背景(Background)をきちんと理解しておくことが必要です。
改善ではなかなか日の当たらない、この手法ですが、皆さんは覚えてぜひ積極敵に課題解決に活かして欲しいなと思います
今日も読んでいただきましてありがとうございました。
ではまた!
数理的背景にも触れています。具体的な例も載っています。