分散分析はエクセルで簡単! シックスシグマ「Analyze」

皆さんこんにちは! 今日もどこかでカイゼンサポート、Kusunoko-CIです。

さて今回は、シックスシグマの分析(Analyze)のところでも使われる、「分散分析」についてのご紹介です。

この前段階(Measure:測定)で、問題を起こしていそうなエリアのデータを集めています。

ただそのまま生のデータを見ても、それが私たちに何を語りかけているのかはあまりわかりません。要因が多ければなおさらです。

そこでこうした分散分析のような手法を使い、最も効きそうな要因を統計的に探り当てて、効果的な改善アクション(Improve:実行)につなげていこう、という流れになります。

実務では、お忙しい中、あれもこれもと総花的に手を付けることはできませんよね。しかしながら問題は現実に発生していて、なんとかしなくてはいけないわけで、いかに素早く最も効果の出そうなところに施策を打つか、ということが常に問われているはずです。

そんな時は分散分析で、「どの要因をいじくれば、効果がでるのか」を見つけましょう。エクセル使えば簡単ですから、ぜひご活用ください。

分散分析とは

どちらが大きいか判断

英語ではこの分散分析、「analysis of variance」の頭文字をとって、ANOVA(アノーバ)と呼ばれています。ちょっとかっこいい。

名前がややこしいのですが、「分散を使って平均値を分析する」手法になります。ここ私も最初、何の事やらイメージがわかず悩みました(笑)

3群以上のデータの、平均値の有意差を調べる場合に、この分散分析を使います(ちなみに、2群の平均値の有意差を検討するときは「t検定」です)。

この分散分析、全体的な平均値の相違を調べる方法で、どの群間に有意差があるかまでは把握できません

もっと分かりやすく言うと「比べている母集団の平均の、少なくともひとつの組み合わせに差がある」ことが言えるということです。

なので「すべての組み合わせに差がある」場合も、もちろんこの中に含まれることになりますね。

分散分析の用語

分散分析の中身を見ていく前に、基本的な用語を押さえておきましょう。

まずは以下の表をご覧ください。

分散分析の種類

分散分析には大きく分けて、一元配置と二元配置といわれる分析方法があります。本当は多元配置もありますが、今回は割愛(因子の数が3つ以上になると、多くなるので「多元」と称されます)。

一元配置

例えば、4つ原材料が与える結果の違いを確認したい時、当然結果に影響を与える因子は原材料の1つだけですね。

このように,グループを識別する要素が1つのものを一元配置のデータと呼び,このデータを用いた分散分析を一元配置の分散分析といいます。

一元配置

二元配置

先ほどのデータに「設定温度の違い」という要素を加えて,2つの要素(この例だと原材料と温度)で結果を追うようになっているものを二元配置のデータといいます。これを用いた分散分析が二元配置の分散分析になります。

二元配置・繰り返しなし

二元配置はさらに二つに分けられ、上記ののデータのように同一条件のデータが1つしかないものを「繰り返しなし」といいます。

それとは違って、下のように同一条件のデータが複数ある場合は、「繰り返しあり」と呼ばれ、両者はエクセルで処理する際もそれぞれを選ばなくてはいけません。

二元配置・繰り返しあり

この分析では上記のデータを考えた場合、

  • 原材料によって平均に違いはあるのか
  • 温度の高低によって平均に違いはあるのか
  • 2つの要素による相乗効果はあるのか

という3つ分析の目的になります.特に3つめのような「交互作用」を分析することが、二元配置の分散分析(繰り返しあり)の主要な目的になってきます。

分散分析のエクセルでのやりかた

エクセルで分散分析を使う場合、分析ツールが使えるように、アドイン設定を行う必要があります。

まずはこちらのサイト等を参照にして、導入してください。

一元配置

さて今回、4種の材料の平均結果が、下のような表にまとめられたとします(先ほどのものです)。

まずはエクセルの「データ」から「データ分析」をクリックし、

データは4種材料のみの一元配置ですから、「分散分析 一元配置」を選んで、

下図のように必要な項目を埋めていきます。

有意水準は5%か1%が一般的で、1%にすればより厳しい判定になります(帰無仮説の棄却が難しくなる)。

上の情報を埋めて「OK」をクリックすると、コンマ何秒で以下のような「分散分析表」が出てきます。

今回〇で囲った「P値」の値が有意水準α「0.05」より小さくなっていますから、有意差ありと判断できます(細かい話ははしょりますが、このP値が、先ほど決めた0.05、あるいは0.01と決めたのであればそれより小さければ、平均のどれかで有意差があるといえるということです)。

つまりこの製品の場合の、4種の材料の違いというのは、結果に対して影響を与える因子として、改善対象にしていいということですね。

二元配置

二元配置も先ほどと同様に、エクセルの「データ分析」から二元配置を選ぶだけです。

先ほども述べましたが、この時「繰り返しあり」と「繰り返しなし」で、適切なものを選んでください。

今回の例では、「繰り返しのある」以下のようなデータでやってみました(先掲のもの)。

このデータは、4種の材料と3種の異なった温度設定が与えた結果をまとめたものです。「1標本当たりの行数」とは、「一個の材料にいくつの異なったデータがありますか」、ということですから、今は温度の種類である「3」を入れています。

有意水準は先ほどと同じ5%を設定して、以下のような結果を得ました。順に見ていきましょう。

標本

一番上の標本から。

こちらは、元データの表における「行方向」の結果を表しています。この例で言うと「3種類の温度」のことですね。

二番目の列は、そのまんま「列」、つまりエクセル表の「縦方向」のデータ、例でいうと「材料」のことです。

交互作用

三番目の「交互作用」は、2つの因子が組み合わさって生まれる効果を表します。

今の「材料と温度」の場合であれば、材料が温度に影響を受けて、より効果を発揮したり、あるいは逆に効果が弱くなったりする関係の事です。

ちなみに交互作用は、同じ二元配置でも「繰り返しのある」場合のみ確認できるものになります。

2因子が互いに与える影響を確認や、その相乗効果を見る場合に役立つ、と覚えておいてください。

結果の見方

さて今回出てきた結果ですが、これも難しいことは省いて結果だけを確認します。

注目すべきはいつものように、この「P値」です

標本と材料におけるP値は今、それぞれ「0.0420…」と「0.0125…」で、設定した有意水準0.05より小さくなっています。

このことからこれらの因子は、結果に対して影響を与えるということが分かりました。ここをいじくれば、今回の改善Projectで効果が期待できるということですね。

では交互作用はどうでしょう?

こちらのP値は、「0.2585…」で、0.05より大きくなっています。これはすなわち右のF境界値が、5%棄却域に入らなかったということを表しています。

また専門的な話はさけますが、「この二つの因子は、交互に作用せず絡み合っての影響はない」ことを否定できない、つまり「交互作用はないことを受け入れる」(ややこしいですよね)、という結論に達したということです。

これは以前説明した検定の、「帰無仮説と対立仮説」の考え方ですね。この辺以前まとめましたのでご参照いただけますと幸いです(「統計的仮説検定」)。

全体としてこの結果は、材料を変えても温度を変えても、それぞれ個別には結果に影響があるが、その二つが互いに作用するような作用(交互作用)に関しては、詳細に分析しなくていいということが分かったわけです。

今回は因子ごとの結果だけ見ればいいことになります。「材料および温度の違いの水準間で平均値に差がある」と結論付けたということです。

まとめ

いかがでしたでしょうか?

今回は、シックスシグマの分析(Analyze)のところでも使われる、「分散分析」についてのご紹介でした。

初めからきちんと目的をもってデータを集めていたとしても、いざ改善を始めようとすると、要因が多すぎてどこから手を付けていいのかわからない、ということはしばしば起こり得ます。

そんなとき、「なんとなく」とか、「これのような気がする」といういわゆるKKD(勘・コツ・度胸)に頼るのではなく、きちんとした科学的根拠に基づいて、最も効きそうなものを探す、という作業が必要ですよね。

「最も効きそうな要因を探す」、これがシックスシグマの手法における要になります(いわゆるY=F(x)ですね)。

分散分析は、エクセルなどでも簡単にできますし、統計ソフトを使えばより詳細な検証も可能です。

また実験計画法などにもつながっていく重要な考え方になります。

ぜひ導入して、効果のある改善を行っていきましょう。

今日も読んでいただきましてありがとうございました。

ではまた!

分散分析の数理的部分も、ていねいに説明されていて分かりやすいです。

Follow me!

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA