カイゼン後の統計的検定選択 備忘録(シックスシグマ プロジェクト)
皆さんこんにちは! 今日もどこかで改善サポート、Kusunoko-CIです。
最近自分のシックスシグマ プロジェクトを終了させたのですが、その中で検定についていろいろ学ぶことがありました。
今日はそれらのことを備忘録としてまとめておきます。
まず本題に入る前に、前提としてプロジェクト内容ですが、テーマはリードタイムの短縮。ある手法を取り入れて、事務仕事の作業時間を大幅に短縮しました。
その改善前と改善後で、LTの平均値に統計的に有意な差があるかを検証した、というのが背景のシナリオになります。
素直に対応なしで、2サンプルtテストを行おうとしたところ、ちょっと気になることがあって、いろいろ調べたりトライした経緯をまとめてあります。使用ソフトウェアは、いつものようにMinitabです。
tテストおさらい
t検定は、「母平均に対する検定」とも呼ばれます。平均値を対象とした検定手法なのだということを、まずはおさらいしておきます。
今回のように「改善前と改善後のデータの平均値が異なるか」といったグループごとの違いを検定する、といった用途に使われます。これが「対応なし」の場合ですね。
以前このへんも詳細をまとめておきました。
t検定が使えない 中央値の検定へ
さていわゆるt検定を行うに当たり、前提条件として押さえておかなければいけない点があります。それは、
- 標本は母集団から無作為に抽出されていること
- 母集団の分散が正規型またはそれに近いこと
- 2つの母集団の分散が等しいこと(等分散であること)
です。
今回の私のプロジェクトの場合、この1はOKでした。ランダムであることには注意を払っています。
ところが2の正規性で少し面白いことがおきまして。
もともとの改善前のデータ、サンプルサイズ10で検証した正規性は、P値が0.390で>0.05ですから正規分布が確認できたのですが、
これを改善後のデータ5を足して合計15のサンプルサイズで確認すると、正規分布と言えない。
t検定は、前提条件の1と2については、たとえ条件を満たしていなくても、影響を受けにくいといわれていますが、それもサンプルサイズが十分に多い場合の話だと思われ、サンプル数15ではどうも心もとない。
「パラメトリック検定は母集団のデータが正規分布していると仮定する」(「統計検定を理解せずに使っている人のために II」池田郁男)ものですし。
今回のように、改善前と改善後で極端に大きな変化が出た時、この正規性が確認できない場合が出てくるということですね。
tテスト(パラメトリック)が使えない、さて困ったなということで、私のメンター(マスターブラックベルト)のご指導の下、Moodの中央値の検定を行うことになりました。
こちらは、
- サンプルデータが正規分布ではない
- サンプルサイズが20より小さい
ようなときで、かつ「グループすべてのデータの分布形状が類似していることに自信を持てない場合」(Minitab)に、異なるグループの中央値が異なるかどうかを判定するテストです。
「ノンパラメトリック検定は,母集団の分布は 正規分布する必要がなく」(前出 池田郁男)、これならOK。ということで、Moodの中央値検定で見事、改善前と改善後に統計的に有意な差があるとお墨付きをいただきました。
ちなみに中央値の検定には、Kruskal-Wallis検定というのもあります。外れ値が含まれていない場合は、こっちのほうが検出力が高いのだそうですが、今回はサンプルサイズの少なさを考慮して、プロジェクトではこちらは選択いたしませんでした。
ちなみにちゃんと有意差ありにはなっていますけれども(↓)。
Mann-WhitneyのU検定
このノンパラメトリック検定を試している時、Mann-WhitneyのU検定も試してみました。何でもお試してみる。
こちらも、2つのグループの母集団中央値が異なるかどうかを判断する検定ですね。
今回のようにサンプルが少ない場合(15未満)には、特に有効のようなのですが、こちらも当然結果はOK(有意差あり)。
ただいろいろ勉強するうちに、
More recently it has become apparent that these nonparametric methods, also are strongly affected by variance heterogeneity(DW Zimmerman 著 · 2004)
(最近では、これらのノンパラメトリックな手法も、分散の不均一性(等分散でないこと:訳注)の影響を強く受けることが明らかになっている)。
との情報にも行き当たり、ちょっと驚いた次第です。
そもそも等分散なのか?
この等分散生というのは、tテストの前提の3にも入っているものですよね。「2つの母集団の分散が等しいこと(等分散であること)」です。
等分散性の検定
疑問に思うと調べてみないと気が済まないので、等分散性の検定もついでにやってみました。
そうすると以下の結果。
ということで、P値が0.05を超えていますから、帰無仮説を棄却できず等分散である事が確認できるのですが、サンプル数が少ない場合(30未満)では、そもそも等分散性の確認はできないとのこと(「統計検定を理解せずに使っている人のために II」池田郁男)。
そもそもMann-WhitneyU検定が適用可能かどうかも怪しくなってきた、というわけで、Mann-WhitneyU検定は却下となってしまいました。
こうしていろいろ制約というか、条件を考慮して検定を選択しなくてはいけないことが明らかになっていきましたね。
多重性の問題
そしてこのように、等分散性の検定を行い、その確認をしたうえでどの検定を行うかを決めて検定するという手順では、「多重性の問題」が生じてしまうリスクも高まります。
つまり検定の確からしさが、どんどん失われてしまうということですね。
実際こういう手順を進めている統計の教科書もあるそうですが、あまりよろしくないとのこと。なので私もこんなふうにいろいろ検定をやっていいのか、という疑問もわいてくる。
上記のMann-WhitneyのU検定は、正規性を仮定しないノンパラメトリック検定として有名なようですが、等分散が確認できない場合、うまく検定できないという問題があることはあまり知られていないとのことで、はい、私も知りませんでした。
今回のケースでは、正規性を考慮しないという点でこれもいけると判断したのですが、結局のところ等分散性の確認が必要であり、ここではでは使い物にならないことが判明しました。
総合判断
ということで一連の統計的検定で行き着いたのは、以下のような結論になります。
正規性の確認
まずは改善前・改善後で得られたデータの正規性の確認。これがOkであれば、等分散性を確認する必要のない、Welchのtテストを行う。
最近では、こちらが一般的なやり方になってきているとのこと(統計WEB)。
特にサンプル数が少ない場合(30未満)では、そもそも等分散性の確認ができませんから、こちらの方が有効ですね。
ちなみにMinitabでは、等分散性が確認できているかいないかのチェックボックスがありまして、確認できない場合は自動的にWelchのtテストを行ってくれます。
正規性が確認できない時
そしてデータの正規性が確認できない場合は、今回のケースのようにMoodの中央値の検定を行う。特にサンプルサイズが小さい場合(15未満)は。
外れ値なしなら、Kruskal-Wallis検定が、より高い検出力ということで、こちらを選ぶことも可能です。
またこの中央値検定では、Brunner-Munzel検定が検定精度も高く、最近主流になりつつあるようですが、残念ながら我らがMinitabには搭載されておらず。有名なRなら可能のとのことでした。
ちなみにこれらをフローにすると、こんな感じです。無難なのは、黄色の検定を選択すること、という結論に達しました。
まとめ
いかがでしたでしょうか?
今回は、「カイゼン後の統計的検定選択 備忘録」としまして、紆余曲折あった検定についてまとめておきました。
おさらいですが、
- 正規性の確認
- OKなら、Welchのt検定、そうでなければMood中央値検定を行うと、等分散性を考えずに正しい結果が得らえる
- ノンパラメトリックなら、サンプルサイズ・外れ値の有無でKruskal-Walliも選択可能
- Mann-Whitneyもノンパラメトリックで有名な検定だが、等分散性を確認しないといけない
- 最近はBrunner-Munzelという検定がおすすめ(R)
以上のような感じになるかと思います。
ちなみに各検定と正規性・等分散性等による使用可・不可をまとめてみました。多分忘れるので、後々私の参照にも役立つことでしょう。なんせすぐ忘れるから(笑)。
正しい手法で、正しい検定を行いましょう。奥が深い。でもすっきりしましたね。
今日も読んでいただきたきまして、ありがとうございました。
ではまた!
信頼のおける「QC入門講座」シリーズです。