「対応なし」で乗り切ろう! 2サンプルtテスト (DMAIC)
皆さんこんにちは! 今日もどこかでカイゼンサポート、Kusunoko-CIです。
今回も備忘録、「統計的検定」シリーズ。最近Minitabを使って、いろいろデータをいじくるのが面白くなってきた私です。
そこで今日のエントリーは、「2サンプルtテスト with Minitab」です。
タイトルに、「『対応なし』で乗り切ろう!」と書いていますが、「対応あり(paired t-test)」とか「対応なし(unpaired t-test)」とか、結構こんがらがるのがこの2サンプルt。
なるべく簡単にした2サンプルtテストのご説明を、Minitabを使う方法に絡めながらの確認です。こちらも覚えておくと、改善Projectが一段上にレベルアップしますので、ぜひ活用していただきたいですね。
2サンプルtテストとは
2サンプルtテストとは、2つのサンプルの平均値を比較するための仮説検定です。
2つのサンプルには、「独立したもの(対応のないもの)」と、「対応のあるもの」の2つがあります。
「対応のない場合」のサンプルとは、改善前と後とか、学校のA組とB組などのように、構成メンバーが異なるサンプルを意味します。それぞれが「独立」していますね。
一方、「対応のある場合」のサンプルとは、薬を飲む前と飲んだ後のように、同じ患者さんで2つのサンプルを得たような場合を意味します。
2つのデータが「対応のある」データか「対応のない」データかによって、2サンプルtテストのやり方が変わってきます。
ちなみに3つ以上のサンプル間の平均の差の検定は、一元配置分散分析を用います。
t検定の前提条件は、以下の3つです。
- サンプルが母集団からランダムに取り出されている
- 母集団が正規分布、またはそれに近いこと
- 2つの母集団の分散が等しいこと(等分散)
t検定は、前提条件1と2については、条件に合致しなくても影響が少ないようです。ただし、前提条件の3、等分散性については、少し注意が必要で、後で説明をしてあります。
まずは少しこのまま進んでいきましょう。
1サンプルtテストと2サンプルtテスト、何が違う?
さて2サンプルtテストのより深い説明に行く前に、1サンプルtテスト、2サンプルtテストは何が違うのかを確認しておきたいと思います。
1サンプルtテストは、この前のエントリーで説明いたしましたね。
同じ「tテスト」なわけですが、1サンプルと2サンプルで、使われる意図や場面の違いを、簡単に説明してみます。
1サンプルtテスト
以前もご説明した1サンプルtテストは、母集団からの1つのサンプルを、何らかの目標値と比較したい場合に使用します。
目標値がしっかり設定できる場合の検定ですね。
例えば以前使用した例の「焼き肉のたれ、果汁含有率、15%」は、焼き肉のたれという製品を母集団とし、そこから1グループのサンプルを抽出しました。そのデータから、母集団の平均は今15%という目標値を達成しているのか、いないのか、ということを焦点にした例でしたね
納入LTのケースもありました。
こちらの場合も、改善アクションで、平均20日を切ったのかどうか。これも抽出したサンプルから、20日という目標値に対しての検定を行っていました。図にすると以下のような感じです。
いずれにせよ、目標値があっての検定ということになります。
2サンプルt
一方2サンプルtテストは、2つのサンプルを比較したい場合に使用します。1サンプルtのように明確な目標値あるのではなく、2つのサンプルデータの集団を比較し、違いが出たか、小さくなったか、大きくなったのかを判定したい時に使用するものです。
この時母集団の対応なし・対応ありをまずはっきりさせなくてはいけません。
ということで、絵を描いてみました。
- 母集団が違い、それらから得られたサンプル(必然的に2グループ)を比較したい時。納入LT平均の改善Before & Afterとか、学校でのA組とB組の比較検証とか。こちらが「対応のない」場合。
- 母集団が同じものだが、改善や投薬前・後で変わった(例:同じ患者さんグループへの薬投与Before & After)という時。「対応のある」場合。
このように、用途に分けて使い分ける必要があるのが2サンプルのtテスト。上記の絵でそれぞれイメージを覚えてもらえれば幸いですね。
対応がない場合 with Minitab
さてまずは「対応がない場合」の2サンプルtテストを見てみましょう。上のケースで言うところの1番、母集団が違うものの時です。
製造業などの場合、こちらのケースが圧倒的に多いと思います。
それぞれの母集団から抽出された2つのサンプルは、「対応のないデータ」と呼ばれて、これ用の検定を行うことになります。
(後で説明する「対応のある場合の検定」と、中でやっている計算が異なっているのですが、ここではそこには触れません。より専門的な文献を当たられることをお勧めします)。
今回の例は、納入リードタイム(LT)の短縮のProjectです。
改善アクションを取る前の納入LTの平均と、改善アクション後のLTの平均に統計的に有意な差があるのかを見たいと考えています。
改善アクションを取る前と取った後では、母集団が全く異なるものに代わっていますから、この「対応のない場合」を適用することになりますね。
検定を始める前のお作法として、仮説の設定です。
- 帰無仮説H0:納入LTの改善前平均―改善後平均=0(まったく同じ)
- 対立仮説H1:納入LTの改善前平均―改善後平均>0(納入LTのほうが長い)
信頼水準は95%にしておきます。
まずはいつものようにワークシートにデータを記入。
今改善前に81個のデータ、改善後には32個のデータが取れていたとします。これらの平均を使用した比較検証ということになります。
基本統計から「2サンプルt」を選択して、
出てきたポップアップウィンドウで、「各サンプルはそれぞれの列にある」(ありますね)を選んで、それぞれサンプルボックスに比較するサンプルの列の名前を記入します。
ワークシートから自動で選択肢として表示されるので、クリックするだけです。
そこでオプションをクリックすると、以下のポップアップがもう一つ出てきます。
信頼水準は、検定前に決定した「95%」を記入、対立仮説は「差>仮説差」を選びます。
これは、サンプル1(改善前納入LT)とサンプル2(改善後納入LT) の母平均の差が、仮説の差よりも大きいかどうかを判断するためのものです。
今仮説差は「0.0」と入れておきました。つまり差がない(変化がなかった)というのが設定した帰無仮説で、これを無に返したいわけです。
「差>仮説差」、つまり実際の差が、設定した「仮説差=0.0」よりも大きいということは、改善前納入LT―改善後納入LTの引き算の差が、0より大きいことを証明してほしいという設定しているということです。
これ、いつもこんがらがるのですが。
出てきた結果は以下のような感じ。
いつものように、注目するのはp値。
今0.000を得まして、0.05よりも小さくなっていますので、このデータからは帰無仮説を棄却して、「対立仮説H1:納入LTの改善前平均―改善後平均>0(納入LTのほうが長い)」を採択いたします。
つまり改善後の平均LTが短くなっていることが、95%の信頼水準で得られたということです。
改善アクションに効果があったので、めでたしめでたし。
今回過程で「箱ひげ図」も作るよう指示しておきました。
線でつながれた「+マーク」が、改善前と後で大きく違っている(納入LT平均が短くなっている)ことが視覚的にも判断できます。
ちなみに今回の場合ですと、「改善後」の青い箱から、上に引かれた線(上ひげ)も、改善前データの下ひげをほぼ下回っていますので、この例ではかなり大きく改善効果があったことがわかってきますね。
等分散性とは
先ほどの2サンプルtテストの例では、「等分散性を仮定」にチェックを入れずに検定を進めました(オプションのポップアップ)。
冒頭の前提条件3にも出てきましたが、本来2サンプルtテストを行うのであれば、「2つの母集団の分散が等しい(等分散)」ことが求められます。
ですのでまずは「等分散性の検定」を行い、2サンプルの母分散が等しいかどうか検定してからでないと先へ進んではいけない、という考え方があり、こういうふうに説明している本も結構あるようですね。
ただしこの方法には、統計学で言うところの「多重性の問題」という弱点があります。
「多重性の問題」とは、検定を繰り返し行うと、本来設定していた有意水準で誤判定を起こす確率が高くなってしまうことです。
つまり、やればやるほどどんどん信頼できない検定結果になってしまう。
ですので最近では、2サンプルtテストを行う場合、この等分散性の検定をスキップして、等分散かどうかを考慮する必要のない「Welchのt検定」を行ったほうが良い、という考え方も広まってきています。
ご紹介しているMinitabも、この「Welchのt検定」を採用していると明記した2サンプルtテストがあります。
Minitabの「アシスタント」というタブから「仮説検定」から行ってみると、
下のように、とても分かりやすいガイド付きの画面が表示されます。
2サンプルtを選択すると、さらに詳細記入の画面がでてきますが、
これもとってもわかりやすいと思いませんか?
先ほどこんがらがる、といった「平均の違いの判定」(この場合は、納入LTの改善前後での変化)に関する選択が、これ以上ないくらい明確に記述されています。これはほんとにありがたい。
Okをクリックして、以下のような詳細な結果を得られます。
注目したいのは、以下黄色くハイライトしたところ。
MinitabアシスタントではWelchの方法が使用されていますが、この方法では2サンプルが等分散であることを前提条件としていません。
これまでの研究から、サンプルサイズは等しくない場合でも不等分散のサンプルを使用して検定がうまくいくことがわかっています。
というとても親切な説明付き。
そもそも実務において、母分散がわかっている場合ということ自体があんまりないですし、それが共に等しくなることも、私は残念ながら見たことがないです。
私が知らないだけで、そういう場合ももちろんあるのでしょうが、このアシスタントでWelchの検定を使っておくのが、だいたいの場合において無難なような気がしますね。
対応のある VS. 対応がない
2つのランダムなサンプルを使用して仮説検定を実行する場合、対応があるのか対応がないのかで、検定のタイプを選択する必要がある、と上で説明いたしました。
一方のサンプルの値が他方のサンプルの値に影響を与えないことがわかっている場合、サンプルは独立していて「対応がない」検定を行います。
上のように納入LT日数の平均を比較したり、違うクラスのテストの結果を検証する場合ですね。
一方、片方のサンプルの値がもう片方のサンプルの値に影響を与える場合が、「対応がある場合」になります。
例で見てみましょう。製薬会社のケースで考えてみます。
今この会社は、血糖値を下げるために開発された薬の効果を調べたいとします。
同じ患者さんからなるグループを作って、彼らが薬を飲んだ前後の血糖値を調べます。前後のサンプルは、同じ患者さんからのデータですから、「依存して」います。
どういうことかというと、最初のサンプルで血糖値が高かった人は、2番目のサンプルでも血糖値が高い可能性がありますよね。一方のサンプルの値がもう一方のサンプルの値に影響を与えているのが分かると思います。
この場合は「対応がある」検定、Minitabの場合で言うと、「基本統計」から「対応のあるt」を選んで検定を進めます。
ただし改善Projectの場合、こちらの「対応がある」を使うケースは、著しく低いです。
同じ製品に、条件を変えてもう一度データサンプルを取る場面というのが、なかなかないですからね。
こちらも、少なくとも私はまだ経験したことがないです。ということで、改善絡みの検定ならば、まずは先の「対応のない場合」を覚えておくことをお勧めします。
まとめ
いかがでいたでしょうか。
今回は、「『対応なし』で乗り切ろう! 2サンプルtテスト (DMAIC)」ということで、2サンプルtテストをMinitabでやってみる回となりました。
対応なし、対応ありとか前提条件とか、結構難しいですよね。
そしてこれを手計算でやると考えてみてください。
私は嫌です(笑)。
何の統計ソフトを使うにしろ、こうしためんどくさいところはコンピューターに任せてしまうのが、私は正解だと思っています。
私たち改善に関わる人は、統計の専門家になる必要はないのです。
もちろん成り立ちや、どの場面でどのような統計検定の手法を使うべきなのか、覚えていかなくてはならないですし、それを勉強なしでできるというつもりも全くありません。
努力は必要です。
ですが、例えば自分の持っている統計ソフトの、ケースごとのやり方を覚え、ガンガン実務で成果を出せれば言うことないですよね。
コンピューターの仕組みがわからなくても、プレゼンを作ったりできるのと同じことなのです。
最初はメンターと共に、手探りで。徐々に経験を積んで、少しずつ「なぜなのか」の知識も増やしながら、使うくことで深く理解していってほしいなと思います。
あなたを一段上のカイゼンマンにしてくれますよ。
今日も読んでいただきまして、ありがとうございました。ではまた!
初学者向けではありませんのでご注意ください(泣)