統計的検定 1サンプルtテスト Minitab
皆さんこんにちは! 今日もどこかでカイゼンサポート、Kusunoko-CIです。
今回もまた備忘録、「統計的検定」シリーズです。
前回の「1サンプルZテスト(1標本のZ検定)」でもご説明しましたが、改善Projectでは、得られたデータをもとに、本当にアクションを取るべきか、あるいは取ったアクションには効果があったのか、などの判断を下さなくてはいけません。
その際使用されるのが、以前もご紹介したこの統計的検定の考え方。
今回は「1サンプルtテスト(1標本のt検定)」です。Minitabの使い方も含めて、まとめています。
平均の検定
目標となるグループ(母集団)の統計量と、ランダムに抽出したデータの差を調べたいときに使うのが、この検定という考え方。
つまり母集団のある性質(この場合は平均)について、分析対象の標本(サンプル)を抽出して推測・検証するために用いられる手段です。
その中でも、得ているサンプルが、母集団からランダムに取り出した1つの標本のまとまりである場合には、「1サンプル」の検定を使用します。
例えば母集団となる製品のデータがすでにあって、現在製造している製品データの平均にどんな違いがあるのか調べたい、という時。こちら前回の「焼き肉のたれ」の例ですね。
あるいはもう一つ、依然の納入リードタイム(母集団)とカイゼン後のリードタイムの平均を比べて、改善施策に効果があったのかを確認したい、などという場面も説明いたしました。
サンプルが30より大きかったり、分散既知なら「Z検定」を使うのでしたね。
平均値のt検定
さて今回は「t検定」です。
1サンプルZテストのまとめのところでもご説明しましたが、一般的な場面では、母集団の分散は不明な場合が圧倒的に多いです。
あるいは実際の仕事において、30個より大きなサンプルを得るにはコストがかかりすぎるということも多々あるのではと思います。
時間の制約もついて回りますしね。
そのような場合に使用されるのがこの「1サンプル tテスト」です。
条件をまとめておくと
- 母集団の分散がわからない
- サンプル数が少ない(≦30)
となります。
また条件として、標本が母集団からランダムに抽出されたものであり、母集団は正規分布に従う(またはそれに近い)ということを押さえておく必要があります。
t検定のやり方 Minitab
さてそれでは早速、Minitabでt検定をやってみます。
今回は後の検証も見据えて、Z検定のところで使った焼き肉のたれの果汁含有率でやってみたいと思います。
もう一度背景を説明すると、ある会社で、自社製品である「焼き肉のたれ」に含まれる果汁含有率を調べる必要が出てきました。
栄養成分法に記載しているパーセントは15%未満で、そうなるように製造しています。
今回、ランダムに選択した20個のサンプルの果汁含有率を測定しています。ただし母標準偏差(分散)はわかっていません。
サンプル数も20個しかありませんので、t検定の出番ですね。
検定前に、帰無仮説と対立仮説を設定しておきましょう。
- H0:果汁含有率 = 15%
- H1:果汁含有率 <15%
帰無仮説(H0)の平均は15%で、これが無に帰ってほしい。ですので対立仮説(H1)を本来あるべき姿であった果汁含有率「 <15%」にセットしています。
信頼水準は95%です。
まずはいつものように、ワークシートに得られたサンプルの果汁%を記入して、
統計の基本統計から、今回の1サンプルtを選択します。
そうしましたら、出てきたポップアップウィンドウに、
- サンプルである「果汁」を表示
- 帰無仮説の平均である「15」%
- 95%の信頼水準で
- 平均が仮説の平均より小さくなっていてほしいので「平均<仮説の平均」
と記入・選択して、
OKをクリックです。
出てきた結果は、p値が0.05よりずっと大きいですから、帰無仮説を棄却できない、つまり果汁含有率は15%より小さいとは言えず、何らかのカイゼンアクションを取る必要があることがわかってきました。
ちなみに前回のZ検定で得られた結果と今回のt検定の結果を比較してみます。
p値もわずか0.001の違いで、両者とも果汁含有量は15%より小さいとは言えないという結論を導き出しているのがわかりますね。
ヒストグラムにおいても同様の視覚情報が得られていますよ。
分散既知のZ検定と、分散未知のt検定、サンプルデータ20個で、同じような結果が得られることがはっきりわかりましたね。
t検定 こぼれ話
t検定は、「スチューデントのt検定(Student’s t-test)」という名前を持っています。これはこのt検定の開発者、ウィリアム・ゴセット(William Sealy Gosset)さんという方が、勤務していたギネスビールに、本名を隠して研究活動と発表を行ったからでした。
ギネス社ではこれ以前、ある研究発表が、ビール生産に関する企業秘密を暴露してしまうという、結構痛い事件がありました。
そんなわけですから、社員の研究やその発表を快く思っていなかったようですね。ゴセットさんもクビにはなりたくないでしょうし。
そんな中、業務で「ビール麦芽汁に加える酵母液の適正量」を知りたかったゴセットさん。
酵母液すべての検査をするわけにはいかないので、一部を抜き取って数えるしかありません。
少数の標本から全体を推定するとして、それがどれくらい正しいのかを知りたいと思っていました。なにせ彼以前の統計では、標本を無尽蔵に扱えることが前提となっていましたからね。
研究の甲斐あって、ゴセットさんは1908年に『平均の確率誤差(The Probable Error of a Mean)』を発表しました。
これがt検定の考え方を、初めて世に示したものになります。
その後残念ながらこの論文、10数年ほど忘れられた存在だったのだそうです。後にフィッシャー(Fisher、 R. A.)さんが推測統計学の枠組みの1つとしたことで、広範に使用され現在の私たちを助けてくれる重要な統計ツールの一つとなりました。
さてゴセットさんは、結局その活動を会社に知られないよう、生涯隠し通したようです。彼の死後、友人が彼への追悼論文集のため、ギネス社に寄付をお願いしたことで始めて明るみに出たのだそう。
ギネスビールを飲むときは、t検定に思いをはせてみてはいかがでしょうか。
まとめ
というわけで今回は、「1サンプルtテスト Minitab」のまとめでした。
条件は、
- 母集団の分散がわからない
- サンプル数が少ない(≦30)
で、かつ
- 標本が母集団からランダムに抽出されたものであり、
- 母集団は正規分布に従う(またはそれに近い)
でしたね。
結果から、Z検定もt検定も同じような結果が得られることが分かりました。
実務ではこちらのt検定を使うことの方が多いですので、いずれどのような統計ソフトを使うにしろ、きちんと覚えておくのがいいと思います。
是非皆さんのカイゼンProjectにご活用ください。
今日も読んでいただきましてありがとうございました。ではまた!
たまに飲みたくなりますよね。