統計的検定 1サンプルZテスト (DMAIC)
皆さんこんにちは! 今日もどこかでカイゼンサポート、Kusunoko-CIです。
今回は備忘録、「統計的検定」シリーズです。
改善Projectでは、得られたデータをもとに、本当にアクションを取るべきか、あるいは取ったアクションには効果があったのか、などの判断を迫られます。
その際使用されるのが、以前もご紹介したこの統計的検定の考え方になります。
いろいろ種類があってこんがらがるので、Minitabの使い方も含めて、まとめておくことにしました。
今回は「1サンプルZテスト(1標本のZ検定)」です。
平均値の検定が使われる場面
工場で製品を作っている場面を想像してください。
製造業では様々な理由から、「作った製品の品質ってどうなっているのかな」と確認しなくてはいけない場面があるのは、関わったことのない方でも想像できると思います。
意図したように出来がっているのかな、という。例えば、不具合が多いとか、機械を入れ替えたとか、やり方・人が変わったとか。
その中でも、製品(母集団)の平均という統計量を調べたいときに使うのがこのZ検定です。
つまり母集団のある性質(この場合は平均)について、分析対象の標本(サンプル)を抽出して判断・検証するために用いられる手段ということになります。
その際、得ているサンプルは、母集団からランダムに取り出した1つの標本のまとまりなので、「1サンプル(1標本)」の検定です。
とうことでもちろん、製造業だけでなく、平均とばらつきのデータあるものなら、何でも適用可能ということになります。
平均値のZ検定
Z分布は、以下のいずれかの条件を満たす場合、平均値の検定に使用できます。
- 母集団の分散がわかっている(母分散が既知)
- サンプルサイズが大きい(>30)。
こちらそれぞれのケースを、Minitabの使い方も含めて見ていきましょう。
例1:分散既知
まずは母集団の分散がわかっている場合です。
ある会社で、自社製品の「焼き肉のたれ」に含まれる果汁含有率を調べようとしています。
栄養成分法に記載しているパーセントは15%未満で、そうなるように製造していますが、確認の必要が出てまいりました。
ということで、抜き取り検査をして現在の工程の状態を調べたいと思います。
そこで今回、ランダムに選択した20個のサンプルの果汁含有率を測定してみました。以前の測定から、母標準偏差(分散)は「2.6」であることがわかっています。
サンプル数は20個しかありませんが、分散既知なのでZ検定を使います。
まずはワークシートに得られたサンプルの果汁%を記入して、


ワークシートにデータ記入
統計の基本統計から、「1サンプルZ」を選択。


1サンプルZ
出てきたポップアップ画面で、今調べたい列である「果汁」を選択します。このケースでは分散既知でしたので、先ほどの「2.6」を記入しました。


分散既知ケースは、実はあんまりない
以前もお話しましたが、検定はまず帰無仮説(H0)を設定して、それを棄却することで望んでいる状態(対立仮説:H1を採択)にあるかどうかを確認するという手順でしたね。今この場合はそれぞれ、
H0:果汁含有率 = 15%
H1:果汁含有率 <15%
となります。
今回果汁のケースでは、「15%」というのがこの帰無仮説の平均ですから、その15を「仮説の平均」欄に記入しておきます。
そうしましたら「オプション」の信頼水準、ここでは一般定な95%を記入。対立仮説は今先ほどの(帰無)仮説の平均である15%より、小さくなっていてほしいわけですから、画面のように「平均<仮説の平均」を選びます。


平均<仮説の平均
母集団の平均が、仮説の平均よりも小さいかどうかを判断しようとしているわけですね。
そしてOKをクリックしますと以下の結果を得ることができました。


結果発表
今回の検定によると、p値が0.994で、0.05を上回っていますので、帰無仮説を棄却することはできませんでした。
つまり今製造している焼き肉のたれに含まれる果汁の平均は、95%信頼水準において、15%未満ではないことが分かったわけです。
果汁添加に関わる工程に着目して、カイゼンアクションを取らなければいけないですね。
例2:分散未知
次は分散未知の場合の検定手順を見てみましょう。実務では、こちらの場合の方が圧倒的に多いはずです。
今お客様への納入日数(リードタイム:LT)を短くするための、カイゼンProjectがあったとします。
目標は、平均LTを20日以下にすることと設定しました。 チームの皆さんは目標を達成したかどうかを確認するために、改善策を実施した後に収集したデータを目標値と比較して、検証したいと考えています。
したがってこの場合は、次のように帰無仮説と対立仮説になります。
H0:納入LT= 20日
H1:納入LT< 20日
今回も95%の信頼水準を得ることにしました。
母分散は未知ですが、得られたデータサンプル数が30以上なので、1サンプルZが使用できます。
このように母集団の分散が不明の場合は、代わりに取ったデータの標準偏差を使用します。Minitabでデータの分析を行った結果、新しいLTデータでは分散=0.896とでました。
ではさっそくやってみましょう。
今回は、先ほどと違って分散がわかっていませんから、このデータの標準偏差「.896」を入れ、あとは同じように、95%信頼水準の「平均<仮説の平均」を選択します。


サンプルからの標準偏差で代用
得られた結果は以下のようなものでした。


P値に注目
p値が0.000で0.05よりはるかに小さいですから、こちらのケースは帰無仮説得を棄却することができました。つまり納入LT短縮の改善施策には、効果があったことがわかったわけです。
おめでとう!
ちなみに先ほどのポップアップで「グラフ」表示を選んでおけば、Minitabはこのようなヒストグラムや「箱ひげ図」も作ってくれます。


ヒストグラム
こうしてみるとデータの平均(xバー)が、H0よりかなり小さいことが、視覚的にも確認できますね。この辺もなかなか便利です。
まとめ
いかがでしたでしょうか?
今回は「統計的検定 1サンプルzテスト」の、Minitabでの具体的な操作方法の確認でした。
手計算しなくていいのは本当にありがたい、と私は常々感じています。
まとめておきますが、1サンプルZテストは平均値の検定です。検定すべき母集団の平均値が示されます。
- 母集団の分散がわかっている(分散既知)
- サンプルサイズが大きい(>30)
のいずれかの場合に使用できるのでした。
ただし以前も述べたように、母集団の標準偏差がわかっている(分散既知)状態というのはなかなか現実にはないです。
ですのでわからない場合は、1サンプルtという検定を行うのですが、こちらはまた回を改めてご説明したいと思います。
検定も手順を覚えてしまえば、どうということはありません。統計ソフトを導入して、どんどん活用してみましょう。
カイゼンProjectが、統計的に裏打ちされたものになります。これは効果の確認が、科学的に証明できてとても素晴らしいことですね。
今日も読んでいただきましてありがとうございました。
ではまた!
各種検定のやり方も、丁寧に説明されています。