統計的検定 2サンプル比率検定 サンプルサイズの検出も

皆さんこんにちは! 今日もどこかでカイゼンサポート、Kusunoko-CIです。

「統計的検定 Minitabでやってみた」シリーズ、今回も前回に引き続き「比率の検定」です。

いろいろなパーセンテージで表すものを検定してしまうこの手法。Minitabを使って実際にやってみましょう。「2サンプルの比率検定」です。

統計ソフトの使い方は基本的に同じです。いくつか留意点を確認しながらトライしてみます。また今回は、Minitabの便利な機能「サンプルサイズ検出」にも触れてみました。とても便利ですよ!

2サンプルの比率の検定とは

Photo by David Kristianto on Unsplash

2サンプルの母比率の検定は,2つのサンプルの比率を比較して、同じなのか違っているのかを判断したいときに使用されます.

比率、%といってもいいですが、例えば工場での良品判定などの時。データに合格or 不合格など、2つのカテゴリしか含まれない場合です。

あるいは市場調査で、アンケートに回答するときに何かしらのプレゼントがある時とない時で、回答率(%)が違っているのか見たいときなども、場面として考えられるでしょう。

前提条件としては、

  1. サンプルデータはランダムに
  2. 適度なサンプルサイズであること

があげられます。

1に関しては、もう言うことはないかもしれませんが、統計というのは無作為であることがとても重要になってきます。この辺のことは、製造業の場合、抜き取り検査の手法とも絡んでくるお話しですね。

また2に関しては、Minitabには便利な機能があるので、あとで少しやり方を見てみたいと思います(サンプルサイズの検出)。

2サンプルの比率の検定 with Minitab

Photo by Brad Starkey on Unsplash

場面設定

今ある人が、車の購入を検討しているとします。

色々あって迷ってしまうのですが、最終的にD社のAとT社のBという車種にまで絞り込めています。

ディーラーに足を運び、試乗までしても、どっちがいいのかどうしても決められない。かなり優柔不断です(笑)

そこでこのAとBという車の、お客様の声を拾ってみました。

実際にAとBという車をすでに所有しているオーナーさんの声に限定し、「ここが嫌だ」とか「もう少し何とかならなかったのか」という、いわゆるネガティブなコメントがどのくらい出ているのか、その比率の違いに着目してみようと思ったわけです。

ネットの口コミやYou Tube で、Aという車に関しては合計305個のコメント数を発見、そのうち12個のネガティブな意見がありました。

一方Bに関しては、201個のコメントに50のネガティブコメント。

実際に乗っているオーナーさんはどう感じているのか。この二組のネガティブコメントの比率に、統計的に有意な差が果たしてあるのでしょうか?

信頼水準95%で調べてみたいと考えました。

まずはいつものように仮説の設定ですが、

  • H0 帰無仮説:両車オーナーさんの不満比率に差はない
  • H1 対立仮説:両車オーナーさんの不満比率に差がある

です。

Minitab アクション

Minitabで、「統計」→「基本統計」→「2サンプルの比率」を選択し、

↓図のようにフィールドに入力します。「事象数」、「試行回数」をそれぞれ記入。

信頼水準は今95%、対立仮説は、「同じではない」ことを選択しています。

検定方法は、サンプルが十分大きい場合は、「比率を個別に推定する」デフォルトの方法が推奨されるとのこと(Minitab help)。

「仮説の差」ですが、これは比較したい比率にあらかじめ具体的な目標値がある場合に使います。例えば、新しい部品の不良割合が、今の部品の割合と2%異なるかどうかをテストしたいときなどです。今回はそうではなく、単純に2比率を比較したいので、「0.0」のまま進めます。

OKをクリックすると以下のような結果を得ました。

結果

見るべきは、いつものようにp値です。

Minitabは、正規近似法フィッシャーの正確検定(後述)を使用して、2比率検定のp値を計算していますが、ご覧のように出てきた両数値は今回、大幅に「0.05」を下回っていますね。

このケースですと、H0帰無仮説は棄却し、「2比率に統計的有意な差がある」、つまり、「オーナーさん感じるネガティブな部分の比率に、AとBという車種では違いがあった」ということになりました。

どうもBという車、所有してみてしばらくしないと見えない何かがあるのかも、などという予測もたちますね。

正規近似法とフィッシャーの正確法

先に述べた通り、Minitabでは、正規近似法フィッシャー(Fisher)の正確法を使用して、2比率検定のp値を計算します。

正規近似法では、事象の数(例えば不良)と事象でないものの数(例えば良品の数)が、両方のサンプルで5以上の場合、2つのp値のうち小さい方を使用して計算を行っています。

ところが事象の数、または事象でないものの数が、どちらかのサンプルで5未満の場合、正規近似法は不正確になってしまう可能性があります。

この点フィッシャーの正確法は、すべてのサンプルに対して有効と言われており、Minitabは両方を一気に計算してくれるのでとても便利ですね。

フィッシャーの正確法での結果は、やや保守的になる傾向があるようです。保守的なp値は、当然帰無仮説に対する判断を辛めにします。

今回の結果でもフィッシャーの方がよりp値が大きい、つまり帰無仮説をより棄却出来ない方向へ振れていることがわかりますね。

特にサンプルが少ない場合は、こちらの値を重視したほうがいいでしょう。

いずれにせよ、p値がボーダー付近にある場合は、早急な判断は下さず、様子を見る必要がありますね。

サンプルサイズはどのくらい?

統計的検定は、サンプルサイズに多く効く影響を受けます。

あんまり少ないと正確な判断が下せません。

ですのでシックスシグマのProjectでは、実際に改善を始める前に、その場合のベースラインからターゲットへの変化だと、どのくらいのサンプルサイズが必要なのか確認しておくことが推奨されます。例えば直行率を95%から96%に上げたい、などというケースですね。

そのような時に使用されるのが、この「サンプルサイズ検出」という作業。

Minitabには、便利な機能「検出力とサンプルサイズ」という項目があって、正確な判断を下すに当たり、どのくらいのサンプルでもって確認しなくてはいけないのかが分かるようになっているのです。すごいでしょ。

ではさっそくやり方ですが、「統計」→「検出力とサンプルサイズ」→「2サンプルの比率」を選択します。

出てきたポップアップに「比較比率」と「ベースライン比率」にそれぞれ比率を入れます。今回の場合は、A・B両者オーナーさんの不満、12/305≒0.039、と50/201≒0.249を使っています。

この場合は「等しくない」という検定を行うわけですから、どっちをベースラインと比較比率にしてもいいです。必要なサンプル数の結果は同じになります。

「検出力」は、10%見逃してしまうこともある、という意味で0.9を入力。オプションで、対立仮説は「仮説値と等しくない」、「有意水準」を0.05に設定しました。

そして以下のような結果を得ます。

この3.9%と24.9%の間の差、21%に有意な差があるかどうかを調べるためには、それぞれのサンプルに対して、43個ずつを調べないといけないわけですね。

今回はA車で305、B車で201のサンプルをチェックしていますから、十分なことがわかります。

ちなみにこちら、比較対象の数値差が小さくなれば小さくなるほど、多くのサンプルが必要になっていきます。

今回の場合は21%の違いですので、さほど大きなサンプルサイズは求められていませんが、これが例えば1%未満だと、1万のサンプルサイズがそれぞれに求められるなんてことも多々あります。

正確を期すためには、それほどまでに大きなサンプルを取らなくてはいけないわけですね。

ただ当然、実務ではここまで取っている暇もなければ、お金もかけられないということもあるでしょう。そんな時は先ほどの検出力を70~80%に落としてみるとかして、若干妥協することも必要かもしれません。

冒頭に述べた「適度なサンプル数が必要」というのが、曖昧過ぎて「?」になっていた方もいらっしゃったのではないでしょうか。

適度な、というのは結局場合によりけりで、比較したい比率間にどの程度の差があるのかで全く異なってきます。

理論上フィッシャーの正確法は、すべてのサンプルサイズで有効と言いつつ、より厳密に判断するために、この「適度な」サンプルサイズを確認しておくことがマストになります。

そこまで数が得られないような状況(工程)であれば、早急に改善効果の判断を下すのではなく、管理図などで異常の確認をしながら、更なるアクションで品質向上などに努めていかなくてはいけないですね。

まとめ

いかがでしたでしょうか。

今回は「統計的検定 Minitabでやってみた」シリーズ、「2サンプルの比率検定」でした。

今回もMinitabを使って実際にやってみております。

途中サンプルサイズの検出の件にも触れましたが、このMinitab機能、たいへん有能です。

改善Projectをやっていると、例えば不良率が何%から何%まで向上した、などという結論に持っていきたいケースが普通です。

このような時、ご紹介したサンプルサイズ検出機能は、この改善で本当に効果があったと言うには、どのくらいの期間結果をモニタしなくてはいけないかの目安を与えてくれます。

チームとしても、またサポートする側としても、こうした基準がもらえるのは大変ありがたい。

もちろん膨大な数のサンプルが必要と出てしまって、頭を抱えてしまうこともあるのですが、いずれにせよ、統計的に有意であるという判断を下すためには必要な数になってきます。なので、「簡単にうまくいったと思わず、今後も注意深く結果を見ていきましょう」と促すためにもこうした数値が「見える化」されるのは、かなりありがたいのですね。

統計ソフト、かなり有効ですよ。

今日も読んでいただきましてありがとうございました。

ではまた!

いつもお世話になっております。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA