実験計画法は「でたらめ」と解析で成り立っている
皆さんこんにちは! 今日もどこかでカイゼンサポート、Kusunoko-CIです。
仕事柄、カイゼンProjectサポートをするに当たり、避けて通れないのが品質統計。近々またワークショップがありますが、品質絡みのProjectがちらほら。
要因を洗い出して実際にトライして、出てきたデータを比較検証するというのが王道ですが、こうした実験の精度を上げ、かつ効率的に行うための手法が「実験計画法」です。
ただ名前も仰々しく、初学者には何となくイメージわきづらいのもこの「実験計画法」の特徴かなと思います。
ということで今回は、シックスシグマの実行(Improve)段階でも取り上げられることも多い、この実験計画法についてまとめてみました。
第1回目の今回は、実験計画法の基礎的な考え方と、それにまつわる豆知識を確認したいと思います。全体像の把握です。
実験計画法とは?
実験計画法は英語で「Design of Experiments (DOE)」といいまして、直訳すれば「実験のデザインの方法」という感じでしょうかね。
改善Projectにせよ製品デザイン関連の場合にせよ、品質特性に影響を与えそうな要因は山のようにあります。どれが原因になっていて、どれが一番効きそうなのか。これらを探し出すことは、問題解決の要諦になってきますね。
ただ忙しい日常業務の中での作業になりますから、極力的を絞って、効率的に探さなくてはならないことは明白です。
時間もそうですが、使う部材や素材の条件を変えての確認ですから、コストだって相当かかってきますよね。
当然これは、いっぱいやればやるほど顕著になっていきます。
このように、限られた時間や資源の中で、なんとか効率のよい実験方法を探り出し、結果を適切に解析できないか、というのがこの実験計画法の命題です。
もともとは、農業の分野で発展した手法。R・A・フィッシャーさんという方が、1920年代になって、それまでまとまりのなかった実験の方法を、体系化したのが始まり。
ただこちら、ネット上にいろいろな情報があるものの、説明を読んでも、なかなかどういうものか全体像がつかめなかった思い出があります。
目的や目指すところは何となくは分かるのですが、具体的な方法・手順が見えない感じでしたね。
ですので色々と文献をあさった結果、超簡潔に実験計画法を解釈するならば、
調べたい要因が増え、それに従って増加してしまう実験の回数を、統計的な裏付けとランダム化をしながら、極力減らす方法
ということができるかなと思います。
やりたい実験を、少ない回数でランダムかつ効果的にやる一連の方法です。いわゆる「直行表」もそのための一部にすぎません。
少なくとも実務においては、こういう理解で事足りるはず。この辺次項で見ていきましょう。
初歩編としての具体的な流れ、ですね。
実験計画法の二つの基礎
実験計画法は現在では大きく発展を遂げて、ものづくりだけでなく、医学や心理学など幅広い分野で応用されています。そして突っ込んでいくと、多分これだけで何冊も本が書けるような内容ですが、まずは基本的なことを押さえるのが今回の目的です。
この実験計画法は、二つの柱で成り立っていると言えます。
一つ目は分散分析や相関・回帰分析などを使ってデータを解析することです。当然、実験結果の適切な解析なしに、いわゆる因子の種類や効果、関係性を発見することはできませんよね。
そしてもう一点が、先ほど説明に出てきました「ランダム化」なのです。
実験計画法というと、多くのサイトではすぐに「直行表」の説明に行ってしまいがち。「効率的な」、とか「できる限り実験の数を少なく」という観点からすれば、それはそれで当然のことです。
実際に便利ですし、実験計画法の説明には欠かせないですからね。
ただ私は、「直行表」(あるいはラテン方格法)というものは、そうしたことを実現するための一手段であるし、説明がそこに集中しすぎると全体像把握のための流れが見えなくなってしまうのでは、と感じていました。
ってか私は残念ながら見えなかった。
多分実験計画法をよくわかっている人が記事を書いているため、初学者はどこがわからないのか、当たり前すぎてわからない(なので説明しない)のが原因なのかな、と。
そんなわけで初歩の初歩からの実験計画、二つの柱は分析することと、ランダムにすること。
そしてランダム化の重要性を確認するためには、実験における「誤差」というものを知っておかなくてはいけません。
誤差とランダム化


中心がずれて集中 VS. ばらつく
実験をするうえでなるべく避けたいこと、それは「誤差」がデータに紛れ込んでしまうこと。特に取り返しのつかない誤差の混入は、何としても避けなければならない。
一生懸命実験しても、結果に信頼がおけないなら、やった意味が全くなくなってしまいますからね。悲惨です。
こうした実験誤差には2種類あって、まずは「偶然誤差」と呼ばれるものから。
これは測定するたび偶然に測定結果に入ってしまう誤差で、測定すれば毎回何かしら、
- 測定する人
- 測定器の精度の限界(読み取り誤差など)
の影響を受けてしまう、いうなれば避けようのない誤差。
ただしこの偶然誤差は、測定した値のばらつきとして現れるので比較的見つけやすく、統計的な処理を行うことで取り除いて考えたり、小さくすることができます。
厄介なのはもう一つの誤差、「系統誤差」のほうです。
この系統誤差は、特定の原因によって測定値が偏る誤差になります。例えば、測定器のくせによる誤差や、温度、測定者自身が持つくせなど。
偶然ではなく一定の傾向を持った誤差で、データの収集方法そのものが適切でないため「系統」的に発生してしまう誤差になります。
こちらの系統誤差は、測定値をばらつかせるのではなく、平均値をずらす形で測定に影響を与えるため、結果から誤差の存在に気づくのがとても難しい。
つまりこちらが混入してしまう前段階で、これを防ぐ努力をして実験を行わないと、結果が全く価値のないものになってしまうということですね。
何度も言いますが、多大な労力をかけて、ムダになってしまうことほど悲しいことはない。
ですのでまずは、以前ご紹介した「測定システム解析(MSA)」を行って、こうした測定者や、機器そのものに由来する誤差を排除しなくてはいけません。
そして肝心の「ランダム化」です。実験の行われる順序を「でたらめ」にするのです。
でたらめな順番で実験することで、系統だって現れてしまう何がしかの偏りを、できるだけ小さくすることができます。つまり、系統誤差を偶然誤差にしてしまうことが可能になる、ということです。
例えば、お菓子の味比べ実験をしなくてはいけないとしましょう。
今用意されたお菓子を食べ比べて、それぞれ味の優劣を決めようとしています。もちろん食べて確認するわけですが、こういう場合人間は、食べ始め初期の頃はかなり慎重に点をつける傾向があるのだそうです。なのでおいしいものも低めの点数をつけがち。
ところがちょっと慣れてくると段々大胆になり、おいしいものにかなりの高得点をつけます。そして食べ比べ最後の頃には舌も感覚も麻痺してきて、うまいもまずいもわからない適当な点数になってしまうのだそう。
系統だった偏りが生まれていますね。
こうした傾向はありとあらゆる実験に潜んでいます。もちろん人起因でなく環境的な影響だってそうです。
これを避けるのがランダム化。でたらめは、取り返しのつかない系統誤差混入の可能性を、大幅に減らしてくれます。
これは冒頭に登場したフィッシャーさんが、「フィッシャーの3原則」で提唱しているルールです。世界初のランダム化実験のお話しとか、面白いですよ。
ランダム化が、精度の高い実験を行うための、実験計画の重要なポイントになってくることが御理解いただけたかと思います。
ランダム化と実験計画
ランダム化(Randomization)といいのは、日本語では無作為化です。先ほども使った「でたらめ」にする、と言うとより分かりやすいでしょうか。
でたらめにすることで、結果から取り除くことが困難な系統誤差を、偶然誤差に置き換えることが可能になるのでした。実験の精度が上がるのでしたね。
このランダム化のために、例えば上の写真のような「乱数サイ」を使ったり。
実験やら統計やらを知らなかった頃は、この乱数サイの存在の意味が分からなかったものです。忍者の「まきびし」かと思いました(笑)。踏んだら痛そうだな、と。
あるいは乱数表。これはエクセルでも出せますので便利ですね。


エクセルで乱数表
RAND関数というのを使ってみてください。例えば『=RANDBETWEEN(1,99)』と入れれば、二桁のランダムな数字が瞬時に表示されます。「数式」の再計算をクリックすれば、何度でも違う乱数表が得られます。


2因子の組み合わせを実験。エクセル乱数表から順番を割り付けてみた。
実験したい要因の組み合わせを、出てきた2桁の数字の小さい方から並べてみました。同じ数が出たらそこは飛ばして使ったりしています。
あとはこの順番に従って実験し、出てきた結果を分散分析などで解析するということになります。
ご覧のように、初歩の初歩、この段階ではまだ直行表なんかは使っていませんね。
でもきちんと実験の組み合わせを無作為化しています。そして実験を遂行して、その後分散分析にかけ結果を読み取っていくことになります。
先ほど実験計画法とは
調べたい要因が増え、それに従って増加してしまう実験の回数を、統計的な裏付けとランダム化をしながら、極力減らす方法
と述べました。
残念ながらこの程度の組み合わせ回数では、試行回数を減らすということはできませんが、実験をきちんとランダム化して分析につなげています。
これだってもう、立派な実験計画なのです。基本の基本として。
実験すべき要因(とその組合せ)が少なければ、ランダム化して総当たり実験からの分析。シンプルですよね? 分かりやすい流れです。
そして要因・水準が増えたときには、いよいよ直行表の出番となります。
実験の効果を保ちながら、いかに回数を減らすか、このための魔法が直行表。今回は触れませんが、いずれにせよ、実験計画における流れは同じです。
ランダム化して、分析する。
ざっくり言えば、ただこれだけのことなのです。
分散分析・多元配置
ということで実験計画といえば代表的な、「分散分析」のお話も少し。
1元配置の分散分析、2元配置の繰り返しあり・繰り返しなしまでは、エクセルでも簡単にできるのでした。こちら分散分析に関しては、以前すでに説明いたしましたので、そちらの記事を参照していただければ幸いです。
ちなみに要因が3つある3元配置も、力業でできます。こちらのサイトに詳しく出ていますので、参考にされるといいでしょう。
要因が3つであっても、組合せを分解してそれぞれに対して2元配置の分散分析を行い、その後適切に3元配置実験の分散分析表にまとめてしまえば、どうということはないということですね。計算さえ間違えなければ。
エクセルなんで、足し算とか割り算自体は間違えようもないんですが、変動の値や観測された分散比の理屈がわかっていないと、ちょっと勘違いしそうなので注意が必要といったところです。
これをやるなら、(残念ですが)きちんと分散分析の本を読んで、理屈を理解しておいたほうが無難ですね。
優しい本がいっぱい出ていますから、時間をかければ必ず理解できるはず。
ただし私は、結構なケアレスミス人間なので、こうした作業が苦手(笑)。ほぼなんか間違える。
そしてさらに、因子や水準の数が増えて、直行表への割り付けや、特に多元配置の解析などが伴ってくると、もうエクセルだけでは限界です。
やはり統計ソフトが必要になってきますね。
私はMinitabというソフトを使っていますが、手順さえ覚えてしまえば、こうした場合の実験計画からそのデータの分析まで、本当に簡単です。
次回あたり、このMinitabを使った実験計画の流れをご説明したいと思っています。
まとめ
いかがでしたでしょうか? 今回は「実験計画法とは『でたらめ』と解析で成り立っている」と題しまして、その基本的な流れとランダムに行うことの重要性をご説明いたしました。
ランダムに実験してデータの解析。言ってしまえば実験計画法は、ただそれだけの話なのですね。
そして要因と組合せが増え始めた(実験回数が増加してきた)時、いわゆる「直行表」で実験の割り付け方を考えなくてはいけなくなっていきます。
この辺まともに理解して手計算でやるとなると、超たいへんです。ぶっちゃけやりたくない。
多元配置の分散分析をご紹介したあたりでも、エクセルのみでこの先続けていくのが無理っぽいなという感じがしてきてましたよね。
使い勝手がいい物なら何でも有りだと思うのですが、やはり何かしらの統計解析ソフト、ご購入されてはいかがかなと思います。
しかしこうした統計ソフトのなかった時代は、すべての分析も計算機などの手計算でやらなければならなかったわけで、先人たちの苦労を思うと涙が出そうになりますね。
正直、私には無理(笑)。
私のシックスシグマ・メンターも、「大昔、2日かけてやっていた結果解析が、Minitabでほんの数分で出来上がったときには、言葉にできないほどの感動を覚えた」と述懐しておりました。
コンピューターは、統計への門戸を広げてくれたのです。
統計学はもはや、ごく一部の専門的な人だけができるような閉じられたツールではありません。便利なもの・利用できるものをどんどん使って、あなた自身の付加価値を上げていきましょう!
データ解析は、これからの社会の基本スキルになっていきます。この記事が皆さんのお役に立つことを願ってやみません。
今日も読んでいただきましてありがとうございました。
ではまた!
具体例を交えながら、平易な文章で書かれているので分かりやすいです。