「調査・リサーチ活動の進め方」 酒井 隆 2002年 日経文庫
専門家に依頼しても、最終的には(調査を発注した)自己責任の意識と、それを支える知識が必要になります。この本は、そのための初心者向けの入門書です。全ての調査手法を一冊にまとめたというのが特徴でしょう。そして、初心者には説明不足で何が何だか解らず、調査について少しは知っている人には、読むべき知見の無い本になっています。
著者は統計のド素人です。度数分布の説明では、「学校の成績の度数分布は、正規分布と考えられています」と書くのです。学業評点の分布が多峰分布を示すこと。正規分布でないことが、日本の統計技術の“飛躍の起爆剤”の一つとなったことは歴史上の事実です。
以下の、この本を読みながら、調査と分析について再確認したこと、気づいたことを述べます。
調査を成功させるためには、「調べた内容は、何を測っているのか、何が解るのかを検討します(妥当性)」「測った結果は、信頼がおけるのどうかを確認します(信頼性)」と述べています。これは当り前ですが、大切なところですネ。
「調査対象(調査の母集団)が決まれば、リストの有無を確認します」「リストに調査対象の全員が記載されていれば統計的な標本調査が可能です」。成程その通りですが、リストが作成できる母集団は殆どありません。つまり、統計調査は最初から破綻していることを白状しちゃってます。尤も、だからデータマイニングが出て来たんですが・・・。
既存の調査結果を利用する時には、「複数の調査結果を部分を集めて一つの情報とする場合、調査概要の差異に留意します」としています。信頼できるな知見を得るためには、シングルデータソースを用いるしかありません。
フォーカス・グループインタビューは、「インタビュアーが特定の話題に焦点をあてて、対象者がディスカッションを展開するようにします」とあります。あるものが本来の姿を失った時に、本来の姿に取り戻す方法が2つあります。一つは、あるべき姿を訴えるのではなく、新しい手法であるかのように偽装する方法です。もう一つの行き方は、全く別の手法を推奨する(ように見せて元に戻す)ことです。どちらにしても、本来の姿を見つめ直すなんて、真っ当な方法はあり得ません。大騒ぎだった、WEB2.0が正にこの手口でした。でも、ほんの少しでも真っ当にしようとしただけなのに失敗しました。本来の姿であることは至難の業です。だから、いつも口先だけ新しい、下らない手法が目白押しです。
ミステリー・ショッパーに関しては、「自社を対象とした調査を行う際は、調査開始前に、従業員に調査の実施を告知します」とあります。こういう倫理観は是非とも必要です。調査の到達点は、調査結果ではなく、現場の問題解決です。そのためには、社内の信頼関係が不可欠になるからです。
「実験計画法は、効果の加法性をを前提にしています」。実験計画法の直交表が、「全ての組合せよりも少ない実験回数で要因の効果を調べることができる」のです。著者は、これについて、以下のような例を挙げて説明しています。この例を見る限り、『加法性』は、要因相互間の作用を扱えないことが明らかです。であるならば、分散分析も多変量解析も全面否定されるべきものなのです。この著者は、そのことを理解してはいないでしょうが・・・。
=例:ペットボトルの販売量=
(実験結果)
平均:30本
広告が多い:35本
広告が少ない:25本
価格が標準:20本
価格が特価:40本
色が透明:33本
色が青:27本
↓
(単要因効果の推定)
多い広告の効果=35-30=5
・・・
↓
(複要因効果の推定)
広告が多い/特売/青の効果=42本
・・・
要因間の関係を明らかにするには、「ある結果を生み出す複数の要因を統制することで、因果関係を解明し、要因ごとの効果や要因間の相乗効果を調べます」というのが、統計学の理屈です。ですが、分散分析や相関分析を利用しても多次元の要因間の関係は、厳密には解析できません。
多変量分析は、1)2変数間の分散などの、3体間以上の関係を捨象した2元配置で変数間の関係を表現し、2)そのマトリクス演算を行い、3)演算結果の一部を分析結果とします。ですから、元の多次元の情報量は圧縮され減衰しています。その結果が、元の現実を妥当に描写している保証はありません。図1は、このことを、相関分析の場合で示したものです。

一方で、多次元解析(生禿の用語法です)といえるのは、木型集計(多重クロス集計)だけです。何故なら、元の情報の損失は無いと言えるからです。例えば、要因数が20あっても、20重クロス集計をすれば、情報の減衰はありません。図2を見て下さい。多次元立体で描かれた元情報が、情報損失無く多次元クロス表となることがご理解頂けると思います。

但し、要因(変数)の並べ方(並べる順番=見え方)は一通りに決める必要があります。多次元の立体を『見える化』するためには、2次元にする必要があります。その意味では「見え方」は線形化され、情報は限定された「見え方」になって、その意味では情報が失われています(それが、この場合の線形化の意味です)。ですが、今のところ、人間にはこの方法しかありません。
この本でも、「因果関係を調べたい時、原因と考えられる項目の項目の頻度を母数として、結果と思われる項目カテゴリーの構成比を計算します」と述べています。全くその通りです。生禿の口癖ですが、木型集計こそが『ホンモノの分析結果』なのです。最終的には、誰にでも解る表現になります。ですが、この形にする(=変数の並べ方を決める)には、通常、決定木から出発して、主成分分析の因子負荷の潜在相関解析を経て、パス解析を行っています。多段階の多変量解析により構造仮説を作り、木型集計でそれを確かめるという手順をとります。今時は、共分散構造分析という、論理思考能力が欠如していても、それらしい結果が出せるお手軽な手法もあります。共分散構造分析は大雑把に言えば、上記の多段多変量を、滅茶苦茶手抜きした手順で計算するものです。