多変量解析の注意点
マーケティングの分野でよく使用される多変量解析。これはたくさんの複雑なデータの関連性について調べたい時によく使われる手法ですが、多変量解析ではどのように解析を行い、それによってどんなことがわかるものなのでしょうか。そこでここでは、多変量解析の目的や手順、どんな場面で活用されるのかなどについて解説していきます。
多変量解析とは、複数の変数に関するデータをもとに、変数の関係性を統計で求める技法のことを言います。ちなみに多変量解析という名称は特定の解析手法を指すのではなく、色々な分析をすべてまとめた名称のことを言います。たくさんのデータを取り扱う解析手法は高度な統計学やプログラミングの知識が求められることが多いですが、多変量解析の手法の中にはExcelなど簡単なツールを用いてできる手法もあります。そのため、マーケティング初心者でも比較的取り組みやすい解析方法と言えるでしょう。
多変量解析の目的は要約と予測です。要約とは、複雑な関連性を持ったデータの共通点を洗い出し、データを取り扱いやすくすること、予測はたくさんあるデータの共通点を見つけてそこから未来のことを予測することを言います。
多変量解析はデータ収集・1変量解析・2変量解析・多変量解析という4つのステップで進んでいきます。ここではそれぞれの手順について詳しく解説していきます。
#データ収集
多変量解析はまず解析に使うデータを集めるところから始まります。ちなみにこの際に使うデータの種類は大きく分けると、性別や血液型など足したり引いたりできない変数である質的データと、テストの点数など演算ができる量的データに分かれます。また質的データはさらに、職業や血液型など順序を持たない名義尺度と、長男・次男・三男など演算はできないけれども順序が存在する順序尺度に分類できます。量的データもデータの間隔に意味がある間隔尺度と、データの比率に意味がある比率尺度の2つに分けることができます。このように、多変量解析では大きく分けると4種類のデータを取り扱うことになり、データの種類によって用いる手法も変わります。
#1変量解析(単変量解析)
データが集まったらまず1変量解析の段階で分布状況の確認、外れ値・異常値の処理を行います。データをヒストグラムや箱ひげ図などに記録すると、分布図から明らかに離れた数値が出てきます。データ解析を行うにあたってはそのような数値が本当のデータなのか、それともミスによって発生したデータなのかを判別しなければいけません。外れ値とは分布から大きく外れてしまっている観測値、異常値とは外れ値の中でも測定ミスなどによる値のことを言います。これらを解析の対象から外し、2変量解析へ進みます。
#2変量解析
2変量解析では相関係数の計算と、1変量解析と同じように分布状況の確認を行います。相関係数の計算では、まず測定値の平均値・偏差・分散・標準偏差・共分散を算出しましょう。ちなみに、偏差とは測定値から平均値を引いた値、分散とは偏差の二乗平均、標準偏差とは分散の正の平方根、共分散とは偏差の積の平均のことを言います。そして共分散を各測定値の標準偏差で割ることで相関係数を求められます。最後に1変量解析と同じように外れ値や異常値が無いかどうかを確認して多変量解析へ移行します。
#多変量解析
多変量解析では、先ほど解説したように、要約・予測を行います。手法によって手順が異なるので、多変量解析に関しては次の段落で解説します。
先ほど解説したように、多変量解析とは色々な解析手法をまとめたものを言います。そこで多変量解析に分類される解析手法を見ていきましょう。
#重回帰分析
まず回帰分析とは何も関連性がなさそうなデータから、必要な情報を得る手法のことを言います。そして回帰分析には単回帰分析・重回帰分析があります。単回帰分析とは結果(目的変数)を求めるための計算に必要な変数(説明変数)が1つであるもの、重回帰分析は説明変数が2つ以上あるものを言い、重回帰分析は2つ以上の変数を取り扱うことから計算も複雑になります。そのかわり、重回帰分析は単回帰分析と比べて色々なパターンに柔軟に応用できるので、マーケティング以外にも様々な場面で活用される手法です。
#数量化1類
数量化1類は目的変数と説明変数を用いた関係式を作成することで予測をしたり、各カテゴリーの目的変数に対する説明変数の貢献度や説明変数の重要度を求めたりすることができます。説明変数と目的変数を用いて関数を作成するので重回帰分析と似ていると言われることも多いですが、重回帰分析との違いとしては、数量化1類は質的データ、重回帰分析は量的データを取り扱うということが挙げられます。
#判別分析
グループ分けされているデータを「どういう基準でグループ分けされているのか」という視点で解析し、分類されていないデータがどのグループに所属するか予測する手法です。
#数量化2類
数量化2類は数量化1類と同じように目的変数と説明変数の関係式を作成することから始まります。求められるものは数量化1類と異なり、予測や説明変数・目的変数のカテゴリーの関連性などを求められます。
#主成分分析
主成分分析は要約のために用いられる手法です。変数がたくさん存在している時に、変数の数を1~3程度に絞ることで、データを取り扱いやすくします。ちなみにこのように取り扱う変数の数を減らすことを「次元の縮約」と言います。
#因子分析
アンケートを行った際、記入されている情報には回答者のその時の心理状態が影響していることがあります。このようにデータの中の隠れている因子を予測するのが因子分析です。ちなみに因子分析にはデータの相関関係を説明するための因子を探す探索的因子分析と、因子・観測変数の関係性を検収する確認的因子分析の2種類があります。
マーケティングにおいて、多変量分析は欠かせないものです。例えばアンケートのデータ分析を行ってユーザーがどのような心理で商品を購入しているのかを調べたり、新商品を開発するにあたってユーザーがどんな点に着目して商品を購入しているのかを把握したりするために用いられています。
マーケティングにおいて多変量解析は今や欠かせないものとなっています。しかし、多変量解析を導入する企業の中にはそもそも多変量解析を行う目的を見失ってしまったり、使い方を間違っていてデータが無駄になってしまったりするケースも少なくありません。そのため、しっかり多変量解析でどんなことができるのかを把握し、「データ解析はなんでも解決できる手段」という先入観を持たずに多変量解析に取り組み、マーケティングに役立てましょう。