主成分分析の注意点
統計学において、多変量解析をおこなう際などに用いられる手法が主成分分析です。集めておいたデータのばらつきを単純にわかりやすく視覚化するための手法として多くの場面で用いられています。今回は、そんな主成分分析について、その詳しい概要に、メリットやデメリット、活用方法、注意点などを徹底的に解説していきます。
主成分分析とは、統計学における多変量解析の手法のひとつです。英語名ではprincipal component analysisと呼ばれ、PCAの略称とともに広く使われています。詳しく説明すると、相関が認められる多数の変数から相関のない少数である主成分と呼ばれる、変数を合成するまでの手法のことです。つまり、相関のある多数から主成分までを合成することで、視覚的にどれだけばらつきが起きているかをわかりやすくするという働きがあります。主成分とは、別名を合成変数と呼び、こうした要約を次元の縮約と表現する場合もあります。主成分分析は、たくさんのデータがあればあるほど力を発揮し、わかりやすい次元に要約していくことが可能なデータ解析の手法です。
主成分分析の基本的な考え方は、たくさんのデータをいくつかの次元(主に1~3次元)に要約することで、データをわかりやすく見通しのいいように解釈できるようにするということです。複数のデータから合成変数を作るわけですので、例えばAとBの変数があった場合、Cという合成変数を作ります。こうすることによってAとBの間のデータを要約できるようになるわけです。しかしながら、これではAとBを完全に拾うことはできないので、主成分分析では、DやEと呼ばれる合成変数も作り出していきます。こうすることによって、まんべんなくデータが要約できるようになるというわけです。このようにできた合成変数のなかで、もっともデータが分散しているものをばらつきの良い主成分と見なし、多くの場合で一番用いられるようになります。
主成分には一つの大きな特徴があります。それは多くの場合、目的変数を設定しておくことが求められる多変量解析にも関わらず、目的変数を設定しないという点です。これが分析方法にも大きく関わってきます。なぜならば、マーケティング上で使用する以上は、明確な数値である目的変数を設定することが必要不可欠だからです。今回は、マーケティングで使用できる主成分分析として、目的を設定した分析方法をご紹介します。
まず、必要な手順は分析の目標化です。例えば、顧客のアンケートや売上をもとに商品のラインナップを設定したり、仕入れをおこなったりすることをこの場合の分析の目標化とします。その場合は、まず複数の答えを用意したアンケートを顧客に取り、更には売上や原価といった多角的なデータを用意しておきます。主成分分析は分析ソフトを用いて、おこなうことが一般的ですが大まかな計算は人為的にも可能です。それぞれ、単位や意味合いが違うデータの標準化と平均値を求めます。そして、その平均値のばらつきが最大となる主成分を算出し、それらを補う形でさらに主成分を増やしていきます。そして、それぞれの主成分を分析したい言葉に戻すことで、主成分分析は完了します。
主成分分析の大きなメリットとなるのは、やはりその扱えるデータの多さです。通常、データが増えれば増えるほど、分析した結果は信用できるものになりますが、その分析の過程で偏りが起こることがあります。しかし主成分分析の場合は、ばらついたデータを何次元も集めることによって、データの幅広さを担保できるようになっています。そうしたことから、より信頼できるデータ分析がおこなえるというのが主成分分析の大きなメリットとなります。
主成分分析にもデメリットは存在します。それは、多量のデータを分析できる反面、一部のデータを捨てなければならないという点です。これは主成分を作る時に発生する問題であり、その性質上、主成分では全てのデータをカバーすることは基本的に不可能になっています。何百、何千と繰り返すことでクリアできる問題ではありますが、そこまでのメリットはないので多くの場合でデータは捨てられます。しかし、その捨てたデータにこそ重要な分析すべき情報が含まれている可能性も否定できません。そういったデータを捨てざるを得ないという点はデメリットと言えるでしょう。
主成分分析は、多変量解析の手法ですが、マーケティングから日常生活まで多くの場面で活用することが可能です。分析方法の項で紹介したマーケティングの場合では、顧客の好みを詳しくリサーチすることによって売上げアップにつなげることが可能になりますし、商品の評価や新たな商品開発などでも主成分分析は活用されています。また、画像処理やAIのシステムでもこの方法は活用されていて、学習した似た色や似た商品から適切なものを判別できるようにすることも可能です。どんな商品やどんな研究開発でも、多変量解析は必要となってくるので、そういった時に主成分分析を用いれば、収集したデータをしっかりと活用した分析ができるようになります。
注意すべき点としては、まず、主成分分析は多くのデータがあってこそ成り立つという点が挙げられます。データが少ない状況下で主成分分析をおこなっても、ばらつきがあまり起こらないので意味を成しません。それでは、主成分分析をやるだけコストの無駄です。また、主成分分析はあくまでウェイトの広い分析をおこなうための手法である、ということにも理解が必要です。こんなデータまであるのかといったレベルまで、分析をおこなうのが主成分分析であり、中心的なデータのみを拾いたいならば主成分分析はあまり適していません。そのような注意点があるので、分析をおこなう際には、しっかりと注意をした上で臨むようにしていきましょう。
今回は、主成分分析について、その詳しい概要からメリット、デメリット、注意点などを徹底的に解説してきました。主成分分析は、とても便利な手法である反面、データが多く必要であったり、一部のデータを捨てる必要があったりということもあります。しかし、データのばらつきから新しい発見を可能とする主成分分析は、マーケティングなどでも必須の分析です。