BusinessAnalysis

データ分析テクニック・Final

In マーケティング by admin

Collaborative filtering

ーザーの好みとアイテムの特性などを使用して、ユーザーが好むアイテムを予測する推薦システムに主に使用される方法です。
ユーザー、アイテムのいずれに基づいてするかによっていくつかの種類に分けられます。

ベースのユーザー/アイテムに基づいてマトリックスを作成し、これに従って、ユーザーの好みを推測する方法であるため、ユーザーやアイテムが増えるほど、計算が複雑になり、速度も遅くなるという欠点があります。



Principal Component Analysis (PCA)

データが複雑になればなるほど、ノイズと計算コストも増加します。
主成分分析の方法は、変数が多く高次元のデータを情報の損失を最小限に抑えながら、低次元のデータ、すなわち、変数の数が小さいデータに圧縮させる方法です。

LinearRegressionDecisionTreeで説明変数の間、多重共線性の問題や、混雑分析の速度改善などのデータの前処理に主に活用されます。
ただし注意すべき点は、分散に基づいて計算するため、変数の単位に影響を受けることができる点(Z-scoreや平準化が必要)とのデータがPCAの主要仮定(直線性、直交性、分散差)を満たしているかチェックしなければならないという点程度があるのですね。



Support Vector Machine

二つの与えられたClass間、最も近い距離を持つSupport Vector間の超平面を見つけるには、新しいデータにClassを付与する分類方法です。
下の図を見れば理解が容易ですね。

与えられたデータをバイナリの分類して出すことにあり、他のアルゴリズムよりも精度が優れているが、データセットの大きさや複雑さに応じ演算速度が遅くなるという欠点があります。
主にテキスト解析(スパム/非スパム、正/不正など)、手書き文字などの画像認識などに使用されます。