データ分析テクニック2

In マーケティング by admin

Decision Tree

表的な指導の学習(Supervised Learning)の方法論であり、数値型/カテゴリ型従属変数の予測/分類のために使用します。
White box式モデルであるため、結果をより直感的に理解できるという点、計算方法が簡単であるという長所があるが、過適合化のため、他のモデルに比べて正確さが低い方です。
Logistic Regression

Random Forest

前からも分かるように多数の意思決定ツリー(DecisionTree)を作った後、最頻値を基準し、予測/分類するアルゴリズムです。
Bagging/ Bootstrap Aggregating方法を使用して、意思決定ツリーノードの生成のBiasを減らすため、決定ツリーの過適合化の問題を解決する代替として使用しています。


K-means Clustering

師なし学習の代表的な分析方法で、与えられたデータを類似したK値の群集にまとめるアルゴリズムです。群集を分ける方法によって様々な種類に区分されます。
データの理解の段階である(EDA、exploratory data analysis)段階から顧客のセグメンテーション、イメージ分割など広範囲に適用可能です。

ただし、K値を事前に指定しなければならないという点、理想値に敏感に反応する点と 矩形ではなく、群集を見つけるには適切ではないという欠点があります。