9.1.1 데이터 크기 조정
원시 데이터의 크기 조정을 통해 개임과 샘플 간에 데이터를 더 비교할 수 있다.
9.1.2 속성 간의 상관관계
-corr()을 사용해 상관 행렬을 생성하고 변수 간의 이변량 검사를 위해 seaborn을 사용해 시각화한다.
9.1.3 브랜드별 종합 평균 등급
주성분 분석(PCA): 데이터의 선형 관계를 포착하는 성분이라고 불리는 선형 방정식의 항으로 변수 집합을 재계산한다.
9.2.1 PCA 예
먼저 간단한 데이터셋으로 PCA를 탐색해 무슨 일이 일어나고 있는지에 대한 직관을 살펴보고 발전시킨다.
무작위 벡터 xvar를 새로운 벡터 yvar에 복사하고 데이터의 절반을 대체해 상관관계가 높은 데이터를 생성한다. 이 절차를 반복해 yvar에서 zvar를 만든다.
swarmplot()을 사용해 동일한 값에 있는 포인트 수를 확인할 수 있도록 데이터를 시각화한다.
=> xvar는 yvar와 상관관계가 높다는 것을 확인할 수 있다.
x,y,z var간의 상관관계를 확인한다.
=> xvar는 yvar와 상관관계가 높고, zvar와 상관관계가 적으며, yvar는 zvar와 강한 상관관계를 가짐을 알 수 있다.
sklearn.decomposition 라이브러리의 PCA()를 이용해 PCA를 수행한다.
=> 첫 번째 성분은 설명 가능한 선형 분산의 62%를 차지하고, 두 번째 성분은 27%, 세 번째 성분은 11%를 차지함을 알 수 있다.
성분과 변수의 관계를 알아보기 위해 회전 행렬을 확인한다.
=> 성분1은 모두 같은 방향, 성분2는 x와 z이 서로 다른 방향, 성분3에서는 yvar를 제외한 다른 두 변수가 유사하고 yvar가 고유하다는 잔차 분산을 볼 수 있다.
9.2.2 PCA 시각화
9.2.3 브랜드 평가를 위한 PCA
9.2.4 브랜드의 지각도
먼저 groupby()를 사용해 위에서 찾은 브랜드별로 각 형용사의 평균 등급을 구성한다.
PCA로 변환된 평균 등급의 행렬도는 처음 2개의 주성분과 관련한 브랜드의 위치를 보여주는 해석 가능한 지각도를 제공한다.
=> 이를 통해 데이터에 대한 질문과 답변을 내릴 수 있다. 기업의 전략적 목표에 따라 어떻게 브랜드를 포지셔닝할 것인지 살펴볼 수 있다. (특정 브랜드와 비슷한 방향으로 가기 위해서는 어떻게 해야하는지, 어떤 브랜드도 자리잡지 않은 차별화된 공간을 지향할 것인지)
Q1. 브랜드 E와 C의 차이에 대해 알고자 한다면?
=> E가 '할인'과 '재미'에서 C보다 상대적으로 강하다는 것을 보여준다.
Q2. 위치를 지정하는 방법은?
격차가 해당 4개 브랜드의 평균을 대략적으로 반영한다고 가정할 때, 브랜드 행의 평균을 찾은 다음 E와의 차이를 취함으로써 구할 수 있다.
=> 이는 E가 '최신'과 '재미'에 대한 강조를 줄이면서 성과에 대한 강조를 증가시킴으로써 격차를 타깃으로 할 수 있음을 의미한다.
여러 차원에서 여러 브랜드를 비교하려는 경우 데이터의 변동을 설명하는 처음 2~3개의 주성분에만 집중하면 도움이 될 수 있다.
각 주성분이 데이터의 변동을 얼마나 설명하는지 보여주는 스크리 그림을 사용하면 집중할 성분 수를 선택할 수 있다.
9.2.5 지각도에 대한 주의
주의사항1. 집계 수준과 유형을 신중하게 선택해야 한다. 집계도를 해석하기 전에 전체 데이터와 집계 데이터의 차원이 유사한지 확인해야 한다.
주의사항2. 관계는 엄격하게 제품 범주와 테스트되는 브랜드 및 형용사와 관련이 있다. 즉, 새로운 브랜드가 시장에 진입하면 위치가 크게 바뀔 수 있음을 유의해야 한다.
주의사항3. 단일 형용사에 대한 브랜드의 강점을 차트에서 직접 읽을 수 없다. 위치는 절대적이지 않은 상대적인 것이다.
탐색적 요인 분석(EFA): 설문조사와 심리평가에서 구성체 사이의 관계를 평가라는 기술군.
9.3.1 기본 EFA 개념
-요인 행렬과 원시 변수와의 관계.
-PCA와는 달리 매니페스트 변수 측면에서 최대한 해석 가능한 솔루션을 찾으려고 한다.
-일반적으로 각 요인에 대해 소수의 적재는 매우 높고 해당 요인에 대한 다른 적재는 낮은 솔루션을 찾으려고 한다.
9.3.2 EFA 솔루션 찾기
=> 3요인 솔루션은 '가치'와 '리더' 요소를 유지하고 '최신' 및 '트렌디'에 강하게 적재되는 명확한 '최신' 요소를 추가한다.
9.3.3 EFA 로테이션
일반적으로 기본값은 상관관계가 0인 요인을 찾는 것이다(varimax 회전 사용). EFA는 기본 차원에 중점을 두는 반면 PCA는 데이터의 차원 변환에 중점을 둔다.
그러나 상관 요인을 허용할 수도 있다. => 비스듬한 회전(rotation='oblimin')
추정된 잠재 요인 간의 관계를 보여주는 요인 상관 행렬을 확인할 수 있다.
=> 요인1(가치)은 요인3(최신)과 음의 상관관계(r=-0.41)가 있으며, 본질적으로 요인2와는 상관관계가 없다(r=0.13).
클러스터 맵을 사용해 항목 요소 관계를 시각화할 수 있다.
9.3.4 브랜드에 요인 점수 사용
요인 구조를 추정하는 것 외에도 EFA는 각 관찰에 대한 잠재 요인 점수를 추정한다.
요인 점수는 transform() 메서드를 사용해 FactorAnalyzer() 객체에서 계산하며 별도의 데이터프레임으로 저장할 수 있다.
=> 결과는 각 요인과 브랜드에 대한 각 응답자의 추정 점수이다.
브랜드의 전체적인 위치를 찾기 위해 groupby()를 사용해 브랜드별로 개별 점수를 집계한다.
클러스터 맵을 통해 브랜드별 점수를 그래프로 표시한다.
=> 이처럼 항목이 기본 구성체와 관련된 경우 EFA는 변수를 집계해 더 간단하고 해석가능한 잠재 변수를 생성함으로써 데이터 복잡성을 줄인다.
다차원 척도법(MDS): 데이터의 저차원 표현을 찾는데도 사용할 수 있는 제품군.
거리 행렬(유사성 행렬)을 사용하여 항목 간에 관찰된 모든 유사성을 가장 잘 보존하는 저차원 지도를 찾으려고 한다.
MDS.fit_transform()의 결과를 좌표로 두고 scatter()하면 다음과 같이 시각화할 수 있다.
9.4.1 비측도 MDS
9.4.2 저차원 임베딩을 사용한 시각화
다음과 같은 비선형 차원 축소 도구를 이용해 고차원의 데이터를 시각화할 수 있다.
t-SNE
UMAP
=> UMAP은 더 빠르고 클러스터를 더 '축소'하는 경향이 있다.
다양한 분석도 조사 방법의 비교