디지털 마케팅 LAB

패스트캠퍼스 데이터분석 부트캠프 2주차_EXCEL (2) 본문

패스트캠퍼스 데이터분석 부트캠프 14기/주차별 학습기록

패스트캠퍼스 데이터분석 부트캠프 2주차_EXCEL (2)

홍보하swu 2024. 5. 3. 13:00

 

데이터 분석 과정

  • 데이터 분석 기획
    • 비즈니스 이해 및 목표 설정
      ■  비즈니스적으로 어떤 것을 이루고자 하는지
    • 프로젝트 정의
      ■  어떤 데이터를 바탕으로 어떤 것을 예측/측정할 것인지
  • 데이터 수집 및 정제
    • 분석에 필요한 데이터를 어떻게 수집할 것인지
    • 데이터 전처리, 검증
      ■  수집된 데이터의 정합성, 무결성 등을 검증
  • 데이터 분석 모델링
    • 탐색적 데이터 분석(EDA)
      ■  통계량 확인 및 시각화를 통한 데이터의 특성을 파악
    • 모델링
      ■  예측을 위한 수학적, 통계적 모델링
  • 평가 및 결론 도출
    • 모델링을 통해 생성된 결과를 활용하여 결론 도출
    • 성능에 대한 평가
      ■  도메인에 따라, 비즈니스적 요구에 따라 성능의 기준은 달라짐
      ■  상황에 따라 위의 과정을 수정해가며 성능을 개선
  • 분석 결과의 활용
    • 시스템 구현
      ■  주기적으로 업데이트
    • 비즈니스 인사이트
      ■  의사 결정에 도움
      ■  시각화(ex. 대시보드)
    • 서비스에 활용
      ■  모델을 활용하여 서비스에 적용

데이터 분석에 필요한 Mind Set

  • Snorkel & Dive
    • 넓은 시야로 데이터를 바라보다가도 필요한 순간에는 데이터에 숨겨진 의미를 파악하는 수준까지 깊게 파고듦
  • Be Patient
    • 한번에 완벽하게 끝나는 데이터 분석은 존재하지 않으며, 끊임없는 반복의 연속
  • Fun & Fun
    • 때로는 지루하고 고단한 데이터 분석도 더 나은 미래를 위한다는 즐거운 마음으로

 

탐색적 데이터 분석, Exploratory Data Analysis(EDA)
  • 기초적인 통계개념으로 데이터 전체를 파악
  • 데이터의 형질에 대한 도메인 개념 축적
  • 전처리의 방향성 제시
  • 통계량을 통한 집단 특성 파악, 분포 탐색, 상관관계 파악, 결측치/이상치 탐색 등
  • 데이터 탐색 과정의 목적
    • 어떤 변수가 결론에 많은 영향을 미치는지
      ■ 유의미한 변수 탐색
      ■ 변수 간의 독립성 확보
      ■ 의미 없는 데이터 제거 (효율성, 차원 축소)
    • 변수의 분포에 따라 사용할 수 있는 통계적 방법론이 다르다.
      ■ ex. 정규성 검정을 통해 정규 분포를 따르는지 아닌지를 판단 → t-검정 or Mann-Whitney U test, Kruskal-Wallis test 등

 

기초 통계
  • 변량
    • 자료의 수치, 데이터의 값을 의미
  • 계급
    • 변량을 일정한 간격으로 나눈 구간
    • 계급을 정할 때 변량의 최소, 최대를 고려
  • 도수
    • 각 계급에 속하는 변량의 개수
  • 상대 도수
    • 각 계급에 속하는 변량의 비율
  • 도수분포표
    • 주어진 데이터를 계급에 따라 나누어 각 계급에 속하는 도수를 조사한 표
    • 장점: 구간별 분포를 한눈에 알아보기 좋다.
    • 단점: 각 변량의 정확한 값을 생략해 버린다.
    •  히스토그램: 도수분포표를 시각화한 것
  • 평균(=산술 평균)
    • 변량의 합을 변량의 수로 나눈 값

  • 분산 (variance)
    • 변량이 평균에서 얼마나 떨어져있는지를 보기 위한 통계량

  • 표준편차 (standard deviation)
    • 분산의 제곱근
    • 관찰값들이 얼마나 흩어져 있는지를 하나의 수치로 나타내는 통계량
    • 관측된 변량의 스케일을 표준화할 수 있는 좋은 수단

 

  • 확률 변수
    • 일정한 확률을 갖고 일어나는 사건에 수치가 부여된 것
    • 사건마다 부여된 확률값을 변수로 나타낸 것
  • 확률분포표
    • 확률 변수의 값에 대해 확률을 표로 표시한 것
    • 이산형 자료의 확률 분포를 표현하기에 적합한 방식
    • 예시
동전을 10번 던졌을 때 나오는 앞면의 수   1시간 이내에 정류장을 지나가는 버스의 수
0 13 0.0013 0 504 0.0504
1 110 0.0110 1 1544 0.1544
2 450 0.0450 2 2249 0.2249
3 1216 0.1216 3 2273 0.2273
4 2007 0.2007 4 1624 0.1624
5 2497 0.2497 5 991 0.0991
6 2010 0.2010 6 483 0.0483
7 1170 0.1170 7 210 0.0210
8 426 0.0426 8 93 0.0093
9 90 0.0090 9 24 0.0024
10 11 0.0011 10 5 0.0005

 

  • 확률밀도함수
    • 확률 변수의 분포를 나타내는 함수
    • 주로 연속형 자료의 확률 분포를 표현할 때 사용
    • 정규분포와 베타분포의 확률밀도함수

왼쪽이 정규분포, 오른쪽이 베타분포

  • 정규분포
    • 정규분포의 중요성
      ■  많은 분야의 연속형 데이터들이 종모양의 형태를 띤다는 것을 확인 → 실험 오차를 분석하면서 사용하기 시작 → 왜 서로 다른 다양한 상황에서 비슷한 분포가 나타날까?
      ■  중심극한정리 "독립적인 확률변수들의 평균은 정규분포에 가까워진다."
  • 표준정규분포
    • 정규분포 중에서 평균이 0, 표준편차가 1인 정규분포
    • 표준화
      ■  다양한 형태의 정규분포를 표준정규분포로 변환하는 방법
      ■  표준정규분포에 대한 값을 이용해 원래 분포의 확률을 구할 수도 있다.
    • 표준화 예시
      ■  사람의 키 분포를 조사했다고 가정
      ■  조사 결과 평균이 170, 표준편차가 5인 정규분포임을 확인
      ■  한 사람이 있을 때, 키가 175 ~ 180일 확률은?
    • 표준화의 중요성
      ■  다양한 데이터를 균일한 기준으로 비교할 수 있음
      ■  이후 다양한 통계량을 구하는 과정에서 계속 등장

 

  • 모집단
    • 조사 대상이 되는 전체 집합
  • 모수
    • 모집단에 대한 요약된 수치
    • 값에 대한 평균이나 비율 등
  • 표본
    • 모집단을 대표하는 모집단의 일부
  • 통계량
    • 표본에 대한 수치적 요약
    • 통계량을 바탕으로 모수를 추정하는 것 추론통계

 

  • 표본 추출의 목적
    • 표본 데이터를 바탕으로 모집단을 추정하기 위해서
    • 표본이 커질수록 모평균에 가까워진다.

  • 신뢰도
    • 값이 알맞은 모평균이라고 믿을 수 있는 정도
    • 주로 95%, 99% 사용
  • 신뢰구간
    • 모평균의 추정 구간
    • 신뢰도에 따라, 표본의 수에 따라 정해진다.

 

기술 통계학
  • 기술통계
    • 데이터의 간결한 요약 정보
    • 수치적인 통계량 또는 시각화
    • 데이터의 특징을 파악하는 관점 (EDA 단계에서 주로 사용)
  • 기초통계량
    • 중심경향성
      ■  말그대로 중심으로 모이는 경향
      ■  데이터 분포의 중심을 보여주는 값 방법
      ■  중심경향성을 나타내는 통계량: 최빈값, 중앙값, 평균값(산술평균 - 자료의 값을 모두 더해서 자료의 수로 나눈 값 / 가중평균 - 자료의 중요도에 따라 가중치를 부여한 평균 / 기하평균 - 성장률 등 이전 시점에 대한 비율에 대한 평균을 구할 때 유용)
    • 퍼짐정도
      ■  자료가 얼마나 흩어져있고 얼마나 모여있는지
      ■  데이터 분포의 중심을 보여주는 값 방법
      ■  퍼짐정도를 나타내는 통계량: 분산, 표준편차, 범위, IQR(제3사분위수 - 제1사분위수)
    • 왜도
      ■  분포의 좌우 비대칭성 정도
      ■  분포가 정규분포에 비해 얼마나 비대칭적인지를 나타내는 지표
    • 첨도
      ■  분포의 뾰족한 정도
      ■  평균을 중심으로 얼마나 가까이 몰려있는지 나타내는 지표
      ■  양쪽 꼬리의 두터움 정도를 나타내는 값
      ■  편차가 큰 데이터가 많을수록 커짐 = "이상치에 영향을 많이 받음"
  • 기술 통계학
    • 요약 통계량, 그래프 표 등을 이용해 데이터를 정리, 요약하여 데이터의 전반적인 특성을 파악하는 방법
    • 표, 그래프 등을 활용해 데이터를 시각적으로 표현하고 통계량 등으로 수치를 요약

 

추론 통계학
  • 모집단
    • 아직 가지고 있지 않은 모르는 데이터를 포함한 모든 데이터 = 관심의 대상이 되는 집단
  • 표본
    • 모집단의 전체 데이터를 분석하기 위해 수집된 일부 데이터
  • 추론 통계학
    • 데이터가 모집단으로부터 나왔다는 가정하에 모집단으로부터 추출된 표본을 사용하여 모집단의 특성을 파악하는 방법

 

가설 검정

 

통계적 추론의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정

  • 귀무 가설(H0, 영 가설)
    • 기본
      • 적으로 참으로 추정되며 처음부터 버릴 것으로 예상하는 가설(차이가 없거나, 의미 있는 차이가 없는 경우)
  • 대립 가설(H1, 연구 가설)
    • 귀무 가설에 대립하는 명제
    • 보통 독립 변수와 종속 변수 사이에 어떤 특정한 관련이 있다는 결과가 도출됨
    • 귀무가설을 기각하는 반증의 과정을 거쳐 참이라고 받아들여질 수 있음
    • 경우에 따라 양측검정('≠')과 단측검정('<' or '>')으로 나뉨
  • p-value(유의 확률): 가설 검정의 기준
    • 귀무 가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 '같거나 더 극단적인' 통계치가 관측될 확률
    • 예시
      ■  귀무 가설: 돼지 10,000마리의 평균 체중은 100kg이다.
      ■  귀무가설이 참인지 증명하기 위해 무작위로 돼지 100마리를 선정해 평균 체중 측정 (100마리씩 여러 번 표본 선정)
      ■  표본에 따라 다양한 평균값이 나올 수 있음
      ■  하지만 전체 평균이 진짜 100kg이라면 표본의 평균값도 100kg 근처에서 형성될 가능성이 큼
      ■  전체 평균이 진짜 100kg일 때 표본의 평균이 30kg가 나올 확률은 5% 미만
      ■  그런데 우리가 추출한 표본의 평균이 30kg가 나왔다면?
      ■  돼지 10,000마리의 평균 체중은 100kg이라는 귀무 가설을 기각함
      ■  이 때 30kg가 나오거나 30kg보다 더 극단적인 평균이 나올 확률이 p-value
    • p-value를 사용할 때 주의사항
      ■  관계나 집단들 사이에 차이가 생겨나는 것이 우연한 것인지, 변수에 의한 것인지 여부를 밝히는 것
      ■  효과나 변화의 정도, 관계의 강도나 크기 등을 설명하는 것은 아님
      ■  상관 계수 r이나 결정 계수 r2 등의 지표를 함께 활용해 분석 결과를 더 정확히 표현할 수 있음

 

T-test

 

두 집단(또는 한 집단의 전/후)의 평균에 통계적으로 유의미한 차이가 있는지를 검정

  • t-test 시행 단계
    • 변수(집단) 선택 F-검정 t-test 결과 해석
    • 적합한 t-test 방법을 선택하기 위한 F 검정 필요
  • 귀무가설
    • 두 집단의 평균에 유의미한 차이가 없다. (p > 유의수준)
  • 대립가설
    • 두 집단의 평균에 유의미한 차이가 있다. (p < 유의수준)

 

F-검정

 

두 집단의 분산에 통계적으로 유의미한 차이가 있는지를 검정

  • 귀무가설
    • 두 집단의 분산에 유의미한 차이가 없다. (p > 유의수준)
  • 대립가설
    • 두 집단의 분산에 유의미한 차이가 있다. (p < 유의수준)
  • P-value가 0.05보다 크면 두 집단의 분산에 유의미한 차이가 없고( 등분산 가정 t-test), 0.05보다 작으면 두 집단의 분산에 유의미한 차이가 있다(  이분산 가정 t-test)

 

회귀분석
  • 회귀분석
    • 변수 사이의 모형을 구한 뒤 적합도를 측정해내는 분석 방법
    • 종속변수: 결과 / 독립변수: 종속변수를 설명하기 위한 변수
    • 종류
      ■  선형 회귀 분석: 함수식이 선형 함수 식일 때
      ■  단순 선형 회귀 분석: 함수식이 선형 함수 식이고, 독립변수가 한 개일 때
      ■  다중 선형 회귀 분석: 함수식이 선형 함수 식이고, 독립변수가 여러 개일 때
      ■ 선형 회귀 분석: 함수식이 선형 함수 식이 아닐 때
    • 장점: 
      ■  대부분의 경우 결과를 설명하는 요인이 매우 많다.
      ■  둘 이상의 변수 간의 관계를 보여주는 통계적 방법
      ■  종속변수에 영향을 미치는 독립변수의 영향력 판단 가능
    • 주의점: 
      ■  인과관계를 설명해주지는 못한다.
  • 공분산

 

  • 2개의 확률변수의 선형 관계를 나타내는 값
  • 공분산의 부호: 
    ■  '-': 음의 상관관계
    ■  0: 상관관계 없음
    ■  '+': 양의 상관관계
  • 주의점:
    ■  두 변수가 아무 관계 없는 독립 변수일 때 "공분산 = 0"
    ■  "공분산 = 0" 반드시 두 변수가 독립적인 것은 아님

 

 

  • 피어슨 상관계수

  • 기준은 상황에 따라 조금씩 다름
  • 절대값이 0.5~0.7 이상이면 강한 상관관계
  • -0.2 ~0.2 정도인 경우 상관관계가 약하거나 없다고 해석

 

 

 

 

 

  • 단순 선형 회귀 분석
    • 독립 변수가 변할 때, 종속 변수 값이 어떻게 변하는지를 가장 잘 설명해주는 직선을 찾아 그 직선이 x와 y의 관계를 얼마나 설명하고 있는지 분석하는 방법
      y와 x사이의 1차 방정식 구하기
    • 평가와 해석
      ■  결정 계수는 0 ~ 1값을 가지며 1에 가까울수록 회귀 모형이 실제 값을 잘 설명함
      ■  F 값이 0.05 미만이면 이 회귀 모형이 유의미하므로 사용 가능함
      ■  y = ax + b에서 Y 절편은 b값을, X1값은 a(기울기)를 뜻함
  • 다중 선형 회귀 분석
    • 독립 변수가 2개 이상일 때 독립 변수들과 종속 변수 간의 관계를 파악하는 분석
    • 평가와 해석
      ■  조정된 결정 계수는 0 ~ 1값을 가지며 1에 가까울수록 회귀 모형이 실제 값을 잘 설명함
      ■  F 값이 0.05 미만이면 이 회귀 모형이 유의미하므로 사용 가능함
      ■  Y절편 및 각 독립 변수의 P 값이 0.05 보다 작은 변수들이 종속 변수에 영향을 미칠 것으로 기대되는 변수들

 

시계열 데이터 분석

 

시간의 흐름에 따라 발생된 데이터를 분석하는 기법

  • 정상성
    • 추세나 계절성을 가지고 있지 않으며, 관측된 시간에 무관한 성질
    • 비정상 시계열 데이터의 정상 시계열 데이터화
      대부분의 시계열 데이터는 비정상 시계열 데이터인데, 비정상 시계열 데이터인 상태로는 분석이 어렵기 때문에
      차분이나 다른 방법을 활용해 비정상 시계열 데이터를 정상 시계열 데이터로 변환해 분석하기도 함

 

 

■  (a), (c), (e), (f), (i): 추세

■  (d), (h): 계절성
■  (b), (g): 정상 시계열 데이터

 

 

 

 

 

 

 

 

  • 지수 평활법(Exponential Smoothing)
    • 현재 시점에 가까운 시계열 자료에 큰 가중치를 주고, 과거 시계열 데이터일수록 작은 가중치를 주어 미래 시계열 데이터를 예측하는 기법
    • 단순 지수 평활법(Single Exponential Smoothing)
      ■  미래의 예측 값 = 과거의 실제 값 X α + 과거의 예측 값 X (1- α)
      ■  α = 실제값을 반영할 가중치(0 ~ 1사이의 값)

    • FORECAST.ETS : 엑셀에서 사용할 수 있는 지수 평활법 관련 예측 함수
      ■  비교적 뚜렷한 계절성이 있는 데이터 예측에 사용할 수 있는 함수
      ■  =FORECAST.ETS(target_datevaluestimeline, [계절성주기], [누락데이터처리], [중복시계열처리])
      ■  target_date: 예측할 날짜
      ■  values: 알고 있는 과거의 실제 값
      ■  timeline: 과거 날짜
      ■  계절성 주기: 인수가 2보다 클 경우 - 해당 주기로 데이터를 예측
                               인수가 0일 경우 - 주기가 없다고 가정하고 선형 예측
                               인수가 1이거나 비어 있을 경우 - 엑셀에서 자동으로 계절성을 예측

      ■  누락 데이터 처리: 인수가 1 또는 비어있을 경우 - 누락된 데이터를 주변 데이터의 평균으로 계산
                                       인수가 0일 경우 - 누락된 데이터를 0으로 계산

      ■  중복 시계열 처리: 중복된 시계열이 있을 경우 중복된 값을 어떻게 처리할 지 결정
                                        1 또는 빈칸 - AVERAGE (평균으로 반영)
                                        2 - COUNT (빈칸이 아닌 숫자만 개수를 세서 반영)
                                        3 - COUNTA (빈칸이 아닌 모든 값의 개수를 세서 반영)
                                        4 - MAX (최대값만 반영)
                                        5 - MEDIAN (중간값으로 반영)
                                        6 - MIN (최소값만 반영)
                                        7 - SUM (합계를 반영)
  •