새싹/TIL

[핀테커스] 230830 데이터분석 엑셀파워쿼리 통계 기본 지식

jykim23 2023. 8. 30. 11:29

엑셀을 사용할 때 알아두어야 할 통계 지식

이론

1. 통게 : '현상'을 나타내고 있는 data로부터 유용한 정보를 도출하여 적절한 의사결정을 하게 해주는 것

 

 

모집단/전수조사 -> 표본/표본조사

유의수준(오차한계) 5% 신뢰수준 95%

표현 예시 : 유의수준 5% 범위 내에서, 대한민국 국민은 47.2%가 **당을 지지한다.

 

2. 표본으로 전체를 설명하는 것을 '검정 통계학'

 

가설 검정(모집단의 모수에 대한 점

 - 귀무 가설 : 기존의 사실과 차이가 없다, 같다

 - 대립 가설 : 귀무 가설의 반대.

 

예시 : <무죄추정의 원칙>

처음에 '범죄자는 범인이 아니다.' 라는 귀무가설을 세우고

그 귀무가설을 기각할 수 있는 '범죄자는 범인이다'를 입증할 수 있는 자료를 모으는 것

 

 

 

3. 1종 오류 vs 2종 오류

1종 오류 : 귀무가설일 참인데 기각하는 경우

2종 오류 : 귀무가설이 거짓인데 기각하지 않은 경우

 

P-Value : 1종 오류를 범할 확률

 

핵심내용 키워드

모집단, 전수조사

표본, 표본조사

유의수준 (오차한계) : 5%

신뢰수준 : 95%

가설 (귀무가설, 대립가설)

P-Value < 0.05, 대립가설 채택

 

 

 

엑셀을 활용한 실습

 

기술통계

데이터 > 데이터 분석 > 기술 통계법

 

예시

 

 

출력

 

개념은 천천히 공부하자.

 

중심을 의미하는 개념 : 산술평균, 중앙값, 최빈값

편차 : 표준편차, 분산의 이해 - 편차, 편차의 제곱(음수 제거 등), 분산, 표준 편차

왜도 : 데이터가 대칭이 아닌 정도로 분포의 특징 이해하기 - 데이터가 대칭을 이룰 수록 왜도 값은 0, 데이터가 한쪽으로 치우칠 수록 양수 또는 음수

첨도: 데이터의 분포를 이해하는또 다른 특성 - 완전히 정규 분포를 따르는 데이터의 첨도값은 0, 데이터의 꼬리의 모습에 따라 양수 또는 음수

 

 

히스토그램

 

설정 예시

 

 

출력 예시

 

목표 : 철스크랩 열연 냉연 원자재 중에 가장 가격변동성이 덜한 원자재를 선택

중의 : 현업에서 절대 이렇게 하지 않는다.

열연 선택

강사님 참고 해석 : 표준편차가 작으면 좋다
그러나 평균과 표준편차를 봐야한다.
평균이 291이고 표준편차가 70
평균이 711이고 표준편차가 91
경우 전자가 표준편차가 낮지만 평균의 크기 차이가 크다.
이럴때 변동계수(표준편차/평균)을 고려해야 한다.

 

 

 

 

 

상관분석

비교적 쉽게 결론 도출이 된다.

상관관계는 인과관계가 아니다. 그러나 인과관계를 고려할 수 있다.

 

국가통계포털 - 스트레스 인지율 데이터

 

분산형 그래프(상관관계 표) : 삽입 > 분산형 또는 거품형 차트 삽입 > 분상형

   생성된 분상형 그래프에서 추세선 추가

 

상관 분석 : 데이터 > 데이터 분석 > 상관 분석

 

생성 예시

 

 

 

인과관계의 특징

공변성 : 두가지 변수가 "함게 움직이는" 경향

시간적 선후관계 - 시간적으로 어느 하나가 먼저 변화 했을 떄 다른 하나가 뒤따라 변화하는 관계

비허위성 - 공변성과 선후관계의 양상이 제 3의 다른 변인으로 설명될 수 없어야 함

 

 

 

회귀 분석

결과변수/종속변수(Y) - 예시 : 행복 점수

립변수/원인변수(X)  - 예시 : 1인당 GDP

 

잘 모르겠으면 문장을 만들어보자.

행복 점수가 높으면 1인당 GDP가 올라간다? 이상한데?

1인당 GDP가 높으면 행복 점수가 올라간다? 이게 더 그럴싸 한데?

회귀분석 설정

결정계수

유의한F, P-값

회귀분석 잔차 검증

 오차 - 모집단에서 얻은 회귀식을 통해 얻은 예측값과 관측값의 차이

 잔차 - 표본집단에서 얻은 회귀식을 통해 얻은 예측값과 관측값의 차이

 잔차 = 관측값 - 예측값

해석 예시) 잔차의 합이 0에 수렵해야 괜찮은 모델

 

예측치 행복 점수 = (1인당GDP 계수)*X + (Y절편 계수)

계산식을 외우거나 매번 계산해야하는게 아니라 이렇게 계산되는구나~를 확인하자.

어렵다. 임의의 국가의 GDP를 입력하여 행복접수 예측값을 구해볼 수도 있다.

잔차 출력의 값을 구하는 것이다.

예측값이 계산되는 방법

 

 

다중 회귀분석

차원의 저주 : https://www.youtube.com/watch?v=EXHR2-hECRM

 

예측치 행복 점수 엑셀수식 : =$L$19*E3+$L$20*F3+$L$21*G3+$L$22*H3+$L$18

변수를 1개만 넣었을 때보다 예측지가 더 정교해졌다. 변수를 계속 추가하면 어느순간 차원의 저주가 발생한다고 한다.

잔차 출력과 동일하면 성공