엑셀을 사용할 때 알아두어야 할 통계 지식
이론
1. 통게 : '현상'을 나타내고 있는 data로부터 유용한 정보를 도출하여 적절한 의사결정을 하게 해주는 것
모집단/전수조사 -> 표본/표본조사
유의수준(오차한계) 5% 신뢰수준 95%
표현 예시 : 유의수준 5% 범위 내에서, 대한민국 국민은 47.2%가 **당을 지지한다.
2. 표본으로 전체를 설명하는 것을 '검정 통계학'
가설 검정(모집단의 모수에 대한 점
- 귀무 가설 : 기존의 사실과 차이가 없다, 같다
- 대립 가설 : 귀무 가설의 반대.
예시 : <무죄추정의 원칙>
처음에 '범죄자는 범인이 아니다.' 라는 귀무가설을 세우고
그 귀무가설을 기각할 수 있는 '범죄자는 범인이다'를 입증할 수 있는 자료를 모으는 것
3. 1종 오류 vs 2종 오류
1종 오류 : 귀무가설일 참인데 기각하는 경우
2종 오류 : 귀무가설이 거짓인데 기각하지 않은 경우
P-Value : 1종 오류를 범할 확률
핵심내용 키워드
모집단, 전수조사
표본, 표본조사
유의수준 (오차한계) : 5%
신뢰수준 : 95%
가설 (귀무가설, 대립가설)
P-Value < 0.05, 대립가설 채택
엑셀을 활용한 실습
기술통계
개념은 천천히 공부하자.
중심을 의미하는 개념 : 산술평균, 중앙값, 최빈값
편차 : 표준편차, 분산의 이해 - 편차, 편차의 제곱(음수 제거 등), 분산, 표준 편차
왜도 : 데이터가 대칭이 아닌 정도로 분포의 특징 이해하기 - 데이터가 대칭을 이룰 수록 왜도 값은 0, 데이터가 한쪽으로 치우칠 수록 양수 또는 음수
첨도: 데이터의 분포를 이해하는또 다른 특성 - 완전히 정규 분포를 따르는 데이터의 첨도값은 0, 데이터의 꼬리의 모습에 따라 양수 또는 음수
히스토그램
목표 : 철스크랩 열연 냉연 원자재 중에 가장 가격변동성이 덜한 원자재를 선택
중의 : 현업에서 절대 이렇게 하지 않는다.
강사님 참고 해석 : 표준편차가 작으면 좋다
그러나 평균과 표준편차를 봐야한다.
평균이 291이고 표준편차가 70
평균이 711이고 표준편차가 91
경우 전자가 표준편차가 낮지만 평균의 크기 차이가 크다.
이럴때 변동계수(표준편차/평균)을 고려해야 한다.
상관분석
비교적 쉽게 결론 도출이 된다.
상관관계는 인과관계가 아니다. 그러나 인과관계를 고려할 수 있다.
국가통계포털 - 스트레스 인지율 데이터
분산형 그래프(상관관계 표) : 삽입 > 분산형 또는 거품형 차트 삽입 > 분상형
생성된 분상형 그래프에서 추세선 추가
상관 분석 : 데이터 > 데이터 분석 > 상관 분석
인과관계의 특징
공변성 : 두가지 변수가 "함게 움직이는" 경향
시간적 선후관계 - 시간적으로 어느 하나가 먼저 변화 했을 떄 다른 하나가 뒤따라 변화하는 관계
비허위성 - 공변성과 선후관계의 양상이 제 3의 다른 변인으로 설명될 수 없어야 함
회귀 분석
결과변수/종속변수(Y) - 예시 : 행복 점수
립변수/원인변수(X) - 예시 : 1인당 GDP
잘 모르겠으면 문장을 만들어보자.
행복 점수가 높으면 1인당 GDP가 올라간다? 이상한데?
1인당 GDP가 높으면 행복 점수가 올라간다? 이게 더 그럴싸 한데?
결정계수
유의한F, P-값
회귀분석 잔차 검증
오차 - 모집단에서 얻은 회귀식을 통해 얻은 예측값과 관측값의 차이
잔차 - 표본집단에서 얻은 회귀식을 통해 얻은 예측값과 관측값의 차이
잔차 = 관측값 - 예측값
해석 예시) 잔차의 합이 0에 수렵해야 괜찮은 모델
예측치 행복 점수 = (1인당GDP 계수)*X + (Y절편 계수)
계산식을 외우거나 매번 계산해야하는게 아니라 이렇게 계산되는구나~를 확인하자.
어렵다. 임의의 국가의 GDP를 입력하여 행복접수 예측값을 구해볼 수도 있다.
잔차 출력의 값을 구하는 것이다.
다중 회귀분석
차원의 저주 : https://www.youtube.com/watch?v=EXHR2-hECRM
예측치 행복 점수 엑셀수식 : =$L$19*E3+$L$20*F3+$L$21*G3+$L$22*H3+$L$18
변수를 1개만 넣었을 때보다 예측지가 더 정교해졌다. 변수를 계속 추가하면 어느순간 차원의 저주가 발생한다고 한다.
'새싹 > TIL' 카테고리의 다른 글
[핀테커스] 230904 python 설치 conda 가상화 (0) | 2023.09.04 |
---|---|
[핀테커스] 230901 자소서와 면접 키워드 설정 (0) | 2023.09.01 |
[핀테커스] 230831 이력서 자소서 작성 (0) | 2023.08.31 |
[핀테커스] 230829 데이터분석 엑셀파워쿼리 시각화 (0) | 2023.08.29 |
[핀테커스] 230828 데이터분석가 리터러시 역량 (0) | 2023.08.28 |