미니 프로젝트 - 데이터 분석
01. 주제 도출(문제정의) (1)
> 💬 실제로 내가 관심 있는 실생활에서 느낀 불편함, 관심분야, 최근 이슈(현상)가 가진 문제를 정의해보세요. (25m)
ex)
- 최근 출산율이 저조(현상)해서 노동인구의 감소(발생문제)
- 방사능 오염수 방류(현상)로 수산시장 수요 감소(발생문제)
- 기후변화로 인한 폼염 발생수 증가(현상)로 폭염질환 환자 증가(발생문제)
> 📢 너무 긴 시간을 투자하지 말아주세요! 일정 시간을 두고 토의 후에 가장 많은 투표를 받은 주제를 선정한다던지, 이후에 진행될 과정은 고민하지 마시고 어떤 ‘문제’를 해결하고 싶은지에 집중해주세요.
02. 추진배경 (1)
추진배경
> 💬 해당 주제에 대해서 분석을 해야하는 이유에 대해서 찾아보고 <추진배경>을 작성해주세요. (25m)
추진배경 : <주제도출>에서 정의한 문제를 해결해야 하는 배경과 정의한 문제의 현재 상태
> 📢 이후 발표를 위해서 수치적인 근거나 이미지가 있는 자료면 좋습니다.
최근 출산율이 저조(현상)해서 노동인구의 감소(발생문제)
- 인구고령화, 경제성장 저하, 사회복지 부담, 가족 및 사회구조 변화 등
03. 잠재원인 & 특성요인도 (1)
잠재원인 & 특성 요인도
> 💬 정답을 찾는게 아니라 의견을 나누어 주세요. (35m)
- 작성예시
- 작성 순서
- ① 문제로 할 특성을 정하고 기입한다.
- ② 특성을 기입한다
- ③ 큰 가지를 기입한다
- ④ 작은 가지를 기입한다
- ⑤ 요인을 확인한다 : 요인 누락 확인하고 가지와 요인간, 요인과 특성간에 인과 관계가 확실하게 성립되는지를 Check함.
- ⑥ 특성에 직접적인 영향이 큰 요인을 확인하고 강조한다.
- 작성 팁
- ① 요인은 많은 사람에게서 많이 수집한다.( Brain Storming 기법 이용)
- ② 항상 추가하거나 수정한다.
- ③ 특성의 나쁜 정도를 수치로 표시할 수 있게 한다.
- ④ 특성마다 특성요인도를 만든다.
- ⑤ 중요원인을 추출하여 그 특성요인도를 만들어 요인을 다시 추구한다.
- ⑥ 일반적으로 요인을 낼 때 왜(Why)를 5회 반복한다.
04. 분석가능성 & 중요도 (1)
분석가능성 & 중요도
> 💬 이전에 작성한 특성요인도를 바탕으로 선택 된 주요요인들의 중요도와 분석 가능성을 작성해보세요. (15m)
- 예시분석가능성 중요도
낮은품질 4 4 높은 가격 5 4 서비스 불만 3 5
- 분석가능성
- 우리가 가진 자원, 분석 난이도 등을 고려
- 높을 수록 난이도 높음
- 1~5점으로 표기
- 중요도
- 각 요인이 가지는 프로젝트(문제)에 끼치는 영향의 정도
- 높을 수록 중요
- 1~5점으로 표기
05. 데이터 수집 (1)
> 💬 분석가능성에서 중요하거나 분석가능성이 높은 요인을 선택하여 해당 요인을 분석 및 예측하기 위한 데이터를 인터넷 기사, 공공데이터, open api, 웹스크레이핑을 활용하여 데이터를 수집해주세요. 결과물은 csv파일이나 xlsx 파일로 저장 된 상태여야 합니다. (30m)
> 📢 뉴스 기사에 작성 된 수치적 근거를 시각화 하는 방식도 고민해볼 수 있어요!
06. 데이터 시각화 (1)
💬 실제로는 수집한 데이터를 바탕으로 시각화 하는 단계입니다. <추진배경, 현상파악, 데이터 수집>단계에서 도출 한 내용을 바탕으로 어떤 그래프를 그리면 좋을지 고민해보세요. 만약, 이전단계에서 충분히 고민하지 못했다면, 원하는 데이터가 있다고 가정하고 고민해보세요.
> 📢 바로 시각화를 진행하지 않고 수집한 데이터를 바탕으로 어떤 그래프를 그릴지 짧게 논의한 뒤에 시각화를 하는 것이 전체 시간이 덜 걸릴 수도 있습니다. 짧게 논의, 시각화 내용을 공유하고 시각화 하고 다시 논의하고 다시 시각화하는 과정을 반복해주세요. :)
ex) 데이터 시각화 표 예시
온도와 지하철 탑승 인원의 관계분석 스케터 차트
계절별 평균 강우량 비교분석 | 막대 차트 |
월별 이상기후 발생 빈도 비교분석 | 막대 차트 |
날짜에 따른 지역관광객수 추이 추세분석 | 라인 차트 |
> 📢 시간이 가용하다면 실제 수집한 데이터를 바탕으로 시각화를 해주세요! 시간이 부족하여 시각화를 못하겠다면, 적어도 위에 있는 표라도 작성해주세요. :) 이미 작성 된 그래프(뉴스 그래프, 각 사이트의 통계 등)를 적극적으로 활용하셔도 좋습니다.
코드를 활용하여 하는 시각화는 ‘더하면 좋은 것’ 수준으로 생각해주시고 만약 보여주고 싶은 내용이 코드에 막힌다면 chat gpt를 활용해서 적극적으로 문제해결을 해주시거나 강사에게 도움을 요청해주세요!
워드 클라우드
> 📢 수집한 데이터가 텍스트 데이터로 이루어져 있다면 아래의 워드클라우드로 시각화 해줄 수도 있습니다!
07. 해결방안 & 기대효과 (1)
> 💬 우리가 가진 문제를 개선하기 위해서는 어떤 방법을 활용하면 좋을까요?(20m)
- 문제를 해결하기 위해서는 어떤 노력을 해야할까요? 해결방안에 대해서 의견을 나누고 작성해보세요.
- 문제를 해결 했을 때 기대 되는 기대효과에 대해서 작성해보세요.
> 💡 해결방안과 기대효과는 연결성이 있으면 좋습니다. (이 해결방안을 실행했을 때 예상되는 기대효과에 대해서 고민해보세요 :) )
08. 과제명 선정 (1)
> 💬 선정 된 주제를 바탕으로 프로젝트의 이름이 되는 <과제 명>을 작성해주세요.(10m)
- 우리가 해결할 문제를 한 문장으로 정의
- “대상 + 개선방법 + 효과(구체적 목표)”가 담긴 내용으로 작성
- 개선 방법 : OO모델, OO예측 or 분석을 통해 확인할 수 있는 것 (ex. OO최적화)
- 효과 : 기대수익 상승, 매출 증대 등
- 과제명을 보고 앞으로 이어질 내용이 예상이 되어야 합니다.
- 예시
- 수요예측과 품질개선을 통한 식품제조공정최적화
- 환자 맞춤관리를 활용한 수익성 증대
09. 발표자료 작성
> 💡 한 페이지에 메세지는 한가지만 담아주시는게 좋습니다.
> 📢 결론과 결과를 구분해주세요.
- 결과 : 단순 데이터 분석으로 확인 가능한 것
- 결론 : 데이터 분석으로 부터 우리가 해야할 행동 및 새로운 가설
느낀점 : 주제 도출과 문제 정의 시간에 잠재원인과 특성요인, 그리고 데이터셋을 고려하게 된다. 그 결과 데이터수집까진 나름 할만 했다. 그러나 수집된 데이터 분석에 문제가 발생했다. 제발 문제 정의와 주제 도출할 때 데이터셋을 고려하지 말자.
대신 모델 구성 할땐 데이터셋을 정하고 하는게 좋을 때도 있다.
발표자료는 보고서 형식이 좋다. 왜냐하면 인사담당자가 볼거니까. 내 설명 없이...
'새싹 > TIL' 카테고리의 다른 글
[핀테커스] 230919 python 수학 실습 (1) | 2023.09.19 |
---|---|
[핀테커스] 230918 데이터 시각화 라이브러리 실습 (1) | 2023.09.18 |
[핀테커스] 230914 데이터 시각화 (3) | 2023.09.14 |
[핀테커스] 230913 pandas merge & metplot 시각화 (0) | 2023.09.13 |
[핀테커스] 230912 pandas & 시계열데이터다루기 (0) | 2023.09.12 |