새싹/TIL

[핀테커스] 230828 데이터분석가 리터러시 역량

jykim23 2023. 8. 28. 17:49

# 키워드
DT DX 데이터 리터러시 시각화 이해

 

 

데이터리터러시 역량

기획

현재 문제가 무엇이고 나는 무엇을 하고 싶은 것인가?
문제 해결을 위한 가설 설정
내가 세운 가설이 적절한가?

수집

문제를 해결하기 위해서 어떤 데이터가 필요한가?
수집할 수 있는 데이터인가?
데이터 수집을 위해 무엇이 필요한가?

이해 및 관리

내가 수집한 데이터의 출처가 깨끗하고 사용가능한 것인가?
데이터에 오류, 변수가 얼마나 포함되어 있고 추가되지 않은 데이터는 없는가?
데이터의 양이 방대하다면 효율적인 관리를 위해 팀원을 확보

분석 시각화

현제 데이터셋이 내가 하고자 하는 작업에 적합한가?
데이터셋을 통해 무엇을 할아낼 수 있는가?
데이터를 분석한 결과가 유의미한 것인가?
내가 세운 가설이 검증 될 수 있는가?

시각화

데이터를 통해 찾아낸 의미를 어떻게 전달할 것인가?
누구에게 어떤 방법으로 전달할 것인가?
데이터를 모르는 사람도 한눈에 의미를 알 수 있는가?
제작된 결과물이 편향되지는 않았는가?
의사결정권자에게 의미 전달을 잘 해야함.

참고 : https://ft-interactive.github.io/visual-vocabulary/
목적에 따라 사각화 자료 형태가 중요하다.

 

 

DT DX 성공 사례

광주광역시 광산구 시설관리공단  머신러닝 기반 폐기물 발생량 예측 시스템

DT DX 를 실패 안하려면?

'가치 있는' 데이터 활용을 위한 관점의 변화
있는 데이터 어떻게 분석할까? ㄴㄴ
비지니스 성과 창출에 집중하고 문제해결 위한 데이터를 어떻게 구할까? ㅇㅇ

 

웹크롤링 자동화 실습(엑셀 파워 쿼리)

환경 : windows11, office 2021

왜 자동화를 해야하는가? --> 수동으로 데이터를 드레그 하여 가져올 수 있으나 자동화를 사용하는 이점은 크롤링 대상 정보가 업데이트 될 경우 파워쿼리 새로고침만으로 최신화가 가능하다.

 

웹크롤링(위키백과, 멜론 차트, 유튜브 랭킹)

위키백과 예시

 

유튜브 랭킹 예시

<위키백과 과정>

구글 > 대한민국의 아카데미 국제영화상 출품작 검색 > 위키백과 > url 복사
엑셀 > 데이터 > 웹에서 데이터 가져오기 > url 입력 > 수준 선태(최상위) >가져오는데 시간 다소 소요 될 수 있음. > 데이터 변환
데이터전처리1 > 첫 행을 머리글로 사용 > 열 분할(구분 기호 기준) > 줄 바꿈 > 확인
데이터전처리2 > 연도 > 형식변경 > 년도만 표시
좌측 상단 > 닫기 및 로드

 

 

공공데이터 (국민연금공단_국민연금 가입 사업장 내역)

공공데이터의 API를 이용하기

공공데이터 : www.data.go.kr

검색 : 국민연금공단_국민연금 가입 사업장 내역 > 오픈 API > 활용신청. 그리고 참고문서 다운로드(메뉴얼이므로 꼼꼼히 확인하여 진행)

API KEY : 마이페이지 > 데이터활용 > Open API > 활용신청 현황 > "[승인] 국민연금공단_국민연금 가입 사업장 내역" > 일반 인증키(Encoding) > 메모(유출 주의)

조회 사업장 : 루*

API 사용 예시 : 명세를 보며 천천히 작성

오퍼레이션 목록

getBassInfoSearch 사업장 정보조회
http://apis.data.go.kr/B552015/NpsBplcInfoInqireService/getBassInfoSearch?wkpl_nm=루*&bzowr_rgst_no=314***&pageNo=10&startPage=10&numOfRows=1&pageSize=1&serviceKey=인증키

# getDetailInfoSearch 상세정보 조회
http://apis.data.go.kr/B552015/NpsBplcInfoInqireService/getDetailInfoSearch?seq=372****&serviceKey=인증키

# getPdAcctoSttuInfoSearch 기간별 정보조회
http://apis.data.go.kr/B552015/NpsBplcInfoInqireService/getPdAcctoSttusInfoSearch?seq=372****&serviceKey=인증키

 

파워쿼리 :

getBassInfoSearch
getDetailInfoSearch
getPdAcctoSttuInfoSearch
0828_파워쿼리_웹크롤링_예시.xlsx
0.07MB