데이터를 보는 안목 (Data Literacy)

Please download to get full document.

View again

of 141
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
 18
 
  1. 1 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know From Data Literacy To Data Fluency 2. 2 © IDK2 Inc. All Rights Reserved. I Don’t Know What I…
Share
Transcript
  • 1. 1 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know From Data Literacy To Data Fluency
  • 2. 2 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know • 양승준: 아이디케이스퀘어드(IDK2 - I Don’t Know What I Don’t Know) 대표 • 서비스: HEARTCOUNT, Augmented Analytics for Enterprise (SaaS) IT 빗 Algo-Trading Enterprise IT Small Data Big Data 인터넷 • 경력 1998 2000 2001 2003 2013 2015 강사 소개
  • 3. 3 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 가. 비지니스 이해 • 비지니스 요구사항 • 분석 목표 수립 Non-Obvious & Useful Pattern • 문제(질문) 정의 나. 데이터 이해 • 수집 (collection & blending) • 기술 (descriptive analysis) • 탐험 (exploratory analysis; data viz.) • 품질 (outliers & missing values) • 가공 (feature engineering) 다. Modeling 및 해석 • ML 알고리즘 선택 (설명 vs. 예측) • 모형 수립 및 성능 평가 • 모형 해석 Statistical significance Practical significance 라. 활용 (Deployment) • 보고; 인사이트 공유 • 의사결정 자동화 Technical & procedural integration • 주기적 성능 모니터링 데이터 분석 과정 (*CRISP-DM) *강의 범위
  • 4. 4 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 강의에서 다룰 내용 BASIC SKILL DATAMIND ContextTOOL 데이터 분석이 파도타기라면
  • 5. 5 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 목표: 데이터 분석, 어렵지 않다. 유용하다. 방법: Top-Down, Not Bottom-Up 목차 강의 목표, 방법, 목차 • Intro Data Problem • Module I Data Literacy • Module II Data Understanding • a - 데이터셋, 데이터의 종류, 변수 가공 • b - 데이터의 대표값과 모양을 묘사하는 법 • c - 평균의 함정, 데이터 시각화, 상관관계 & 인과관계 • Module III ML and Decision-Making • Module IV Linear Regression Analysis & Decision Tree Algorithm • My Two Cents 참고자료 *Optional
  • 6. 6 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Intro Data Problem 아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr https://www.heartcount.io
  • 7. 7 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 문제 데이터 분석 활용해석 데이터 분석 과정 의심하고 근거를 찾고 설득하고 바꾼다 Data Problem Features & Blending Statistics ML Data Storytelling Practical Significance
  • 8. 8 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 데이터가 답할 수 있는 질문 Frame Real-World Problem into Data Problem 데이터 분석 목표: A Successful Data Analysis 뻔하지 않은 쓸모있는 패턴 Non-Obvious & Useful Pattern 피보고자가 분석결과 수용(활용) Audience Accepts the Results
  • 9. 9 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 데이터에 답이 없는 질문 번지수 끝자리 지붕 색상 가격(억) 3 빨강 9.5 7 주황 3.5 2 노랑 3.2 1 빨강 3.5 4 파랑 4.7 . . . Machine Learning Algorithm Model ??? Training Data Set Machine Learning is not a Magic, but a Math 주어진 데이터(번지수, 지붕 색상)가 문제(집값 예측)를 해결하는데 사람에게 소용없다면 기계에게도 마찬가지 질서나 규칙이 존재하는 것 같은데 잘 모르겠는 경우 기계가 빠르고 다양한 관점으로 냉정하게 패턴을 찾아보게 하자.
  • 10. 10 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 질문과 관련성이 높은 변수(Features) X1 Ripeness X2 # of Seeds X3 Weight (g) X4 Color Y Fruit Type 0.56 5 320 Orange Orange 0.61 6 280 Red Apple Feature: Y(궁금한 것)를 설명하거나 분류(예측)하는데 유용한 속성 좋은 Feature를 발굴하는 것이 중요함.
  • 11. 11 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 더 많은 종류의 변수(High Dimensionality) Features(Dimensions)의 수가 증가할수록 모형의 정확도는 향상 되지만 너무 많아지면 모형 해석이 어려워지고, 과적합(overfitting) 위험 증가 1D: 분류하기 어려움 2D: 더 잘 분류됨 3D: 아주 잘 분류됨
  • 12. 12 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 큰 데이터 Smaller Data [Asset; 독점] Bigger Data [Liability] 개별 레코드에 담긴 패턴(효과/시그널)이 클수록 패턴 발견을 위해 적은 데이터가 필요
  • 13. 13 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 데이터만으로는 똑 부러지게 답할 수 없는 질문 폭력적 게임을 하면 더 폭력적이 되나? ① 개념(Concept)을 정량화하는 일의 주관성 • 폭력적 게임을 정의할 수 있나? • 현실에서의 폭력성을 어떻게 계량화하나? ② 인과성을 증명할 수 있나? • 공격적 성향의 아이가 폭력적 게임에 더 끌림? • 통계적 상관관계로 인과성에 대해 주장할 수 없음 • 숫자로 환원된 분석 결과는 복잡한 진실에 대한 단면적 요약 폭력적 게임 폭력적인 아이
  • 14. 14 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 원하는 답이 나올 때까지 데이터 고문하기: p-hacking 민주당이 집권하면 경기가 더 좋아지나?
  • 15. 15 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know P-Value (Probability-Values) P값: (선형적) 관계가 우연히 나왔을 확률 작은 P값: 데이터에서 발견한 관계가 우연이 아니다 (=통계적으로 유의미) • 귀무 가설(H0; Null Hypothesis): [공직에 있는 민주당 정 치인의 숫자]와 [경기지표] 사이에 선형적 관계가 없다. • P = 0.05: 관계가 없단 가정 하에 데이터에서 발견한 관계 혹은 더 강한 관계가 관측될 확률 = 5% • 관계가 없을 때 해당 관계가 우연히 관찰될 확률 • 확률이 5%보다 작으면 관계가 있다고 결론
  • 16. 16 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 원하는 답이 나올 때까지 데이터 고문하기: p-hacking 민주당이 집권하면 경기가 더 좋아지나?
  • 17. 17 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 데이터에 질문을 하기 전에 어떤 호텔에서 잘까? Data-Driven Decision Making Default Decision Data-Inspired Decision Data-Driven Decision 항상 자던 곳 호텔 리뷰 사이트 서핑하다가 결국 항상 자던 곳으로 결정 데이터에 기반한 의사결정 기준 수립 • 평점 4.5 이상 • 리뷰 수 30개 이상 • 9만원 넘지 않을 것 • …
  • 18. 18 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 좋은 질문(문제 정의) A. 작년 여자 영업사원의 평균 매출이 남자 영업사원의 80% 정도였다. B. 작년에 신규 출시한 탈모 치료제의 경우 연구소 출신 여자 영업사원의 매출이 평균 매출의 350%에 달했다. 좋은 분석 결과 = 정보량이 큼(뻔하지 않음) • 뻔한 질문(남녀 직원 간 매출 차이?)에 대한 답변은 정보량도 낮음 • 엔트로피(불확실성)가 높은 불확실성이 큰 사안에 대한 질문(탈모 치료 제를 많이 판매한 직원들의 공통된 특성은?)에 대한 답변은 정보량이 큼 A. 내일 아침에 동쪽에서 해가 뜰 것이다. = 정보량 빵임 정보 = 특정 질문에 대한 답변
  • 19. 19 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 좋은 질문(문제 정의) Good Data Problem • 작고 구체적인, 덜 뻔한(엔트로피가 큰) 질문 • 이미 확보하고 있거나 쉽게 수집 가능한 데이터에서 답을 찾을 수 있는 문제 • 신뢰할 수 있고 익숙한 데이터에서 시작 • 확보 가능한 데이터에 대한 이해 없이 문제부터 정하면 필요한 데이터를 추 가로 수집, 준비하느라 프로젝트 일정이 지연되거나 나쁜 분석 결과가 나오 기 쉬움 • 바람직한 답변이 없고 너무 민감하지는 않은 문제 • 바람직한 답변이 이미 마음 속이나 조직 내에 정해져 있는 경우 • 특정한 분석 결과가 조직 내에서 너무 큰 반향과 혼돈을 불러올 수 있다면 분 석 및 결과 해석 과정에서 객관성이 흔들릴 수 있음 • 본인 문제(내 호기심) 말고 비즈니스 문제 • Business Top-Line(매출, 이익, 고객수, NPS, 생산성 등) Alignment
  • 20. 20 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 데이터에서 유용한 답을 찾을 수 있는 문제 856명에게 전화걸어 르완다 전체 지역별 소득수준 분포 확인하기 빅데이터와 스몰 데이터의 결합 맹목적으로 쌓인 빅데이터 + 목적을 갖고 수집한 스몰 데이터 Ready-made(Exhaust) Data + Custom-made(Captured) Data CDR(가입자 통화내역) + Survey(소득수준 전화설문) Data Science + Social Science
  • 21. 21 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 데이터에서 유용한 답을 찾을 수 있는 문제 – cont’d CDR(백오십만명 통화 내역) + Survey(856명 설문으로 소득수준 조사) → 통화내역(X)만으로 소득수준(Y)을 예측하는 모형 생성 (서베이로 확인한) 실제 소득수준과 (통화 내역만으로) 예측된 소득수준
  • 22. 22 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know How to Make Audience Accepts the Result Data Storytelling: 데이터 기반 서사 전주의 처리 (Pre-attentive Processing) 주의를 기울여 복잡한 시각 정보를 처리하기 전에 빠르게 시각 정보를 처리하는 무의식적 과정
  • 23. 23 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Visualization – Pre-attentive Processing 전주의 처리 (Pre-attentive Processing) 핵심 정보가 두드러지도록 적절히 강조 종잡을 수 없는 시선의 흐름 차트를 볼 때 사람의 눈동자가 어떤 순서로 어디로 향할지 알 수 없음
  • 24. 24 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Storytelling – Before and After Before After: Call to Action Data Storytelling: 당신의 보고는 *핍진성이 있는가? *핍진성: 텍스트가 신뢰할 만하고 개연성이 있다고 독자에게 납득시키는 정도
  • 25. 25 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 1단계 현실 객관적 이해 • 정량적으로 검증이 필요한 문제 정의 • 기존 믿음 검증 • 새로운 사실 확인 • 그릇된 통념 파괴 • 새로운 통찰의 공유 2단계 비즈니스 문제를 해결 • Business Relevancy • 본인 부서 말고 비지니스 문제 정의 • Practical Significance • 현실 적용이 가능한 유용한 패턴 찾기 • Change Management • Success Metrics 지속적 모니터링 문제 정의 패턴 발견 패턴 활용 가치의 발견 가치의 완성 본인 부서 Impact → Business Impact 기업 내 데이터 분석 목표
  • 26. 26 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Module I Data Literacy 아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr https://www.heartcount.io
  • 27. 27 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know From Literacy to Data Literacy Data Literacy: 추상에서 구체로의 이행 • 관습적 믿음/직관(Literacy)에 대한 회의에서 출발 • 데이터를 통해 세상을 보는 안목: 날것의 기록에서 패턴을 찾아 세상에 대한 더 좋은(실용적인) 설명을 찾는 일 추상 · 개념 · 관념의 탄생 “사냥해서 짐승을 잡았다. 사냥의 꽃은 들소 잡기” 들소보다 물고기를 잡는 게 1.7배 더 생산적 사냥횟수 마릿수 kg kg/사냥 들소 25 2 300 12kg 물고기 35 900 700 20kg 현실 Literacy Data Literacy 들소: 0마리 물고기: 35마리 들소: 0마리 물고기: 65마리 들소: 0마리 물고기: 71마리 물고기: 15마리 들소: 1마리 … 현실의 기록직접 본 것 · 한 것
  • 28. 28 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Literacy: Fixing Last Mile Problem Last Mile Problem 기업이 데이터에서 쓸모있는 패턴을 발견하여 더 좋은 의사결정에 활용하지 못하는 문제 Last Mile 원인 • 분석 부재: 엑셀보고; 대쉬보드 • 분석 분리: 현업과 분석가의 분리; [질문→분석→활용] 선순환 X 해결책 • 현업 스스로 데이터에 질문, 패턴 발견‧해석‧활용 • Data Literacy + Right Tool 질문 데이터 분석 활용해석
  • 29. 29 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data: A New Language of Business Data Literacy 데이터 안목 도메인 지식 활용 데이터에 질문, 분석결과를 실용적으로 활용 Right Tool 닭잡는 칼 데이터의 특성 분석 역량‧목적에 맞는 도구 Literacy Numeracy Data Literacy Reporting Insight Discovery • 엑셀과 씨름 • 과거집계‧시사점X • 질문‧해석‧활용에 집중 Reading • 텍스트 해석 현업이 똑똑한 데이터 소비자가 되려면
  • 30. 30 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Literacy(Fluency) Framework 데이터 분석은 생산자와 소비자 간의 사회적 · 상호적 활동 분석 결과를 소비하는 사람이 있어야 분석하는 사람이 존재할 수 있고 좋은 분석을 생산하는 사람이 있어야 또 결과를 소비(활용)하는 사람이 존재
  • 31. 31 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Our First Data Literacy: BIMODAL DISTRIBUTION (쌍봉분포) African Seedcracker 자연선택에 의해 작고 부드러운 씨앗을 먹는 작은 부리의 새와 크고 단단한 씨앗을 먹는 큰 부리의 새로 나뉨
  • 32. 32 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Our First Data Literacy: One Hump vs. Two Humps UNIMODAL(단봉) BIMODAL(쌍봉) 서로 다른 특성을 갖는 두개의 집단 이 표본에 존재
  • 33. 33 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data → It’s Funny → Data Literacy -> Insight 1962년과 1979년에 태어난 남자들은 왜 Mets구단 팬이 되었나? Hint: 1969년과 1986년에 모두 8세가 되었음 1969년 8세 출생년도에 따른 NY Mets 팬들 비율 [대상: 뉴욕 거주하는 남자 야구 팬들] 1986년 8세
  • 34. 34 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data → It’s Funny → Data Literacy -> Insight Reality • Reality: 복잡계; 실제 작동방식 100% 알 수 없음 • Belief: 세상의 작동방식에 대한 최선의(만족스러운) 설명 • Data: 세상의 작동방식에 대한 기록; 세상의 샘플링 • Insight: 세상에 대한 더 나은 설명, 새로운 해석 Belief Data Insight [or Inspiration?] 희한하네… 보따리 장수 매출 매출 매출 데이터를 읽을 수 있어야 새로운 해석도 가능
  • 35. 35 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Module II-a Data Understanding 아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr https://www.heartcount.io
  • 36. 36 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know • 궁금한 것(Y)을 데이터(X)로 더 잘 설명(예측) • X를 바꾸어서 Y를 개선하기 위해서 분석하는 이유 • 데이터의 특성과 모양 요약 (기술 분석) • 독립변수(통제가능; X)와 종속변수(Y) 간 가설 검증 통계 • 데이터 학습, Feature(X)로 Target(Y)을 예측‧설명 • 의사결정 자동화 vs. 더 좋은 의사결정 기계학습 • 성과지표(Y)를 익숙한 관점(범주; X)으로 요약 • 과거에 대한 집계 엑셀 (대쉬보드) • X와 Y를 점, 선, 크기, 색상으로 표현 (탐험분석) • X와 Y 사이의 패턴(관계) 시각적 발견; 가설 수립 데이터 시각화 데이터 분석 방법 (X와 Y)
  • 37. 37 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Analysis Techniques 데이터 분석 주요기술  DESCRIBE (기술 분석) - 엑셀 • 데이터 특성과 모양을 (수치적으로) 요약  EXPLORE (탐험적 분석) - 데이터 시각화 도구 • 가설수립‧데이터 감 잡기 위해 패턴 탐험  PREDICT/INFER (예측‧추론 분석) - 통계/ML • 패턴(모형)을 통해 주어진 문제를 예측‧설명 과거 미래 Looking Backward Looking Forward
  • 38. 38 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Analysis Maturity Model Source: Booz Allen Hamilton 데이터 수집 → 데이터 기술(묘사) → 패턴 발견 → 예측 → 활용 우측으로 갈수록 성숙해진다기보다는 자기에게 필요한 단계를 잘 하면 됨
  • 39. 39 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 통계 · 기계학습 · 인공지능
  • 40. 40 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know EDA Source: Booz Allen Hamilton EDA(Exploratory Data Analysis) = DESCRIBE (기술 분석) + EXPLORE (탐험 분석) • inspect data structure • data quality • summarize • visualize data • hypothesis generation • != modeling EDA, 데이터와 함께 떠나는 창의적 여행
  • 41. 41 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Descriptive Data Analysis Description 요약 Comparison 비교 Relationship 관계 데이터에 대해 사실적으로 묘사하는 법 변수의 대표값과 모양이 어떻나? 개별 변수(Y)의 통계값과 분포 확인 변수값의 차이가 어디서 얼마나 나나? 서로 다른 범주(X) 간 Y의 특성‧모양 비교 변수(Y)의 변화와 관계를 갖는 다른 변수(X)는? X와 Y 사이의 상관관계 파악
  • 42. 42 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Analysis-Ready Dataset 분석하기 좋은 데이터셋 • 국가별로 1999/2000년에 결핵으로 사망한 환자수(Cases)와 전체인구 (Population)를 정리한 데이터셋들 • 국가별 연도별 인구 10,000명당 결핵 사망률을 계산하기 가장 좋은 데이터는? NOT SO GREAT GREAT 1 2 3 4 tabular data rectangular data data frame data table tidy dataset
  • 43. 43 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Rectangular Dataset and Key Terms 분석하기 좋은 데이터셋 • Dataset: 값(Values)들의 집합으로 숫자 또는 범주로 구성 • Values: 변수(Variable)와 관측점(Observation)으로 구성 • Variable: 동일한 속성(나이, 매출)에 대한 측정값들로 행(Column)을 구성 • Observation: 동일한 대상(사람, 매장)에 대한 측정값들로 열(Row)를 구성 X features independent variables input (variables) predictor attribute Y target/label dependent variables output (variable) response record sample Instance case
  • 44. 44 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Raw vs. Aggregated Dataset Q. 2001년 남녀 구매 비율은? 추가 질문 Q. 2001년 Regular Coffee 구매한 여자 고객수? Q. 남자 고객이 선호하는 커피 종류는? Raw Data: Zoom-in(새로운 질문) 가능 Raw Data Aggregated Data
  • 45. 45 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Non-Rectangular Data Structures TIME-SERIES SPATIAL GRAPH • 동일 변수 연속적 기록 • Seasonality; Event • Object에 대한 위치좌표 • Location Analytics; Geo-Statistics • Physical, Social, Abstract 관계 • Social Graph From To Weight Russia China 10 USA Korea 7 Rectangular 구조가 아닌 데이터도 있음; 각 구조에 맞는 별도의 처리 및 분석 기법이 존재
  • 46. 46 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Features Engineering Feature Engineering: From Raw Variable to Derived Variable Y를 더 잘 설명하거나 분류(예측)할 수 있도록 기존 변수를 창의적으로 가공하여 새로운 변수를 만드는 일 당뇨병 위험도와 상관관계가 높은 변수 • 같은 몸무게라도 비만도는 키에 좌우됨 • 비만도를 더 잘 반영할 수 있는(키와 몸무게의 상호작 용을 잡아낼 수 있는) 새로운 변수 가공 • *BMI(Body Mass Index) = kg/m2 *발명한 사람의 이름을 따서 Quetelet Index라고도 함
  • 47. 47 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Type 숫자형(Quantitative)과 범주형(Qualitative) 분석: 숫자와 숫자 사이의 연관성, 숫자의 차이를 가져오는 범주를 발견하는 것 • 숫자형 자료는 이산형(discrete)이나 연속형(continuous)으로 나뉨 • 범주형 자료는 명목형(nominal)이나 순서형(ordinal)으로 나뉨
  • 48. 48 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 숫자형 변수를 나누는 또 다른 기준: Interval vs. Ratio Q. 나누거나(Ratio) 곱해도 말이 되는 것은? 온도 vs. 몸무게 Interval (구간 자료) 10도 + 10도 = 20도 20도 / 10도 = 2배? Ratio (비율 자료) 50kg + 50kg = 100kg 100kg / 50kg = 2배? 절대적 원점(True Zero)이 있으면 Ratio, 없으면 Interval 시간 = 00:00 : 시간이 없다(빵시)? 나이 = 0살 : 나이가 없다(빵살)
  • 49. 49 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Type에 따른 시각화 방법 변수 유형에 따라 분석 방법과 효과적 시각화 방법이 달라짐 숫자 x 숫자 = Scatterplot Overplotting (점이 겹침)! Alcohol(%): 와인 알코올 함량, Quality: 소비자가 매긴 점수 소비자 만족도를 범주로 처리 Boxplotting (분포 시각화)! Jittering 기법으로 Noise 추가 Jittering (인위적으로 퍼지게)! 순서형(Ordinal) 변수는 범주(Category)로 다루는 게 좋다! 소비자만족도 소비자만족도 소비자 만족도알코올 함유량 알코올 함유량 알코올함유량
  • 50. 50 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Type에 따른 시각화 방법 순서형(Ordinal) 변수는 범주(Category)로 다루는 게 좋다. X를 숫자로 처리 X와 Y 간 상관관계(0.06)가 매우 약함 Y: 리더십 점수, X: 평가 점수(등급) X를 범주로 처리 서로 다른 범주(점수)간 Y값 차이가 존재함
  • 51. 51 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Module II-b Data Understanding 아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr https://www.heartcount.io
  • 52. 52 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Description (Data Profiling) Central Tendency 중심 경향 • 평균(Mean) • 중앙값(Median) • 최빈값(Mode) Dispersion 퍼진 정도 • 범위(Range) • 분산(Variance) • 표준편차(SD) • Percentile Shape of Distribution 퍼진 모양(대칭) • 왜도 (Skewness) 데이터의 특성과 모양을 요약하여 기술하는 방법 양(+)의 왜도음(-)의 왜도
  • 53. 53 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know The Philosophy of Statistics [19th Century] 초기의 통계학 - 결정론적 세계관에 바탕을 둔 이데아/본질의 추구 평균값이 대상이 보유한 이상적인 속성이고(Idealized Mean) Variation(차이)은 제거해야 할 오류라는 생각이 지배적이었음 Species(종; 種): An Ideal Type
  • 54. 54 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Darwin and Statistical Population [Late 19th~Early 20th Century] 다윈의 등장: Type/Essence(본질) → Variation(차이) 차이(변이)의 점진적 누적에 의해 진화가 이루어진다는 발견 개별 개체에 존재하는 의미있는 차이(변이)에 관심을 갖기 시작
  • 55. 55 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Vital Statistics vs. Mathematical Statistics Average: 집단을 요약 → Variation: 개인(개체)들에 존재하는 차이에 관심 인구통계 평균, 비율 수리통계 분산, 관계, 추론 확률, 유의성
  • 56. 56 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Average Man → Ranked Man Quetelet: 평균적 인간의 탄생 → Galton: 서열화된 인간의 탄생 Average Man Ranked Man
  • 57. 57 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 평균의 문제 – One Dimensional Thinking Which Man Is Bigger?
  • 58. 58 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 평균의 문제 – One Dimensional Thinking Which Man Is Bigger? JAGGED SIZE PROFILE: 사람의 SIZE(크기)는 서로 상관관계가 약한 다양한 차원(신장, 체중, 가슴둘레 등)으로 구성되어 있음
  • 59. 59 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 평균의 문제 - Data Aggregation Average Man Galton’s Composite Portraits 골튼의 합성 초상화 The Problems with Average: Not Robust! 범죄자 사진을 자꾸 포갤수록 범죄자의 특징이 평범함에 묻힌다.
  • 60. 60 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 평균의 문제 - Linear Thinking vs. Non-Linear Relationship 잠재 고객 세그먼트 환경 관심도 평균 점수 A 4 B 3 A = [4, 4, 4, 4, 4, 4, 4, 4] B = [1, 1, 1, 1, 5, 5, 5, 5] 친환경 제품을 출시하려 한다. 어떤 세그먼트에 프로모션할까? 잠재 고객 세그먼트 환경 관심도 가중 평균 점수 A 4 B 5.5 A = [4, 4, 4, 4, 4, 4, 4, 4] B = [1, 1, 1, 1, 5, 5, 5, 5, 5, 5, 5, 5] 5점에 가중치 2를 부여
  • 61. 61 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 3 Types of Average: Mean, Median, Mode 병-1 병-2 병-3 병-4 병-5 병-6 병-7 병-8 병-9 13 18 13 15 13 16 14 21 13 Q. 어떤 값을 대표값으로 선택할까? A. 평균 (13+18+13+14+13+16+14+21+13) ÷ 9 = 15 B. 중앙값 13, 13, 13, 13, 14, 14, 16, 18, 21 C. 최빈값 13 (3번 측정; 다른 값들은 1번씩만 측정됨) D. 선호값 16 (병-6) 성벽의 벽돌 갯수를 병사들이 측정한 값들
  • 62. 62 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Histogram vs. Frequency Distribution Table 계급 (0,3] (3,6] (6,9] (9,12] (12,15] (15,18] (18,21] (21,24] (24,27] (27,30] (30,33] (33,36] (36,39] (39,42] (42,45] (45,48] 빈도 26.0 17.0 15.0 32.0 34.0 51.0 55.0 56.0 55.0 60.0 58.0 43.0 18.0 14.0 5.0 2.0 누적 빈도 26.0 43.0 58.0 90.0 124.0 175.0 230.0 286.0 341.0 401.0 459.0 502.0 520.0 534.0 539.0 541.0 비율 4.8 3.1 2.8 5.9 6.3 9.4 10.2 10.4 10.2 11.1 10.7 7.9 3.3 2.6 0.9 0.4 누적 비율 4.8 7.9 10.7 16.6 22.9 32.3 42.5 52.9 63.1 74.2 84.9 92.8 96.1 98.7 99.6 100.0 히스토그램과 도수분포표
  • 63. 63 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Histogram vs. Density Plot Probability Density Curve Histogram – Bin Size: 1시간 Histogram – Bin Size: 4시간1 2 3 1 2 3  히스토그램: 도수(빈도)의 분포[도수분포표] 를 차트로 표현한 것  계급: X축에 표현된 변수의 구간[4시간]  X축 변수 구간의 크기(Bin Size)를 4시간에 서 1시간으로 조정하였음  확률밀도: X가 연속형 변수일 경우 X값과 이에 대응하는 확률을 나타낸 그래프  좌측에서 X가 10~20시간 사이의 값을 가 질 확률은 해당 구간의 면적과 동일함
  • 64. 64 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Histogram vs. Density Plot: 서로 다른 두 집단의 분포를 비교 Histogram: 두 그룹의 분포의 차이 비교 Density Plot: 두 그룹의 분포의 차이 비교
  • 65. 65 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Larger Variation, Greater Sampling Error 변화의 폭 ↗ 샘플 데이터 신뢰도 ↘ 평균값에 대한 확신↘ A B Q. 고객들(모집단)의 지출금액 분포, A와 B 중, 신규 캠페인의 효과를 주장(일반화)하기에 더 좋은 것은? 캠페인 고객수 평균 지출 신규 30 10,000 기존 1,500 8,000
  • 66. 66 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know World Cup Match between Brazil vs. Croatia
  • 67. 67 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Percentile Score [정렬된 점수] Percentile Rank Quartile [사분위] 29 8th Q1, 1사분위 (최하위 25%) 32 17th 38 25th 41 33th Q2, 2사분위 (차하위 25%) 53 42th 54 50th 55 58th Q3, 3사분위 (차상위 25%) 74 67th 93 75th 99 83th Q4, 4사분위 (최상위 25%) 134 92th 209 100th Percentile: 전체 관측값들의 분포를 고려했을 때 특정값의 상대적 위치 내 키가 185cm로 20명 중 네번째로 키가 크다면 185cm = 80th Percentile 내 밑으로 80%가 있다!
  • 68. 68 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Percentile 활용하여 주성분(Principal Component) 찾기 비타민, 지방, 섬유질 변수로 채소와 육류 분류하기 • PCA(Principal Component Analysis): 데이터 분류를 쉽게 하는(=데이터가 최대한 퍼지게 하는) 주성분(Principal Component)을 찾는 일. • “Vitamin C – Fat”: Percentile 값으로 바꾸면 해당 변수를 정규화하는 효과 가 있어서 서로 다른 단위를 갖는 변 수들 간 연산이 가능해짐 비타민 C만으로 분류한 경우 육류 아이템이 한 곳에 와글와글 “비타민 C – 지방” 육류가 아래로 퍼지게 됨
  • 69. 69 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Finding Secret Feature Variable Percentile Height 56% Weight 61% Pedigree 70% L
  • Related Search
    We Need Your Support
    Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

    Thanks to everyone for your continued support.

    No, Thanks
    SAVE OUR EARTH

    We need your sign to support Project to invent "SMART AND CONTROLLABLE REFLECTIVE BALLOONS" to cover the Sun and Save Our Earth.

    More details...

    Sign Now!

    We are very appreciated for your Prompt Action!

    x