728x90
10일차 TIL !
오늘은 코딩 공부는 잠시 미뤄두고
저번 아티클 스터디 때 다뤘던 데이터 리터러시에 대해 좀 더 공부해보고자 한다
목차
- 데이터 리터리시
- 문제 정의
- 데이터의 유형
- 지표 설정
- 결론 도출
01. 데이터 리터러시
1) 데이터 리터리시의 정의
데이터 리터리시
- 데이터를 읽는 능력
- 데이터를 이해하는 능력
- 데이터를 비판적으로 분석하는 능력
- 결과를 의사소통에 활용할 수 있는 능력
데이터 리터리시란?
- 데이터 수집과 데이터 원천을 이해
- 주어진 데이터에 대한 다양한 활용법을 이해
- 데이터를 통한 핵심지표를 이해
- 올바른 질문을 던질 수 있도록 만들어 줌
2) 데이터 분석에 대한 착각
데이터 분석 학습에 대한 일반적 접근
- 보통 데이터 분석을 배운다고 한다면, SQL, Python, Tableau 등을 학습
- 막상 데이터 분석을 하려고 보면 잘 되지 않음
데이터 분석에 대한 착각
- 데이터를 잘 분석하면 문제, 목적, 결론이 나올 것이라고 착각
- 데이터를 잘 가공하면 유용한 정보를 얻을 수 있다고 착각
- 분석에 실패하면 방법론, 스킬이 부족한 것이라고 착각
3) 데이터 해석 오류 사례
심슨의 역설(Simpson's Paradox)
- 심슨의 패러독스 : 부분에서 성립한 대소 관계가 그 부분들을 종합한 전체에 대해서는 성립하지 않는 모순
- 전체에 대한 결론이 언제나 개별 집단에 그대로 적용되는 것은 아님
- 데이터에 기반한 결론이라고 해서 이를 맹목적으로 받아들여서는 안됨
시각화를 활용한 왜곡
- 자료의 표현 방법에 따라서 해석의 오류 여지가 존재
- 왼쪽은 있는 그대로의 자료
- 중간은 증가량에 로그를 취한 자료
- 오른쪽은 노동자와 자본가의 최초 수입을 100%로 놓고 이후의 증가율에 대한 자료
샘플링 편향(Sampling Bias)
- 1936년 미국 대통령 선거에서 Literary Digest 잡지사가 천만 명에게 우편물을 보내 수행한 대규모 여론조사 사례
- 240만 명의 응답을 받았고 랜던이 선거에서 57% 득표를 얻을 것이라고 높은 신뢰도로 예측했지만, 루즈벨트가 62% 득표로 당선
문제는 Literary Digest의 샘플링 방법
- 여론조사용 주소를 얻기 위해 전화번호부, 자사의 구독자 명부, 클럽 회원 명부 등을 사용. 이런 명부는 모두 랜던에 투표할 가능성이 높은 부유한 계층에 편중된 경향이 존재
- 우편물 수신자 중 25% 미만의 사람이 응답. 이는 정치에 관심 없는 사람. Literary Digest를 싫어하는 사람과 중요한 그룹을 제외시킴으로써 역시 표본을 편향되게 만듦
표본이 편향되면서 실제와는 다르게 해석하게 될 수 있음
상관관계와 인과관계
상관관계
- 두 변수가 얼마나 상호 의존적인지를 파악하는 것을 의미
- 파악 방법은 한 변수가 증가하면 다른 변수도 따라서 증가/감소하되 그 추이를 따름
인과관계
- 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태를 의미
- 원인과 결과가 명확한 것
상관관계는 인과관계가 아닌 것을 항상 유의해야 함
- 상관관계만으로 섣불리 의사결정 하지 않기
- 양쪽을 모두 활용하여 합리적인 의사판단
4) 데이터 리터리시가 필요한 이유
데이터 분석에 대한 접근법
- 문제 및 가설정의
- 데이터 분석
- 결과 해석 및 액션 도출
- 위 단계 중 생각이 주요한 단계에서 데이터 리터러시가 필요함
- 데이터 분석이 목적이 되지 않도록 '왜?'를 항상 생각해야 함
01. 문제 정의
1) 문제 정의
데이터 분석에 실패하는 이유?
풀고자 하는 문제를 명확하게 정의하지 않음
문제정의란
- 데이터 분석 프로젝트의 성공을 위한 초석
- 분석하려는 특정 상황이나 현상에 대한 명확하고 구체적인 진술
- 프로젝트의 목표를 설정하고 분석 방향을 설정
2) 문제 정의 방법론
MECE (Mutually Exclusive, Collectively Exhaustive)
- 문제 해결과 분석에서 널리 사용되는 접근 방식
- 문제를 상호 배타적(mutually exclusive)이면서, 전체적으로 포괄적(collectively exhaustive)인 구성요소로 나누는 것
- MECE를 통해 복잡한 문제를 체계적으로 분해하고, 구조화된 방식으로 분석할 수 있음
로직 트리(Logic Tree)
- MECE 원칙을 기반으로 복잡한 문제를 더 작고 관리하기 쉬운 하위 문제로 분해하는데 사용
- 상위 문제로부터 시작하여 하위 문제로 계층적 접근
- 일반적으로 도표 형식으로 표현되어 쉽게 파악할 수 있음
- 로직트리를 활용하여 문제정의 해보기
01. 데이터의 유형
정성적 데이터 (Qualitative Data)
- 비수치적인 정보로 사람의 경험, 관점, 태도와 같은 주관적인 요소를 포함
- 대부분 텍스트, 비디오, 오디오 형태로 존재
- 정형되지 않고 구조화 되어있지 않음
- 데이터를 구조화하기 어려움
- 새로운 현상이나 개념에 대한 이해를 심화하는데 사용
정량적 데이터 (Quantitative Data)
- 수치적으로 표현되는 정보로 양적인 측정과 분석을 통해 얻을 수 있음
- 데이터가 숫자 형태로 존재하기 때문에 통계적으로 분석하기 쉬움
- 개인의 해석이나 주관이 적게 작용하는 객관성을 가지고 있음
- 지표로 만들기에 용이
- 설문조사, 실험, 인구 통계, 지표 분석 등에 활용
01. 지표 설정
지표란?
- 특정 목표나 성과를 측정하기 위한 구체적이고 측정 가능한 기준
- 목표 달성도를 평가하고 전략적 결정에 필요한 핵심 정보를 제공
- 정의한 문제에 대해 정확하게 파악하기 위해서 필요
02. 주요 지표
- Active User (활성유저)
- Retention Ratio (재방문율)
- Funnel (퍼널)
- LTV (Life Time Value)
03. 북극성 지표
북극성 지표란?
- 제품/서비스의 ‘성공’을 정의
- 제품/서비스가 유저에게 주는 core value를 가장 잘 나타낸 것
- 장기 성장을 위해 필수적으로 모니터링 해야 함
좋은 북극성 지표의 특징
- 제품/서비스 전략의 핵심
- 유저/고객이 제품/서비스에서 느끼는 가치
- 회사의 사업 목표를 나타내는 지표 중 선행지표 (후행X)
좋은 북극성 지표를 위한 체크리스트
- 유저가 목적을 달성하는 때가 언제인가?
- 모든 유저가 해당되나?
- 측정 가능한 지표인가?
- 측정 주기가 적절한가? (일, 주, 월, …)
- 외부 요인으로부터 영향을 많이 받진 않는가?
- 북극성지표의 성장이 사업의 성장과 함께하는가?
- AARRR 퍼널 전 과정이 북극성 지표에 영향을 주는가?
- 북극성 지표의 변화가 적어도 매주 관찰가능한가?
좋지 않은 북극성 지표의 예
- 외부 요인의 영향을 많이 받는 지표
- 유저/고객의 전체 여정을 반영하지 않는 지표
- 유저/고객이 직접 가치를 느낄 수 없는 지표
- 측정 불가하거나, 기간 설정이 안되는 지표
- 상황에 따라 위 지표들도 북극성 지표가 될 수 있음
북극성 지표가 중요한 이유
방향성
- 제품/사업 조직이 무엇에 최적화되어야 하고, 무엇을 포기해도 되는 지에 대한 방향 제시
- 제품/사업 조직의 진척과 가치창출을 전사에 보여줌
- 지원 조직이 더욱 적극적으로 지원, 제품개발 액션 실행속도가 빨라짐
- 제품/서비스 조직이 결과에 책임을 지도록 함
- 비즈니스 임팩트에 따라 평가가 가능
효율 증대
- 전 직원을 하나의 목표에 집중시킴
- 서로 상반된 목표에 집중하거나, 중복으로 일하는 것을 방지 (MECE한 구조)
01. 결론 도출
1) 결과와 결론의 차이
결과
- 데이터 처리, 분석, 모델링 후에 얻어진 구체적인 데이터의 출력
- 숫자, 통계, 그래프, 차트 등의 형태로 나타낼 수 있음
- ex) “고객 설문 조사 데이터를 분석한 결과, 고객 만족도와 구매 빈도 사이에 강한 상관관계가 있음을 보여줄 수 있습니다.”
- 계산과 분석을 해서 나온 결과물
결론
- 분석된 데이터 결과를 바탕으로 이끌어낸 의미나 통찰
- 데이터에 기반한 해석, 추론 또는 권고 사항을 포함
- ex) “고객 만족도와 구매 빈도 사이의 강한 상관관계를 보여주는 결과를 토대로, 고객 만족도 향상이 전반적인 매출 증가로 이어질 수 있다는 결론을 내릴 수 있습니다.”
- 목적에 대해 어떤 의미가 있는지 설명하는 것
실제로 우리가 필요한 것은 ‘결론’이지만, 보통 결과를 많이 이야기 함
이르는 과정은 본질적으로 동일하지만, 표현 방식이 다름
결론 도출 시 주의사항
- 결과 - 결론 도출 시에는 스토리텔링이 필요
- 그러나, 필요 이상으로 자신의 해석을 융합하면 안됨
- 데이터를 통해 알 수 있는 범위에서만 생각해야 함
2) 결론을 잘 정리하는 법
- 앞서 문제 정의, 지표 설정을 할 당시의 목적을 떠올리며 정리
- 결론을 공유할 대상이 누구이며, 어떻게 변화하길 원하는지? 생각하기
- 단순하고 쉽게 전달
- 흥미 유발
- 대상자 관점에서의 접근
- 시각화 팁
- 결론 보고서에 쓰면 좋은 플로우
- 정리