카테고리 없음

10. TIL) 아티클 스터디 - 데이터 리터러시

kaseomi 2024. 12. 30. 17:42
728x90

10일차 TIL !

오늘은 코딩 공부는 잠시 미뤄두고

저번 아티클 스터디 때 다뤘던 데이터 리터러시에 대해 좀 더 공부해보고자 한다

목차

  1. 데이터 리터리시
  2. 문제 정의
  3. 데이터의 유형
  4. 지표 설정
  5. 결론 도출

01. 데이터 리터러시

1) 데이터 리터리시의 정의

데이터 리터리시

  • 데이터를 읽는 능력
  • 데이터를 이해하는 능력
  • 데이터를 비판적으로 분석하는 능력
  • 결과를 의사소통에 활용할 수 있는 능력

데이터 리터리시

 

데이터 리터리시란?

  1. 데이터 수집과 데이터 원천을 이해
  2. 주어진 데이터에 대한 다양한 활용법을 이해
  3. 데이터를 통한 핵심지표를 이해
  4. 올바른 질문을 던질 수 있도록 만들어 줌

2) 데이터 분석에 대한 착각

데이터 분석 학습에 대한 일반적 접근

  • 보통 데이터 분석을 배운다고 한다면, SQL, Python, Tableau 등을 학습
  • 막상 데이터 분석을 하려고 보면 잘 되지 않음

데이터 분석에 대한 착각

  • 데이터를 잘 분석하면 문제, 목적, 결론이 나올 것이라고 착각
  • 데이터를 잘 가공하면 유용한 정보를 얻을 수 있다고 착각
  • 분석에 실패하면 방법론, 스킬이 부족한 것이라고 착각

3) 데이터 해석 오류 사례

심슨의 역설(Simpson's Paradox)

  • 심슨의 패러독스 : 부분에서 성립한 대소 관계가 그 부분들을 종합한 전체에 대해서는 성립하지 않는 모순
  • 전체에 대한 결론이 언제나 개별 집단에 그대로 적용되는 것은 아님
  • 데이터에 기반한 결론이라고 해서 이를 맹목적으로 받아들여서는 안됨

 

시각화를 활용한 왜곡

- 자료의 표현 방법에 따라서 해석의 오류 여지가 존재

매해 노동자와 자본가가 버는 시간당 액수의 증가를 세 가지 방식으로 나타낸 사례

  • 왼쪽은 있는 그대로의 자료
  • 중간은 증가량에 로그를 취한 자료
  • 오른쪽은 노동자와 자본가의 최초 수입을 100%로 놓고 이후의 증가율에 대한 자료

샘플링 편향(Sampling Bias)

전체를 대표하지 못하는 편향된 샘플 선정으로 인해 오류가 발생

  • 1936년 미국 대통령 선거에서 Literary Digest 잡지사가 천만 명에게 우편물을 보내 수행한 대규모 여론조사 사례
  • 240만 명의 응답을 받았고 랜던이 선거에서 57% 득표를 얻을 것이라고 높은 신뢰도로 예측했지만, 루즈벨트가 62% 득표로 당선

문제는 Literary Digest의 샘플링 방법

  1. 여론조사용 주소를 얻기 위해 전화번호부, 자사의 구독자 명부, 클럽 회원 명부 등을 사용. 이런 명부는 모두 랜던에 투표할 가능성이 높은 부유한 계층에 편중된 경향이 존재
  2. 우편물 수신자 중 25% 미만의 사람이 응답. 이는 정치에 관심 없는 사람. Literary Digest를 싫어하는 사람과 중요한 그룹을 제외시킴으로써 역시 표본을 편향되게 만듦

표본이 편향되면서 실제와는 다르게 해석하게 될 수 있음

 

상관관계와 인과관계

상관관계

  • 두 변수가 얼마나 상호 의존적인지를 파악하는 것을 의미
  • 파악 방법은 한 변수가 증가하면 다른 변수도 따라서 증가/감소하되 그 추이를 따름

 

인과관계

  • 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태를 의미
  • 원인과 결과가 명확한 것

 

상관관계는 인과관계가 아닌 것을 항상 유의해야 함

  • 상관관계만으로 섣불리 의사결정 하지 않기
  • 양쪽을 모두 활용하여 합리적인 의사판단

4) 데이터 리터리시가 필요한 이유

데이터 분석에 대한 접근법

 

데이터 분석 접근법

  1. 문제 및 가설정의
  2. 데이터 분석
  3. 결과 해석 및 액션 도출
  • 위 단계 중 생각이 주요한 단계에서 데이터 리터러시가 필요함
  • 데이터 분석이 목적이 되지 않도록 '왜?'를 항상 생각해야 함

01. 문제 정의

1) 문제 정의

데이터 분석에 실패하는 이유?

풀고자 하는 문제를 명확하게 정의하지 않음

 

문제정의란

  • 데이터 분석 프로젝트의 성공을 위한 초석
  • 분석하려는 특정 상황이나 현상에 대한 명확하고 구체적인 진술
  • 프로젝트의 목표를 설정하고 분석 방향을 설정

2) 문제 정의 방법론

 

MECE (Mutually Exclusive, Collectively Exhaustive)

  • 문제 해결과 분석에서 널리 사용되는 접근 방식
  • 문제를 상호 배타적(mutually exclusive)이면서, 전체적으로 포괄적(collectively exhaustive)인 구성요소로 나누는 것
  • MECE를 통해 복잡한 문제를 체계적으로 분해하고, 구조화된 방식으로 분석할 수 있음

로직 트리(Logic Tree)

  • MECE 원칙을 기반으로 복잡한 문제를 더 작고 관리하기 쉬운 하위 문제로 분해하는데 사용
  • 상위 문제로부터 시작하여 하위 문제로 계층적 접근
  • 일반적으로 도표 형식으로 표현되어 쉽게 파악할 수 있음
  • 로직트리를 활용하여 문제정의 해보기

01. 데이터의 유형

정성적 데이터 (Qualitative Data)

  • 비수치적인 정보로 사람의 경험, 관점, 태도와 같은 주관적인 요소를 포함
  • 대부분 텍스트, 비디오, 오디오 형태로 존재
  • 정형되지 않고 구조화 되어있지 않음
  • 데이터를 구조화하기 어려움
  • 새로운 현상이나 개념에 대한 이해를 심화하는데 사용

정량적 데이터 (Quantitative Data)

  • 수치적으로 표현되는 정보로 양적인 측정과 분석을 통해 얻을 수 있음
  • 데이터가 숫자 형태로 존재하기 때문에 통계적으로 분석하기 쉬움
  • 개인의 해석이나 주관이 적게 작용하는 객관성을 가지고 있음
  • 지표로 만들기에 용이
  • 설문조사, 실험, 인구 통계, 지표 분석 등에 활용

데이터 유형별 비교


01. 지표 설정

지표란?

  • 특정 목표나 성과를 측정하기 위한 구체적이고 측정 가능한 기준
  • 목표 달성도를 평가하고 전략적 결정에 필요한 핵심 정보를 제공
  • 정의한 문제에 대해 정확하게 파악하기 위해서 필요

문제정의 vs 지표 설정


02. 주요 지표

  •  
  1. Active User (활성유저)
  2. Retention Ratio (재방문율)
  3. Funnel (퍼널)
  4. LTV (Life Time Value)

03. 북극성 지표

북극성 지표란?

  • 제품/서비스의 ‘성공’을 정의
  • 제품/서비스가 유저에게 주는 core value를 가장 잘 나타낸 것
  • 장기 성장을 위해 필수적으로 모니터링 해야 함

좋은 북극성 지표의 특징

  • 제품/서비스 전략의 핵심
  • 유저/고객이 제품/서비스에서 느끼는 가치
  • 회사의 사업 목표를 나타내는 지표 중 선행지표 (후행X)

좋은 북극성 지표를 위한 체크리스트

  • 유저가 목적을 달성하는 때가 언제인가?
  • 모든 유저가 해당되나?
  • 측정 가능한 지표인가?
  • 측정 주기가 적절한가? (일, 주, 월, …)
  • 외부 요인으로부터 영향을 많이 받진 않는가?
  • 북극성지표의 성장이 사업의 성장과 함께하는가?
  • AARRR 퍼널 전 과정이 북극성 지표에 영향을 주는가?
  • 북극성 지표의 변화가 적어도 매주 관찰가능한가?

좋지 않은 북극성 지표의 예

  • 외부 요인의 영향을 많이 받는 지표
  • 유저/고객의 전체 여정을 반영하지 않는 지표
  • 유저/고객이 직접 가치를 느낄 수 없는 지표
  • 측정 불가하거나, 기간 설정이 안되는 지표
  • 상황에 따라 위 지표들도 북극성 지표가 될 수 있음

북극성 지표가 중요한 이유

 

방향성

  • 제품/사업 조직이 무엇에 최적화되어야 하고, 무엇을 포기해도 되는 지에 대한 방향 제시
  • 제품/사업 조직의 진척과 가치창출을 전사에 보여줌
    • 지원 조직이 더욱 적극적으로 지원, 제품개발 액션 실행속도가 빨라짐
  • 제품/서비스 조직이 결과에 책임을 지도록 함
    • 비즈니스 임팩트에 따라 평가가 가능

효율 증대

  • 전 직원을 하나의 목표에 집중시킴
  • 서로 상반된 목표에 집중하거나, 중복으로 일하는 것을 방지 (MECE한 구조)

01. 결론 도출

1) 결과와 결론의 차이

결과

  • 데이터 처리, 분석, 모델링 후에 얻어진 구체적인 데이터의 출력
  • 숫자, 통계, 그래프, 차트 등의 형태로 나타낼 수 있음
  • ex) “고객 설문 조사 데이터를 분석한 결과, 고객 만족도와 구매 빈도 사이에 강한 상관관계가 있음을 보여줄 수 있습니다.”
  • 계산과 분석을 해서 나온 결과물

결론

  • 분석된 데이터 결과를 바탕으로 이끌어낸 의미나 통찰
  • 데이터에 기반한 해석, 추론 또는 권고 사항을 포함
  • ex) “고객 만족도와 구매 빈도 사이의 강한 상관관계를 보여주는 결과를 토대로, 고객 만족도 향상이 전반적인 매출 증가로 이어질 수 있다는 결론을 내릴 수 있습니다.”
  • 목적에 대해 어떤 의미가 있는지 설명하는 것

실제로 우리가 필요한 것은 ‘결론’이지만, 보통 결과를 많이 이야기 함

이르는 과정은 본질적으로 동일하지만, 표현 방식이 다름

 

결론 도출 시 주의사항

  • 결과 - 결론 도출 시에는 스토리텔링이 필요
  • 그러나, 필요 이상으로 자신의 해석을 융합하면 안됨
    • 데이터를 통해 알 수 있는 범위에서만 생각해야 함

2) 결론을 잘 정리하는 법

  • 앞서 문제 정의, 지표 설정을 할 당시의 목적을 떠올리며 정리
  • 결론을 공유할 대상이 누구이며, 어떻게 변화하길 원하는지? 생각하기

 

  • 단순하고 쉽게 전달
  • 흥미 유발
  • 대상자 관점에서의 접근
  • 시각화 팁
  • 결론 보고서에 쓰면 좋은 플로우
  • 정리