카테고리 없음

29. TIL) 머신러닝의 이해와 라이브러리 활용 심화 3차시 - 비지도학습 / 아티클 스터디 - 데이터 리터리시

kaseomi 2025. 1. 27. 15:00
728x90

1.1 지도학습과 비지도학습

지도학습(Supervised Learning)

문제(X)와 정답(Y)가 주어지고, 문제(X)가 주어졌을 때 정답(Y)을 예측하는 학습 방법이다.
대표적인 알고리즘으로 회귀와 분류가 있으며, 예를 들어 타이타닉 생존 예측이나 이메일 스팸 분류 문제에 활용된다.

비지도학습(Unsupervised Learning)

정답(Y)이 주어지지 않은 상태에서, 데이터 간의 유사성을 이용하여 데이터를 그룹화하거나 패턴을 찾는 학습 방법이다.
예를 들어, 고객 특성에 따른 그룹화(헤비유저와 일반유저)나 구매 내역을 기반으로 생필품 데이터를 그룹화할 수 있다.


  • 머신러닝 개요
    머신러닝은 지도학습, 비지도학습, 강화학습으로 나뉘며, 학습 유형에 따라 데이터 처리 방식이 달라진다.
  • 비지도 학습 예시
    • 고객 특성에 따른 그룹화: 예) 헤비유저와 일반유저 구분
    • 구매 내역별 데이터 그룹화: 예) 생필품 구매 데이터 분류

머신러닝 개요


2.1 붓꽃 데이터를 이용한 군집화 예시

K-평균 군집화(K-means Clustering)

가장 일반적으로 사용되는 군집화 알고리즘으로, 데이터를 유사성에 따라 K개의 군집으로 나누는 방법이다.
이 알고리즘을 붓꽃 데이터(iris)를 이용하여 쉽게 이해할 수 있다.


데이터

  • 붓꽃 데이터 특성
    • sepal_length: 꽃 받침의 길이
    • sepal_width: 꽃 받침의 너비
    • petal_length: 꽃 잎의 길이
    • petal_width: 꽃 잎의 너비
    • species(Y, 레이블): 붓꽃 종 (setosa, virginica, versicolor)
  • K-평균 군집화의 주요 단계
    1. 군집의 개수(K)를 설정한다.
    2. 초기 군집 중심점을 랜덤으로 설정한다.
    3. 각 데이터 포인트를 가장 가까운 군집 중심점에 할당한다.
    4. 각 군집의 중심점을 재계산한다.
    5. 중심점의 변화가 없을 때까지 3~4단계를 반복한다.

Labeling이 안된 꽃 받침 길이-너비 산점도
Labeling이 된 꽃 받침 길이 - 너비 산점도


2.2 K-Means Clustering 이론

K-Means Clustering 수행 순서

군집 수 설정

  1. K개 군집 수 설정
  2. 임의의 중심 선정
  3. 해당 중심점과 거리가 가까운 데이터를 그룹화
  4. 데이터 그룹의 무게 중심으로 중심점을 이동
  5. 중심점을 이동한 후 다시 거리가 가까운 데이터를 그룹화
    • 3~5단계를 반복하며, 중심점이 더 이상 이동하지 않을 때 알고리즘 종료

분석가는 임의로 설정한 K개의 군집 수(예: 3)를 기준으로 데이터 군집화 프로세스를 진행한다.


  • 장점
    • 일반적이고 적용하기 쉬운 알고리즘이다.
  • 단점
    • 거리 기반으로 측정하므로 차원이 많아질수록 정확도가 낮아진다.
    • 반복 횟수가 많아질수록 계산 시간이 느려진다.
    • 군집의 개수(K)를 설정하는 기준이 주관적이다.
    • 평균을 중심으로 계산하기 때문에 이상치에 취약하다.
  • Python 라이브러리
    • sklearn.cluster.KMeans
      • 함수 입력 값
        • n_clusters: 군집화 개수
        • max_iter: 최대 반복 횟수
      • 메소드
        • labels_: 각 데이터 포인트가 속한 군집 레이블
        • cluster_centers_: 각 군집 중심점의 좌표

3.3 군집평가 지표

실루엣 계수(Silhouette Coefficient)

비지도 학습 특성상 답이 없어 평가가 쉽지 않다. 하지만 군집화가 잘되었다는 것은 다른 군집 간의 거리는 멀고, 동일 군집 내 데이터 간 거리는 가까운 상태를 의미한다.

실루엣


  • 실루엣 분석(Silhouette Analysis)
    군집 간의 분리가 얼마나 효율적으로 이루어졌는지 정량화하는 방법이다.

  • 실루엣 계수
    • 수식:  

  • a(i): 데이터 포인트 i가 같은 군집 내 다른 포인트들과의 평균 거리
  • b(i): 데이터 포인트 i와 가장 가까운 다른 군집 간의 평균 거리
  • 해석:
    • 1에 가까울수록 군집화가 잘되었음을 의미
    • -1에 가까울수록 군집화가 잘못되었음을 의미

실루엣 계수는 데이터 i가 얼마나 다른 군집과 잘 분리되어 있는지를 나타내며, b(i) - a(i)가 클수록 높아지고, 이를 정규화하기 위해 max(a(i), b(i))로 나눈다.


  • 좋은 군집화의 조건
    • 실루엣 계수 값이 높을수록(1에 가까울수록)
    • 개별 군집의 평균 값 간 편차가 크지 않을수록
  • Python 라이브러리
    • sklearn.metrics.silhouette_score
      • 기능: 전체 데이터의 실루엣 계수 평균값 반환
      • 함수 입력 값
        • X: 데이터 세트
        • labels: 군집 레이블
        • metric: 거리 측정 기준 (기본값은 euclidean)

아티클 스터디

데이터 리터러시(Data Literacy)는 데이터를 이해하고 활용하는 능력을 의미한다. 이러한 능력을 향상시키기 위해 다음과 같은 방법들을 고려할 수 있다.

  1. 데이터의 중요성 인식: 데이터가 의사결정과 문제 해결에 어떻게 기여하는지 이해한다.
  2. 기초 통계 지식 습득: 평균, 중앙값, 분산 등 기본적인 통계 개념을 학습하여 데이터를 해석하는 능력을 기른다.
  3. 데이터 시각화 도구 활용: 그래프나 차트를 통해 데이터를 시각적으로 표현하여 인사이트를 도출한다.
  4. 데이터 윤리 이해: 데이터 수집과 활용 시 개인정보 보호 등 윤리적인 측면을 고려한다.
  5. 실제 데이터 분석 경험 축적: 프로젝트나 사례를 통해 실제 데이터를 다루며 분석 역량을 강화한다.

아티클 출처 - https://yozm.wishket.com/magazine/detail/1632/

 

데이터 리터러시(Data Literacy)를 올리는 방법 | 요즘IT

화해팀은 일찍이 데이터의 중요성을 강조해왔는데요. 조직 전반적으로 데이터 활용력을 높이고, 데이터 의사결정 문화를 활성화하기 위해 많은 시도를 해왔습니다. 데이터를 거의 실시간에 가

yozm.wishket.com

 

  • 요약: 데이터 리터러시는 데이터를 이해하고 활용하는 능력으로, 현대 사회에서 필수적인 역량이다.
  • 주요 포인트: 데이터의 중요성 인식, 기초 통계 지식 습득, 데이터 시각화 도구 활용, 데이터 윤리 이해, 실제 데이터 분석 경험 축적
  • 핵심 개념: 데이터 리터러시는 데이터를 통해 의사결정을 내리고 문제를 해결하는 데 필요한 지식과 기술을 포함한다.
  • 용어 정리:
    • 데이터 리터러시: 데이터를 읽고, 분석하며, 적절히 사용하는 능력
    • 통계 개념: 평균, 중앙값, 분산 등 데이터를 이해하는 기본적인 지식
    • 데이터 윤리: 데이터 수집과 활용 시 준수해야 할 윤리적 규범