Notice
Recent Posts
Recent Comments
Link
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Archives
Today
Total
관리 메뉴

hosi_stella

[혼공학습단 8기] 혼공머신 5주차 본문

혼자공부하는 머신러닝+딥러닝

[혼공학습단 8기] 혼공머신 5주차

hosi_stella 2022. 8. 14. 13:28

여름휴가 잘 쉬고, 다시 돌아 왔습니다~! 😎

 

Ch 6. 비지도 학습  - 타깃 없이 데이터의 평균으로 분류

 

군집 알고리즘

   = 비슷한 샘플 끼리 그룹(cluster)으로 모으는 작업 → 대표적인 비지도 학습

 

K-평균 군집 알고리즘

   - elbow 방법 → 최적의 k 찾기

 

차원 축소

   : 데이터를 가장 잘 나타내는 일부 특성만 남겨 데이터 크기를 줄이고 모델의 성능을 향상시키는 방법

     데이터의 차원축소로 저장공간 확보 및 훈련 속도 향상

 

주성분분석 (PCA)

   - 데이터에 있는 분산이 큰 방향으로 찾아 차원을 축소하는 방법

   - 설명된 분산 : 주성분이 원본 데이터의 분산을 얼마나 잘 나타내는지 기록한 값

 


기본 미션 : K-평균 군집 알고리즘 작동 방식 설명하기

 

   K-평균 군집 알고리즘 : 평균값을 클러스터 중심에 위치하면서 데이터 분류

 

 
선택미션 - Ch. 06(06-3) 확인 문제 풀고, 풀이 과정 정리하기
1.특성이 20개인 대량의 데이터셋이 있습니다. 이 데이터셋에서 찾을 수 있는 주성분 개수는 몇 개 일까요?
10
20→ 특성이 20개 이므로 주성분 개수도 20
50
100
 

2. 샘플 개수가 1,000개이고 특성 개수는 100개인 데이터셋이 있습니다. 즉 이 데이터셋의 크기는 (1000, 100) 입니다. 이 데이터를 사이킷런의 PCA 클래스를 사용해 10개의 주성분을 찾아 변환했습니다. 변환된 데이터셋의 크기는 얼마일까요?

(1000, 10) ✅
(10, 1000)
(10, 10)
(1000, 1000)

데이터 셋 : (샘플수, 특성수 )

10개의 주성분으로 변환하였으므로 (1000, 100) -> (1000, 10)

 

 

3. 2번 문제에서 설명된 분산이 가장 큰 주성분은 몇 번째인가요?

첫 번째 주성분주성분분석은 가장 분산이 큰 방향부터 순서대로 찾음
다섯 번째 주성분
열 번째 주성분
알 수 없음

 

Comments