hosi_stella
[혼공학습단 8기] 혼공머신 5주차 본문
여름휴가 잘 쉬고, 다시 돌아 왔습니다~! 😎
Ch 6. 비지도 학습 - 타깃 없이 데이터의 평균으로 분류
군집 알고리즘
= 비슷한 샘플 끼리 그룹(cluster)으로 모으는 작업 → 대표적인 비지도 학습
K-평균 군집 알고리즘
- elbow 방법 → 최적의 k 찾기
차원 축소
: 데이터를 가장 잘 나타내는 일부 특성만 남겨 데이터 크기를 줄이고 모델의 성능을 향상시키는 방법
데이터의 차원축소로 저장공간 확보 및 훈련 속도 향상
주성분분석 (PCA)
- 데이터에 있는 분산이 큰 방향으로 찾아 차원을 축소하는 방법
- 설명된 분산 : 주성분이 원본 데이터의 분산을 얼마나 잘 나타내는지 기록한 값
기본 미션 : K-평균 군집 알고리즘 작동 방식 설명하기
K-평균 군집 알고리즘 : 평균값을 클러스터 중심에 위치하면서 데이터 분류
선택미션 - Ch. 06(06-3) 확인 문제 풀고, 풀이 과정 정리하기
1.특성이 20개인 대량의 데이터셋이 있습니다. 이 데이터셋에서 찾을 수 있는 주성분 개수는 몇 개 일까요?
①10개
②20개 ✅ → 특성이 20개 이므로 주성분 개수도 20개
③50개
④100개
2. 샘플 개수가 1,000개이고 특성 개수는 100개인 데이터셋이 있습니다. 즉 이 데이터셋의 크기는 (1000, 100) 입니다. 이 데이터를 사이킷런의 PCA 클래스를 사용해 10개의 주성분을 찾아 변환했습니다. 변환된 데이터셋의 크기는 얼마일까요?
①(1000, 10) ✅
②(10, 1000)
③(10, 10)
④(1000, 1000)
데이터 셋 : (샘플수, 특성수 )
10개의 주성분으로 변환하였으므로 (1000, 100) -> (1000, 10)
3. 2번 문제에서 설명된 분산이 가장 큰 주성분은 몇 번째인가요?
①첫 번째 주성분✅ → 주성분분석은 가장 분산이 큰 방향부터 순서대로 찾음
②다섯 번째 주성분
③열 번째 주성분
④알 수 없음
'혼자공부하는 머신러닝+딥러닝' 카테고리의 다른 글
[혼공학습단8기] 혼공머신 6주차 (0) | 2022.08.20 |
---|---|
[혼공학습단] 4주차 (0) | 2022.07.28 |
[혼공학습단 8기] 3주차 (0) | 2022.07.24 |
[혼공학습단 8기] 2주차 (0) | 2022.07.17 |
[혼공학습단 8기] 1주차 (0) | 2022.07.10 |
Comments