본문 바로가기
TUB_SummerSchool

DataScience with Python_L(4)

by 민지기il 2024. 8. 19.

Clustering(unsupLearn).ipynb
0.17MB
DimensionReduction(Unsup).ipynb
0.20MB
KNN_DecisionTree.ipynb
1.35MB

 

 

 

PCA (Principal Component Analysis): PCA는 고차원 데이터를 저차원으로 축소하는 기법이다. 데이터의 분산을 최대한 유지하면서, 데이터의 주요 패턴을 찾기 위해 서로 직교하는 새로운 축(주성분)을 생성한다. 이를 통해 데이터의 차원을 줄이고, 노이즈를 줄이며, 시각화나 다른 알고리즘에서의 성능을 향상시킨다.

KNN (K-Nearest Neighbors): KNN은 지도 학습 알고리즘으로, 새로운 데이터 포인트의 classification이나 regression를 수행할 때 사용된다. 이 알고리즘은 입력 데이터 포인트의 주변에 있는 가장 가까운 K개의 이웃을 기준으로 클래스를 예측하거나 값을 할당한다. 데이터의 분포를 잘 반영할 수 있는 상황에서 유용하다.

Clustering: 클러스터링은 unsupervised 학습 방법 하나로, 데이터셋을 유사한 특성을 가진 그룹(클러스터)으로 나누는 작업이다. 대표적인 클러스터링 알고리즘으로는 K-평균(K-Means) 계층적 클러스터링(Hierarchical Clustering) 있다. 클러스터링은 데이터의 패턴을 찾고, 그룹을 식별하며, 데이터 분석의 초기 단계에서 사용된다.

'TUB_SummerSchool' 카테고리의 다른 글

DataScience with Python_L(5)  (0) 2024.08.19
DataScience with Python_L(3)  (0) 2024.07.29
DataScience with Python_L(2)  (0) 2024.07.25
DataScience with Python_L(1)  (1) 2024.07.22