본문 바로가기

TUB_SummerSchool5

DataScience with Python_L(5) 2024. 8. 19.
DataScience with Python_L(4) PCA (Principal Component Analysis): PCA는 고차원 데이터를 저차원으로 축소하는 기법이다. 데이터의 분산을 최대한 유지하면서, 데이터의 주요 패턴을 찾기 위해 서로 직교하는 새로운 축(주성분)을 생성한다. 이를 통해 데이터의 차원을 줄이고, 노이즈를 줄이며, 시각화나 다른 알고리즘에서의 성능을 향상시킨다.KNN (K-Nearest Neighbors): KNN은 지도 학습 알고리즘으로, 새로운 데이터 포인트의 classification이나 regression를 수행할 때 사용된다. 이 알고리즘은 입력 데이터 포인트의 주변에 있는 가장 가까운 K개의 이웃을 기준으로 클래스를 예측하거나 값을 할당한다. 데이터의 분포를 잘 반영할 수 있는 상황에서 유용하다.Clustering: 클러.. 2024. 8. 19.
DataScience with Python_L(3) Regression(선형 회귀)는 종속 변수가 연속적인 값을 가질 때, 그 값을 예측하는 데 사용되는 통계 모델이다. 예를 들어, 집 가격, 주식 가격, 온도 등의 연속형 변수 값을 예측하는 데 사용된다BinaryLogit(이진 로지스틱 회귀)는 종속 변수가 두 가지 범주를 가질 때, 그 범주 중 하나에 속할 확률을 예측하는 데 사용되는 통계 모델이다. 예를 들어, 질병이 있는지 여부(예/아니오), 고객이 구매할지 여부(예/아니오)와 같은 이진 결과를 예측하는 데 사용된다. 이를 바탕으로 gender별 심장 질환 예측에서 중요한 예측 변수를 사용하여 강도 점수를 계산하는 team project를 실시함자료 참고: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8215833/ 2024. 7. 29.
DataScience with Python_L(2) 두 그룹 간의 평균 차이를 비교하는 t-Test 세 개 이상의 그룹 간의 평균 차이를 비교하는 Anova test 그룹 간의 평균 차이를 평가하여, 해당 차이가 우연에 의한 것인지 아니면 통계적으로 유의한 것인지를 판단하는 방법 학습 2024. 7. 25.