본문 바로가기

분류 전체보기45

DataScience with Python_L(3) Regression(선형 회귀)는 종속 변수가 연속적인 값을 가질 때, 그 값을 예측하는 데 사용되는 통계 모델이다. 예를 들어, 집 가격, 주식 가격, 온도 등의 연속형 변수 값을 예측하는 데 사용된다BinaryLogit(이진 로지스틱 회귀)는 종속 변수가 두 가지 범주를 가질 때, 그 범주 중 하나에 속할 확률을 예측하는 데 사용되는 통계 모델이다. 예를 들어, 질병이 있는지 여부(예/아니오), 고객이 구매할지 여부(예/아니오)와 같은 이진 결과를 예측하는 데 사용된다. 이를 바탕으로 gender별 심장 질환 예측에서 중요한 예측 변수를 사용하여 강도 점수를 계산하는 team project를 실시함자료 참고: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8215833/ 2024. 7. 29.
DataScience with Python_L(2) 두 그룹 간의 평균 차이를 비교하는 t-Test 세 개 이상의 그룹 간의 평균 차이를 비교하는 Anova test 그룹 간의 평균 차이를 평가하여, 해당 차이가 우연에 의한 것인지 아니면 통계적으로 유의한 것인지를 판단하는 방법 학습 2024. 7. 25.
DataScience with Python_L(1) pandas를 사용한 기본적인 배열 학습data visulize하는 library 학습하고 flood.csv파일로 강수의 요인별 수치를 visualize하는 연습을 함  24.07.15~24.08.09 여름 학기로 베를린 공과대학에서 Data Science 수업을 듣게 되었다.Dr. Hamid Mostofi 교수님의 수업을 듣는다.강의는 기본적인 numpy, pandas와 machine learning , classification(KNN), clustering로 이루어져 있다. 2024. 7. 22.
Matrix - 8주차 스터디 영상: https://www.youtube.com/watch?v=EXHR2-hECRM차원의 저주: 고차원에서 max_dist/min_dist = 1로 수렴한다 (dist는 차원에 여러 점이 있을 때 2점 사이의 거리)(키,몸무게)  ->  (키,몸무게,혈압,허리둘레,나이)로 차원이 높아짐 == 빅데이터 나와 비슷한 사람이 어떤 성향을 갖는가? -> 두 점의 거리가 중요 ; 차원이 커질 수록 거리가 중요하지 않게 됨해결) 데이터 확보(지수적 증가 필요) or 차원 감소(현실적 방안) PCA차원을 2차원에서 1차원으로 낮추다고 생각했을 때 2차원 데이터의 특징을 모두 살리면서 1차원의 데이터로 바꿔줄 수 없다.따라서 최대한 특징을 살리면서 차원을 낮추는 방법이다.공분산 행렬을 사용하여 고유벡터에 정사영하는 .. 2024. 5. 24.