2025/08 2

피처 스케일링과 정규화

이상치에 민감한 기법과, 이상치 영향을 줄이는 기법 정리스케일링은 피처(열)별 수치 범위를 맞추는 작업이고, 정규화는 샘플(행)별 벡터의 크기를 1로 맞추는 작업이다. 어떤 기법은 이상치에 민감하고, 어떤 기법은 비교적 둔감하다. 1) 이상치에 민감한 기법StandardScaler평균을 기준점으로 잡고 표준편차로 나누어 표준화하는 방식이다.z = (x - μ) / σ여기서 μ는 평균, σ는 표준편차이다. 평균과 표준편차는 극단값의 영향을 크게 받는다. 데이터에 1000 같은 큰 값이 하나 섞이면 평균과 표준편차가 끌려 올라가고, 정상 구간(예: 10~15)은 z-스케일에서 서로 바싹 붙어버린다. 결국 정상 구간의 미세한 차이가 뭉개지는 문제가 생긴다. 실전에서는 먼저 이상치 유무를 확인하고, 필요하면 클..

인공지능 2025.08.27

0827 데이터 정리

지도학습과 비지도학습, 그리고 인코딩1) 지도학습 과 비지도 학습지도학습(분류, 회귀) SVM, 로지스틱 회귀, 선형회귀, 랜덤 포레스트비지도학습(군집, 차원축소)[구분 · 주요 방식 · 대표 알고리즘 · 개념 설명] 구분 주요 방식 대표 알고리즘 개념 설명 지도학습(Supervised Learning) 회귀 (Regression) 선형회귀(Linear Regression), 리지/라쏘, 결정트리 회귀 입력 → 연속적인 수치 출력.예: 집 크기 → 집값 예측 분류 (Classification) 로지스틱 회귀, SVM, KNN, 랜덤포레스트, 나이브베이즈 입력 ..

카테고리 없음 2025.08.27