전체 글 30

Stratified Fold란?

📊 StratifiedKFold 완전 이해하기 ❓ 문제: KFold는 완벽한가? KFold는 데이터를 무작위로 K조각으로 나눕니다. 하지만 불균형한 클래스가 있는 경우, 일부 Fold에 특정 클래스가 아예 빠질 수 있습니다! 🍬 비유: 간식 나누기 학생 10명 중 초콜릿 좋아하는 학생은 3명뿐이라고 해볼게요. KFold: 1~10번 순서대로 나누면, 어떤 그룹엔 초콜릿 좋아하는 사람이 0명일 수도! StratifiedKFold: 미리 초콜릿/사탕/쿠키 그룹을 나누고, 각 그룹에서 조금씩 골라서 Fold에 배분 🔍 내부 원리 먼저 정답(label)을 기준으로 클래스별 인덱스 목록을 만듭니다. 각 클래스 바구니..

사이킷런에서 의사결정나무 결정 과정

🌳 머신러닝 결정트리, 처음부터 끝까지 이해하기 🧪 먼저, 우리가 실행한 코드 from sklearn.datasets import load_irisfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.metrics import accuracy_scorefrom sklearn.model_selection import train_test_split# 1. 데이터 불러오기iris = load_iris()# 2. 훈련용/테스트용 데이터 나누기X_train, X_test, y_train, y_test = train_test_split( iris.data, iris.target, test_size=0.3, random_state=121)# 3..

인공지능 2025.07.31

🌸 Iris 데이터로 배우는 머신러닝 분류: K-폴드 교차검증까지🌸 Iris 데이터로 배우는 머신러닝 분류: K-폴드 교차검증까지

앞에서는 Iris 데이터를 이용해 학습과 테스트 데이터로 나눈 뒤 의사결정나무 모델을 학습하고 평가했다. 이번에는 K-폴드 교차검증이라는 기법을 통해 모델을 더 공정하고 안정적으로 평가하는 방법을 배워본다.8. 왜 K-폴드 교차검증을 할까?지금까지는 train_test_split으로 데이터를 학습용과 테스트용으로 한 번만 나눠 평가했다. 하지만 이렇게 한 번만 나누면 운이 좋거나 나쁜 데이터 분할 때문에 평가 결과가 달라질 수 있다.예를 들어, 테스트셋에 너무 쉬운 데이터만 들어가면 정확도가 높게 나오고, 반대로 어려운 데이터만 들어가면 낮게 나올 수 있다.그래서 더 공정한 방법이 필요한데, 바로 K-폴드 교차검증이다.9. K-폴드 교차검증 원리데이터를 K개의 덩어리로 나눈다. (예: 5개의 폴드)그중 ..

카테고리 없음 2025.07.18