전체 글 30

[데이터 수집하고 분석하기] 유튜브 api를 음원 분석 하고 생성형 ai로 생성하기 프로젝트 1차

나는 어렸을때 비디오를 많이 보았다. 울산에서 부터 서울까지 올라오며 이사를 많이 다녀서 그런지, 또래 친구들과 놀기보단 집에서 비디오 테이프를 많이 보여주셨는데, 토이스토리를 가장 많이 봤던 것 같다. 토이스토리 2 비디오가 내가 가장 좋아하는 비디오 였고 그중 버즈라이트이어 를 가장 좋아했었다.중고등학교 때에는 어린아이들이 뽀로로를 가장 좋아한다고 들었다. 오죽하면 초등학생 대통령 뽀통령이라고 까지 들었을까. 뽀로로가 옷을 입게 된 이유도 뽀로로도 옷을 안입잖아! 라는 아이의 말을 듣고 어떤 어머니가 문의를 줘서 그렇다나 뭐라나...요즘은 또 핑크퐁, 엘사, 티니핑 등등 새로운 ip들이 나타나고 있다. 넘쳐나는 데이터 속에서 다양한 데이터들이 있지만, 그중에서 어떤 데이터를 어떻게 사용하고,ai를 적..

인공지능 2025.09.09

서울시 자전거 수요 데이터(Seoul Bike Sharing) 분석 & 시각화+상관관계 분석

데이터셋: UCI - Seoul Bike Sharing Demand · 파일: SeoulBikeData.csv (약 0.58MB)목표: 기본 EDA(결측/중복/범주 분포)와 간단한 시각화(막대/원형/히스토그램/산점도)를 통해 날씨·계절 등 요소와 대여량의 관계를 직관적으로 파악한다.1) 데이터 로드import pandas as pdimport matplotlib.pyplot as pltdf = pd.read_csv("SeoulBikeData.csv", encoding="cp949") # 파일 읽기 (한글 인코딩)print(df.shape) # (행, 열) → 예: (8760, 14)print(df.columns) # 컬럼명print(df.head()) # 상위 5행 미리보기2) 결..

인공지능 2025.09.03

피처 스케일링과 정규화

이상치에 민감한 기법과, 이상치 영향을 줄이는 기법 정리스케일링은 피처(열)별 수치 범위를 맞추는 작업이고, 정규화는 샘플(행)별 벡터의 크기를 1로 맞추는 작업이다. 어떤 기법은 이상치에 민감하고, 어떤 기법은 비교적 둔감하다. 1) 이상치에 민감한 기법StandardScaler평균을 기준점으로 잡고 표준편차로 나누어 표준화하는 방식이다.z = (x - μ) / σ여기서 μ는 평균, σ는 표준편차이다. 평균과 표준편차는 극단값의 영향을 크게 받는다. 데이터에 1000 같은 큰 값이 하나 섞이면 평균과 표준편차가 끌려 올라가고, 정상 구간(예: 10~15)은 z-스케일에서 서로 바싹 붙어버린다. 결국 정상 구간의 미세한 차이가 뭉개지는 문제가 생긴다. 실전에서는 먼저 이상치 유무를 확인하고, 필요하면 클..

인공지능 2025.08.27