인공지능

[데이터 수집하고 분석하기] 유튜브 api를 음원 분석 하고 생성형 ai로 생성하기 프로젝트 1차

존카터 2025. 9. 9. 11:28

나는 어렸을때 비디오를 많이 보았다. 울산에서 부터 서울까지 올라오며 이사를 많이 다녀서 그런지, 또래 친구들과 놀기보단 집에서 비디오 테이프를 많이 보여주셨는데, 토이스토리를 가장 많이 봤던 것 같다. 토이스토리 2 비디오가 내가 가장 좋아하는 비디오 였고 그중 버즈라이트이어 를 가장 좋아했었다.

장난감은 없었다. 그때도 이건 비쌌어..

중고등학교 때에는 어린아이들이 뽀로로를 가장 좋아한다고 들었다. 

뽀통령 뽀로로. 루피는 이제 잔망루피로 살아간다

오죽하면 초등학생 대통령 뽀통령이라고 까지 들었을까. 뽀로로가 옷을 입게 된 이유도 뽀로로도 옷을 안입잖아! 라는 아이의 말을 듣고 어떤 어머니가 문의를 줘서 그렇다나 뭐라나...

요즘은 또 핑크퐁, 엘사, 티니핑 등등 새로운 ip들이 나타나고 있다.

부모님들과 친척어른들을 파산핑으로 만든다는 핑크퐁

 

넘쳐나는 데이터 속에서 다양한 데이터들이 있지만, 그중에서 어떤 데이터를 어떻게 사용하고,ai를 적용해 삶의 질을 올릴 수있을지 항상 고민한다.

소위 요즘 "누구나" Ai를 사용하고 데이터를 활용하면 편하고 쉽게 프로그램을 만들고 컨텐츠를 생성 할 수 있는 시대가 되었다. 그렇다면 현재까지 존재하는 아이들의 컨텐츠를 분석하고, 이를 데이터화 한다면, 캐릭터를 생성하고, 그 애니메이션을 생성하고, 또한 음악, 굿즈 등 다양한 장르를 손하나 움직이지 않고 생성할 수 있지 않을까? 라는 것이 이번 주제의 목표이다. 

사실 어린아이들이 어떤 캐릭터를 좋아하는지는, 어린이 컨텐츠를 만드는 회사에서는 어느정도 분석과 수요조사, 설문조사를 통해 알고 있을 것이다. 예전 한 방송프로그램에서 어린이 컨텐츠를 만드는 디자이너가 "어린이는 눈큰 캐릭, 둥글고....이러이러한걸 좋아하거든요" 라고 말하면서 술술 그리던 모습이 기억에 있다. 그 디자이너는 자기만의 빅데이터가 뇌속에있다고 생각하면 된다. 하지만 나는 그런 데이터를 찾을 수도 없었고, 아이들을 대상으로 일일히 설문조사를 진행할 수 있는 시간과 자원이 없는 상황이니 좀더 제로베이스에서 데이터를 모으고 수집해 보겠다.


수집 환경: Utube(유튜브)

대상: 미국 아이들(0~7세)

수집 데이터: 인기 캐릭터& 애니메이션

우선 gpt에게 해당 대상 인기있는 채널을 요구했다.

1. CoComelon (JJ, YoYo, TomTom 등 캐릭터)

2. Mother Goose Club

  • 미국 제작 교육용 TV 프로그램으로, 유튜브 채널만으로도 31만 명 이상 구독, 320억 회 이상 조회수를 기록하며 강력한 영향력을 보여줍니다 (https://en.wikipedia.org/wiki/Mother_Goose_Club?utm_source=chatgpt.com)
  • Baa Baa Sheep, Eep the Mouse 등 6명의 캐릭터가 등장하며, 고전 동요와 교육적 요소(글자, 숫자, 색깔 등)를 활발하게 활용합니다 위키백과.

3. Mickey Mouse Clubhouse (미키마우스 클럽하우스)

  • 2025년 기준 미국에서 가장 인기 있는 유아용 TV 프로그램 중 하나로, 2025년 1월 3일~4월 25일간 Disney+ 및 YouTube에서 46억 6,000만 분 이상 시청된 기록이 있습니다 https://en.wikipedia.org/wiki/Mickey_Mouse_Clubhouse?utm_source=chatgpt.com
  • 일부 조사에서는 부모가 가장 선호하는 TV 쇼, 교육적 가치도 높은 콘텐츠로 언급되었습니다 

인기 노래 & 동요

- Baby Shark (핑퐁 Pinkfong 버전)

- Twinkle, Twinkle, Little Star

- Itsy Bitsy Spider, The ABC Song

- Skidamarink (Skinnamarink)

 

Skidamarink - Wikipedia

From Wikipedia, the free encyclopedia Children's sing-along song from North America "Skidamarink" or "Skinnamarink"[1] is a popular child's sing-along song from North America.[2] Originally titled "Skid-dy-mer-rink-adink-aboomp"[3] or "Skiddy-Mer-Rink-A-Do

en.wikipedia.org

 

범주 콘텐츠 이름 / 캐릭터 특징 및 이유

인기 캐릭터 · 애니 CoComelon (JJ 등) 유튜브 최다 조회/구독, 어린이 일상·교육 노래 중심 콘텐츠
  Mother Goose Club 구독·조회 높고, 고전 동요 기반 교육 콘텐츠
  Mickey Mouse Clubhouse Disney 유력 유아 콘텐츠, 높은 시청 분수 기록
인기 노래 · 동요 Baby Shark 유튜브 최고 조회수, 미국 키즈 차트 1위 등극
  Twinkle Twinkle Little Star 자장가처럼 편안, 어휘 반복 효과
  Itsy Bitsy Spider, ABC Song 손동작 기반, 언어·신체 발달에 도움
  Skidamarink 손동작+따라부르기 좋은 노래, 북미 오랫동안 인기

분석은 다음과 정으로 진행한다.

1️⃣ 데이터 수집 (Data Collection)

(1) 유튜브 / OTT 데이터

  • YouTube Data API v3
    • 특정 채널(CoComelon, Pinkfong, Mother Goose Club 등) 영상의
      • 조회수, 좋아요 수, 댓글 수, 업로드 날짜 등 수집 가능
    • “0~7세 키즈 콘텐츠” 관련 키워드 검색 후 인기순으로 데이터 크롤링
  • Google Trends
    • 특정 키워드(“Baby Shark”, “Cocomelon”) 검색량 트렌드 비교
    • 지역별 관심도 확인 가능 (예: 미국 내 주별)
  • OTT 분석
    • Disney+, Netflix 시청 랭킹은 공개된 “TOP 10” 리포트를 주기적으로 수집

(2) 가사·대본 데이터

  • 동요/애니메이션 자막(SRT) 또는 자동 캡션 수집 → 자연어 처리
  • 반복도, 단어 난이도, 발음 패턴 등을 NLP로 분석

2️⃣ 데이터 전처리 (Preprocessing)

  • 텍스트 처리: 자막/가사를 형태소 분석 → 단어 빈도/길이/난이도
  • 음악 처리: 오디오를 멜로디, 템포, 박자, 음역대 특징(feature) 추출 (librosa 라이브러리 활용)
  • 영상 처리: 색채(HSV), 화면 전환 속도, 캐릭터 등장 빈도 (OpenCV + CNN)

3️⃣ 분석 기법 (Analytics & AI)

(1) 통계적 분석

  • 📊 조회수 vs 영상 길이 vs 업로드 주기 → 상관분석
  • 📈 조회수 증가 속도(Time Series) → 시계열 분석 (ARIMA, Prophet)

(2) NLP (자연어 처리)

  • Word2Vec/BERT 임베딩 → 동요 가사의 반복도/어휘 난이도 분석
  • TF-IDF → 어떤 단어가 콘텐츠 차별화에 기여하는지 확인

(3) 시청자 반응 분석

  • 댓글 텍스트 → 감정분석 (긍정/부정/흥분/학습효과 언급 등)
  • 연령대별 부모 후기 크롤링 → LDA 주제 모델링

(4) 비교 분석

  • CoComelon vs Pinkfong vs Mother Goose Club
    → "가사 난이도, 반복성, 조회 패턴, 댓글 톤" 비교

YouTube Data API v3

  • CoComelon, Pinkfong, Mother Goose Club, Sesame Street, Little Baby Bum 등 채널 크롤링
  • 영상 메타데이터 (제목, 조회수, 길이, 업로드 주기)
  • 자막(SRT) → 가사·대사 텍스트 확보
  • 댓글 샘플 → 감정·주제 분석

다음 포스팅 부터 유튜브 플랫폼을 통해 채널 크롤링을 진행하고, 해당 크롤링 데이터를 바탕으로 데이터를 분석하겠다.