인공지능

데이터 정리 후 출력

존카터 2025. 7. 1. 09:51

현재 데이터 셋 2의 고객 이름은 성 이름

 

 

기존 데이터셋은 이름이 모두 붙어 있다. 데이터셋 2를 정재해서 1과 합쳐주고 지역만 붙여주자.

import pandas as pd
dirty_data=pd.read_csv(r'2장/uriage.csv')
dirty_data2=pd.read_excel(r'2장/kokyaku_daicho.xlsx')

dirty_data["purchase_date"]=pd.to_datetime(dirty_data["purchase_date"])
dirty_data["purchase_month"]=dirty_data["purchase_date"].dt.strftime("%Y%m")


dirty_data["item_name"]=dirty_data["item_name"].str.upper().str.replace(" ","")
dirty_data = dirty_data.sort_values(by=["item_name"], ascending=True)

dirty_data.drop("purchase_date",axis=1)


dirty_data2["고객이름"]=dirty_data2["고객이름"].str.replace(" ","")
print(dirty_data2)

 

이제 데이터셋 1과 합친 후 출력한다.

 

import pandas as pd
dirty_data=pd.read_csv(r'2장/uriage.csv')
dirty_data2=pd.read_excel(r'2장/kokyaku_daicho.xlsx')

dirty_data["purchase_date"]=pd.to_datetime(dirty_data["purchase_date"])
dirty_data["purchase_month"]=dirty_data["purchase_date"].dt.strftime("%Y%m")


dirty_data["item_name"]=dirty_data["item_name"].str.upper().str.replace(" ","")
dirty_data = dirty_data.sort_values(by=["item_name"], ascending=True)

dirty_data.drop("purchase_date",axis=1)


dirty_data2["고객이름"]=dirty_data2["고객이름"].str.replace(" ","")

dump_data=pd.merge(dirty_data,dirty_data2,left_on="customer_name",right_on="고객이름",how="left")
dump_data=dump_data.drop("고객이름",axis=1)
print(dump_data)

 

출력

import pandas as pd
dirty_data=pd.read_csv(r'2장/uriage.csv')
dirty_data2=pd.read_excel(r'2장/kokyaku_daicho.xlsx')

dirty_data["purchase_date"]=pd.to_datetime(dirty_data["purchase_date"])
dirty_data["purchase_month"]=dirty_data["purchase_date"].dt.strftime("%Y%m")


dirty_data["item_name"]=dirty_data["item_name"].str.upper().str.replace(" ","")
dirty_data = dirty_data.sort_values(by=["item_name"], ascending=True)

dirty_data.drop("purchase_date",axis=1)


dirty_data2["고객이름"]=dirty_data2["고객이름"].str.replace(" ","")

dump_data=pd.merge(dirty_data,dirty_data2,left_on="customer_name",right_on="고객이름",how="left")
dump_data=dump_data.drop("고객이름",axis=1)
print(dump_data)

dump_data.to_csv("dump_data.csv",index=False)

 

'인공지능' 카테고리의 다른 글

K-Means 클러스터링  (1) 2025.07.03
데이터 전처리 및 집계 분석  (0) 2025.07.01
데이터 정리하기  (1) 2025.06.30
데이터 가시화  (1) 2025.06.29
데이터 분석을 위한 파이썬2  (0) 2025.06.29