
현재 데이터 셋 2의 고객 이름은 성 이름

기존 데이터셋은 이름이 모두 붙어 있다. 데이터셋 2를 정재해서 1과 합쳐주고 지역만 붙여주자.
import pandas as pd
dirty_data=pd.read_csv(r'2장/uriage.csv')
dirty_data2=pd.read_excel(r'2장/kokyaku_daicho.xlsx')
dirty_data["purchase_date"]=pd.to_datetime(dirty_data["purchase_date"])
dirty_data["purchase_month"]=dirty_data["purchase_date"].dt.strftime("%Y%m")
dirty_data["item_name"]=dirty_data["item_name"].str.upper().str.replace(" ","")
dirty_data = dirty_data.sort_values(by=["item_name"], ascending=True)
dirty_data.drop("purchase_date",axis=1)
dirty_data2["고객이름"]=dirty_data2["고객이름"].str.replace(" ","")
print(dirty_data2)

이제 데이터셋 1과 합친 후 출력한다.
import pandas as pd
dirty_data=pd.read_csv(r'2장/uriage.csv')
dirty_data2=pd.read_excel(r'2장/kokyaku_daicho.xlsx')
dirty_data["purchase_date"]=pd.to_datetime(dirty_data["purchase_date"])
dirty_data["purchase_month"]=dirty_data["purchase_date"].dt.strftime("%Y%m")
dirty_data["item_name"]=dirty_data["item_name"].str.upper().str.replace(" ","")
dirty_data = dirty_data.sort_values(by=["item_name"], ascending=True)
dirty_data.drop("purchase_date",axis=1)
dirty_data2["고객이름"]=dirty_data2["고객이름"].str.replace(" ","")
dump_data=pd.merge(dirty_data,dirty_data2,left_on="customer_name",right_on="고객이름",how="left")
dump_data=dump_data.drop("고객이름",axis=1)
print(dump_data)

출력
import pandas as pd
dirty_data=pd.read_csv(r'2장/uriage.csv')
dirty_data2=pd.read_excel(r'2장/kokyaku_daicho.xlsx')
dirty_data["purchase_date"]=pd.to_datetime(dirty_data["purchase_date"])
dirty_data["purchase_month"]=dirty_data["purchase_date"].dt.strftime("%Y%m")
dirty_data["item_name"]=dirty_data["item_name"].str.upper().str.replace(" ","")
dirty_data = dirty_data.sort_values(by=["item_name"], ascending=True)
dirty_data.drop("purchase_date",axis=1)
dirty_data2["고객이름"]=dirty_data2["고객이름"].str.replace(" ","")
dump_data=pd.merge(dirty_data,dirty_data2,left_on="customer_name",right_on="고객이름",how="left")
dump_data=dump_data.drop("고객이름",axis=1)
print(dump_data)
dump_data.to_csv("dump_data.csv",index=False)
'인공지능' 카테고리의 다른 글
| K-Means 클러스터링 (1) | 2025.07.03 |
|---|---|
| 데이터 전처리 및 집계 분석 (0) | 2025.07.01 |
| 데이터 정리하기 (1) | 2025.06.30 |
| 데이터 가시화 (1) | 2025.06.29 |
| 데이터 분석을 위한 파이썬2 (0) | 2025.06.29 |