본문 바로가기

파이썬을 활용한 이커머스 데이터 분석

(8)
Chapter09.NLP(상품리뷰분석) 파이썬을 활용한 이커머스 데이터분석_강의를 듣고 따라했던 코딩과 요점을 정리하였다. 출처: fast campus Chapter.09 상품 리뷰 분석 (NLP)¶분석의 목적¶ Word Cloud를 통해 중요 단어 확인 Naive Bayses 모델을 통해 리뷰의 별점 예측 Data: Yelp Review In [1]: #!pip3 install nltk In [2]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns In [3]: data = pd.read_csv('./data/yelp.csv', index_col = 0) #index_col = 0 0번째 컬럼을 인덱스러 넣는다..
Chapter08.Times Series 쇼핑몰 매출 예측 (Times Series) 파이썬을 활용한 이커머스 데이터분석_강의를 듣고 따라했던 코딩과 요점을 정리하였다. 출처: fast campus Chapter.08 쇼핑몰 매출 예측 (Times Series)¶분석의 목적¶ 시간 관련 데이터 다양하게 조작하기 fbprophet을 통한 시계열 예측 AutoRegressive 알고리즘을 통한 예측 1. 시간 관련 데이터 다양하게 조작하기¶ In [1]: import pandas as pd import numpy as np In [2]: from datetime import datetime, timedelta In [3]: today =datetime.now() In [4]: today Out[4]: datetime.datetime(2021, 7, 8, 8, 49, 6, 223234) In ..
Chapter.07 고객 분류 (Kmeans) 파이썬을 활용한 이커머스 데이터분석_강의를 듣고 따라했던 코딩과 요점을 정리하였다. 출처: fast campus Chapter.07 고객 분류 (Kmeans)¶분석의 목적¶ Kmeans Clustering을 활용하여, 데이터 기반의 고객 Segment 분류 쇼핑몰 고객 데이터 배우기 앞서, 예제를 다뤄본다. kmeans에서 y값은 없는 값이지만 이 예제에서는 y를 넣어서 학습해본다. In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns In [2]: from sklearn.datasets import make_blobs In [3]: make_blobs(n_samples = 20..
Chapter.06 프로모션 효율 예측 (Random Forest) 파이썬을 활용한 이커머스 데이터분석_강의를 듣고 따라했던 코딩과 요점을 정리하였다. 출처: fast campus Chapter.06 프로모션 효율 예측 (Random Forest)¶분석의 목적¶ Random Forest 를 이용하여, 프로모션에 반응할 고객을 예측 고객 데이터와 거래 데이터를 통합 활용 In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns In [2]: mem = pd.read_csv('./data/member.csv') tran = pd.read_csv('./data/transaction.csv') In [3]: mem.head(5)..
Chapter05.구매 요인 분석(Dicision Tree) 파이썬을 활용한 이커머스 데이터분석_강의를 듣고 따라했던 코딩과 요점을 정리하였다. 출처: fast campus Chapter.05 구매 요인 분석 (Dicision Tree)¶분석의 목적¶디시젼 트리 모델을 통하여 온라인 경매 아이템 판매여부를 예측하고 각 변수의 영향도를 확인 Binary Classification에 속함. 데이터는 온라인 경매 사이트 아이템은 갤럭시 휴대폰: 어떠한 특성을 가진 휴대폰이 잘 팔리는지? 새로운 아이템이 얼마나 잘 팔릴지 예측, 그리고 더 나아가서 어떠한 변수들이 판매에 영향을 미치나 살펴볼 것이다. In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as..
Chapter04.KNN 파이썬을 활용한 이커머스 데이터분석_강의를 듣고 따라했던 코딩과 요점을 정리하였다. 출처: fast campus Chapter04. 고객 이탈 예측 (KNN)¶분석의 목적¶KNN 알고리즘으로 고객 이탈(Customer Churn)을 예측 Binary Classification : 'Yer' or 'No' 를 예측 이번에는 이동통신사 데이터를 다룰 것이다. In [105]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns In [106]: data = pd.read_csv('./data/churn.csv') In [107]: data Out[107]: customerID ge..
Chapter03. 광고 반응률 예측 (Logistic Regression) 파이썬을 활용한 이커머스 데이터분석_강의를 듣고 따라했던 코딩과 요점을 정리하였다. 출처: fast campus Chapter03. 광고 반응률 예측 (Logistic Regression)¶분석의 목적¶Logistic Regression 은 Linear Regression을 기반으로 만들어진 모델인데, 차이점이 있다면 Linear Regression 은 (연간 지출액 등..) 연속된 숫자의 어딘가를 예측하는 알고리즘 Logistic Regression 은 Yes or No 두가지 중 어디에 속하는지, 이진분류를예측하는 머신러닝 알고리즘이다. 우리가 다를 데이터는 광고관련 데이터이며, y 값은 이 광고를 클릭을 했는지 안했는지 / input 데이터는 성별,나이 등등을 이용할 것이다. 데이터 불러오기¶ In..
Chapter02. 고객별 연간 지출액 예측 (Linear Regression) 파이썬을 활용한 이커머스 데이터분석_강의를 듣고 따라했던 코딩과 요점을 정리하였다. 출처: fast campus In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns In [2]: data = pd.read_csv('./data/ecommerce.csv') In [3]: data Out[3]: Email Address Avatar Avg. Session Length Time on App Time on Website Length of Membership Yearly Amount Spent 0 mstephenson@fernandez.com 835 Frank Tunnel..