본문 바로가기

이것이 데이터분석 이다 with 파이썬

(9)
Chapter2.1_웹크롤링으로 기초 데이터 수집하기 Github: yoonkt200 Chapter02 텍스트 마이닝 첫걸음¶ 이장의 핵심개념 웹 크롤링으로 데이터를 수집한다 키워드 추출의 방법을 알아본다. 키워드 간의 연관 관계를 분석한다. 텍스트 분석 결과를 시각화 한다. 2.1 웹 크롤링으로 기초 데이터 수집하기¶이번 절에서는 '나무위키 최근 변경 페이지'의 텍스트 데이터르 웹 크롤링 Web Crawling 으로 수집한 다음, 데이터 내에서 등장한 키워드의 출현 빈도를 분석해 보겠다. 이를 통해 우리는 나무위키 페이지에서 현재 가장 '핫한'키워드가 무엇인지 분석할 수 있다. 웹 크롤링 혹은 웹 스크래핑 Web Scraping은 인터넷에 있는 웹페이지를 방문해서 페이지의 자료를 자동으로 수집하는 작업을 의미한다. 여기에선 파이썬으로 웹 크롤링을 진행하겠..
Chapter 5.2 구매 데이터 분석 Github: yoonkt200 5.2 구매 데이터를 분석하여 상품 추천하기¶이번 절에서는 구매 데이터 분석에 기반한 온라인 스토어 상품 추천 시뮬레이션 예제를 알아보겠다. 피처 엔지니어링, 그리고 행렬 완성 기반 점수 예측방법을 이용하여 상품 추천 시뮬레이션을 수행합니다. 분석에 사용할 'Uk Retail'데이터는 영국의 한 선물 판매 온라인 스토어에서 발생한 거래 데이터로, 주 고객은 선물 도매상입니다. Step1 탐색적 분석:UK Retail 데이터 분석하기¶예제에서 사용할 UK Retail 데이터셋은 다음과 같은 피처로 구성되어 있다. InvoiceNo : 거래 고유 번호 StockCode : 상품 고유 번호 Description : 상품명 Quantity : 거래 수량 InvoiceDate : ..
Chapter 5.1 중고나라 휴대폰 거래가격 예측 Github: yoonkt200 5.1 중고나라 휴대폰 거래가격 예측하기¶ 데이터 분석을 프로그램, 혹은 서비스의 형태에 응용한다. 사용하는 데이터는 https://www.data.go.kr/ 에서 제공하는 '네이버 중고나라'데이터, 그리고 통신 3사(Sk Telecom, LG U+, kt olleh) 사이트에서 제공하는 휴대폰 공시가격 데이터를 기반으로 만들어진 것이다. Step1 탐색적 분석: 중고나라 데이터 분석하기¶예제에서 사용할 중고나라 데이터셋은 다음과 같은 피처로 구성되어 있다. create_date : 판매(혹은 구매) 게시글이 올라온 시점 price: 게시글 작성자가 제안한 휴대폰의 거래가격 text: 게시글의 제목과 본문을 합친 텍스트 데이터 phone_model: 휴대폰의 기종 fac..
Chapter3.3_Movie Github: yoonkt200 Chapter 03 미래를 예측하는 데이터 분석¶이 장의 핵심 개념¶ 지도 학습과 비지도 학습의 개념을 이해한다. 회귀 분석으로 예측을 수행한다. 시계열 데이터의 트렌드를 예측한다. 수학적 기법을 활용하여 평점을 예측한다. 3.3 미래에 볼 영화의 평점 예측하기¶데이터 분석을 통해 아직 사람들이 보지 않았지만 좋아할 만한 영화들을 추천할 수 있을까요? 넷플릭스 같은 서비스들은 이러한 것들을 평점 예측 기법으로 제공하고 있다. 이번 절에서는 이러한 평점 예측 기법을 알아보겠다. Step1 탐색: MovieLens 데이터 살펴보기¶MovieLens 데이터는 총 3개의 데이터셋으로 분리되어 있으며 데이터셋을 구성하는 피처는 아래와 같다. 각 데이터는 '::' 구분자로 열을 구분..
Google Analytics 4 _ tistory 연계 방법 '구글 애널리틱스 4 - 티스토리 연계 방법'을 간략히 남겨 보려 한다. 연동이 안된 점을 알게 되었고 이것을 블로그로 남겨보려 한다. 그전에 아주 간략하게 무엇인지 살펴보자. 구글 애널리틱스 (Google Analytics , GA) 란? 쉽게 말하면, 빅데이터를 분석하는 기술 전반을 말한다. ( 웹 로그 분석 툴 ) 2015년 구글이 웹분석 전문 기업인 '어친(Urchin)'를 인수한 뒤 출시한 서비스이다. 구글 애널리틱스 사용 목적 데이터 분석 및 콘텐츠 제작제 참고할 수 있는 다양한 정보를 얻을 수 있다. ( 웹사이트 방문자 유입경로, 방문자의 행동, 가장 오래 본 페이지, 웹사이트를 나가게 만드는 콘텐츠.. 등등 ) 이제 시작해 보자. 티스토리- 구글 애널리틱스 4 (연동 문제 :추적 ID, 측..
Chapter 3.1 프로야구 선수의 다음 해 연봉 예측하기 Github: yoonkt200 Chapter 03 미래를 예측하는 데이터 분석¶이 장의 핵심 개념¶ 지도 학습과 비지도 학습의 개념을 이해한다. 회귀 분석으로 예측을 수행한다. 시계열 데이터의 트렌드를 예측한다. 수학적 기법을 활용하여 평점을 예측한다. 3-1 프로야구 선수의 다음 해 연봉 예측하기¶Step1 탐색: 프로야구 연봉 데이터 살펴보기¶예제에서 살용할 연봉 데이터셋의 기본 정보를 살펴보자. 데이터의 기초 탐색결과는 다음과 같다. 프로야구 연봉 데이터셋은 총 152개이며, 22개 피처로 구성되어 있다. 이 22개의 피처는 선수가 가지고 있는 기록(승,패,홈런 등의 수치)들에 대한 세부 정보를 나타낸다. 프로야구 연봉 데이터셋의 기본 정보 구하기 In [349]: # -*- coding: utf..
Chapter 3.2 비트코인 시세 예측하기 again 2018 Github: yoonkt200 3.2 비트코인 시세 예측하기¶다음으로 살펴볼 예제는 비트코인 시세 예측이다. 비트코인 시세처럼 연속적인 시간에 따라 다르게 측정되는 시계열 데이터라고 한다. 이를 분석하는 것을 '시계열 데이터 분석'이라고 한다. 시계열 데이터 분석은 심작 박동 데이터처럼 규칙적 시계열 데이터를 분석하는 것과 비트코인 시세 예측처럼 불규칙적 시계열 데이터를 분석하는 것으로 구분할 수 있다. Step 1 탐색: 시간 정보가 포함된 데이터 살펴보기¶우선 비트코인 데이터를 탐색한다. 다음 코드로 데이터셋을 살펴보면, 비트코인 데이터 총 365개의 행으로 이루어진 것으로 알 수 있다. 또한 데이터는 결측값 없이 날자와 가격에 대한 2개의 피처로 구성되어 있다. 이러한 데이터셋을 시계열 데이터셋이..
Chapter 4 . titanic 생존자 가려내기 Github: yoonkt200 이 장의 핵심 개념¶ 분류 분석의 개념을 이해한다 분류 분석의 평가 기준에 대해 알아본다. 피처 엔지니어링으로 더 나은 분석을 수행한다. 감성 분류에 대해 알아본다. 4.1 타이타닉의 생존자 가려내기¶타이타닉의 생존자 그룹과 비생존자 그룹을 분류하는 예제를 4단계 Step으로 살펴보자. Step1 탐색: 타이타닉 데이터 살펴보기¶타이타닉 데이터셋의 구성은 다음과 같다. pclass: Passenger Class, 승객 등급 survived: 생존 여부(생존은 1, 아닌 경우는 0) name: 승객이름 sex: 승객 성별 age: 승객 나이 sibsp: 동승한 형제 또는 배우자 수 parch: 동승한 부모 또는 자녀 수 tiket: 티켓 번호 fare: 승객 지불 요금 ca..