전체 글 (95) 썸네일형 리스트형 Chapter3.3_Movie Github: yoonkt200 Chapter 03 미래를 예측하는 데이터 분석¶이 장의 핵심 개념¶ 지도 학습과 비지도 학습의 개념을 이해한다. 회귀 분석으로 예측을 수행한다. 시계열 데이터의 트렌드를 예측한다. 수학적 기법을 활용하여 평점을 예측한다. 3.3 미래에 볼 영화의 평점 예측하기¶데이터 분석을 통해 아직 사람들이 보지 않았지만 좋아할 만한 영화들을 추천할 수 있을까요? 넷플릭스 같은 서비스들은 이러한 것들을 평점 예측 기법으로 제공하고 있다. 이번 절에서는 이러한 평점 예측 기법을 알아보겠다. Step1 탐색: MovieLens 데이터 살펴보기¶MovieLens 데이터는 총 3개의 데이터셋으로 분리되어 있으며 데이터셋을 구성하는 피처는 아래와 같다. 각 데이터는 '::' 구분자로 열을 구분.. kaggle_titanic 생존자예측하기 타이타닉 호에서 탑승했던 사람들의 정보를 바탕으로 생존자 가려내기¶타이타닉의 생존자 그룹과 비생존자 그룹을 0~4단계 Step으로 살펴보자. 입문자용으로 쉽게 접근 할 수 있도록 작성해보았다. 본 커널은 다음 참고자료를 통해 구성해 보았다. kaggle 제출하는 목적도 포함이기 때문에 제출하는 방법도 출처를 남겼습니다. 책(이것이 데이터 분석이다 with 파이썬) Chapter 4 . titanic 생존자 가려내기 [수비니움의 캐글 따라하기] 타이타닉 : Beginner Ver. [skyepodium.log] 캐글은 처음이라 kaggle 제출법 Step 0 도메인 지식 : 분석하기에 도움을 주는 도메인 지식을 간단히 살펴본다. Step 1 탐색: 타이타닉 데이터 살펴보기 (생존에 영향을 주는 피처 시각화.. Google Analytics 4 _ tistory 연계 방법 '구글 애널리틱스 4 - 티스토리 연계 방법'을 간략히 남겨 보려 한다. 연동이 안된 점을 알게 되었고 이것을 블로그로 남겨보려 한다. 그전에 아주 간략하게 무엇인지 살펴보자. 구글 애널리틱스 (Google Analytics , GA) 란? 쉽게 말하면, 빅데이터를 분석하는 기술 전반을 말한다. ( 웹 로그 분석 툴 ) 2015년 구글이 웹분석 전문 기업인 '어친(Urchin)'를 인수한 뒤 출시한 서비스이다. 구글 애널리틱스 사용 목적 데이터 분석 및 콘텐츠 제작제 참고할 수 있는 다양한 정보를 얻을 수 있다. ( 웹사이트 방문자 유입경로, 방문자의 행동, 가장 오래 본 페이지, 웹사이트를 나가게 만드는 콘텐츠.. 등등 ) 이제 시작해 보자. 티스토리- 구글 애널리틱스 4 (연동 문제 :추적 ID, 측.. 쉘 스크립트 작성 최근에 AWS에서 주피터를 실행하려하는데 코드가 너무 길어서 번거롭다. 그래서 쉘 스크립트로 작성 후 주피터 노트북을 실행해보려 한다. 먼저, touch함수를 통해 다음의 쉘 파일을 만들어 둔다. $ touch jupyter_shell.sh 그리고 나서 vi편집기를 사용해 쉘 스크립트 안에 다음의 코드를 넣어준다. $ vi jupyter_shell.sh 이제 안에 코드를 넣어줄껀데, a버튼을 통해 insert모드로 바꿔준다. 그리고 다음의 코드를 넣어주자. #!/bin/bash # 주피터 실행시간 테스트 echo "주피터 실행 날짜: $(date +%Y)년 $(date +%m)월 $(date +%d)일 " echo "주피어 실행 시간: $(date +%H) 시 $(date +%M) 분 $(date +%S.. Ehang 주가 분석 with 파이썬 작년 코로나 이후 부터 주식과 코인 시장이 뜨겁다. 동시에 파이썬 공부를 하면서 이것이 데이터 분석이다 with 파이썬 책을 접하게 되었고, 이곳에서 비트코인 시세예측을 공부해 보았다. 동시에 비트코인이 아니라 주가를 분석해 보고 싶은데, 작년 겨울쯤부터 관심을 가지고 있는 Ehang주식을 분석해 보았다. 책으로는 한계가 있어서 여러 블로그를 찾아 보다가 삼성주가분석관련 블로그를 찾게되었다. 많은 도움이 되어서 먼저 출처를 남깁니다. Chapter 3.2 비트코인 시세 예측하기 again 2018 1. 삼성전자 주식데이터 분석 - 분석하기 미완성의신_삼성전자 주가분석 그러면 이제 이항에 대한 간략한 소개를 하면서 주가분석을 시작한다. Ehang 무엇을하는 기업이지? UAM (Urban air mobili.. Chapter 3.1 프로야구 선수의 다음 해 연봉 예측하기 Github: yoonkt200 Chapter 03 미래를 예측하는 데이터 분석¶이 장의 핵심 개념¶ 지도 학습과 비지도 학습의 개념을 이해한다. 회귀 분석으로 예측을 수행한다. 시계열 데이터의 트렌드를 예측한다. 수학적 기법을 활용하여 평점을 예측한다. 3-1 프로야구 선수의 다음 해 연봉 예측하기¶Step1 탐색: 프로야구 연봉 데이터 살펴보기¶예제에서 살용할 연봉 데이터셋의 기본 정보를 살펴보자. 데이터의 기초 탐색결과는 다음과 같다. 프로야구 연봉 데이터셋은 총 152개이며, 22개 피처로 구성되어 있다. 이 22개의 피처는 선수가 가지고 있는 기록(승,패,홈런 등의 수치)들에 대한 세부 정보를 나타낸다. 프로야구 연봉 데이터셋의 기본 정보 구하기 In [349]: # -*- coding: utf.. Chapter 3.2 비트코인 시세 예측하기 again 2018 Github: yoonkt200 3.2 비트코인 시세 예측하기¶다음으로 살펴볼 예제는 비트코인 시세 예측이다. 비트코인 시세처럼 연속적인 시간에 따라 다르게 측정되는 시계열 데이터라고 한다. 이를 분석하는 것을 '시계열 데이터 분석'이라고 한다. 시계열 데이터 분석은 심작 박동 데이터처럼 규칙적 시계열 데이터를 분석하는 것과 비트코인 시세 예측처럼 불규칙적 시계열 데이터를 분석하는 것으로 구분할 수 있다. Step 1 탐색: 시간 정보가 포함된 데이터 살펴보기¶우선 비트코인 데이터를 탐색한다. 다음 코드로 데이터셋을 살펴보면, 비트코인 데이터 총 365개의 행으로 이루어진 것으로 알 수 있다. 또한 데이터는 결측값 없이 날자와 가격에 대한 2개의 피처로 구성되어 있다. 이러한 데이터셋을 시계열 데이터셋이.. Chapter 4 . titanic 생존자 가려내기 Github: yoonkt200 이 장의 핵심 개념¶ 분류 분석의 개념을 이해한다 분류 분석의 평가 기준에 대해 알아본다. 피처 엔지니어링으로 더 나은 분석을 수행한다. 감성 분류에 대해 알아본다. 4.1 타이타닉의 생존자 가려내기¶타이타닉의 생존자 그룹과 비생존자 그룹을 분류하는 예제를 4단계 Step으로 살펴보자. Step1 탐색: 타이타닉 데이터 살펴보기¶타이타닉 데이터셋의 구성은 다음과 같다. pclass: Passenger Class, 승객 등급 survived: 생존 여부(생존은 1, 아닌 경우는 0) name: 승객이름 sex: 승객 성별 age: 승객 나이 sibsp: 동승한 형제 또는 배우자 수 parch: 동승한 부모 또는 자녀 수 tiket: 티켓 번호 fare: 승객 지불 요금 ca.. 이전 1 ··· 4 5 6 7 8 9 10 ··· 12 다음 목록 더보기