본문 바로가기

파이썬으로 데이터 주무르기

(6)
Chapter 8. 자연어 처리 시작하기 Github: PinkWink 8장 자연어 처리 시작하기¶ 한글 자연어 처리기초 워드 클라우드 육아휴직 관련 법안에 대한 분석 Naive Bayes Classifier의 이해 - 영문 Naive Bayes Classifier의 이해 - 한글 문장의 유사도 측정하기 여자친구 선물 고르기 8-2 한글 자연어 처리 기초¶ In [9]: from konlpy.tag import Kkma kkma = Kkma() 먼저 꼬꼬마 모듈을 사용할 수 있게 한다. In [10]: kkma.sentences('한국어 분석을 시작합니다 재미있어요~~') Out[10]: ['한국어 분석을 시작합니다', '재미있어요~~'] 그리고 문장(sentences)분석을 한다. ~~시작합니다 재미..
Chapter 7. 시계열 데이터를 다뤄보자 Github: PinkWink 시계열 데이터를 다뤄보자¶ 7-1 Numpy의 polyfit으로 회귀(regression) 분석하기 7-2 Prophet 모듈을 이용한 forecast 예측 7-3 Seasonal 시계열 분석으로 주식 데이터 분석하기 7-4 Growth Model과 Hoidat Forcast 데이터가 시간의 흐름에 따라 변화하는 추이가 있는 데이터, 대표적으로 웹 트래픽이나 주식 같은 데이터를 예측 해야 할때 가 있다.시계열(Time Series)분석이라는 것은 통계적으로 어렵고 복잡한 작업이다. 원 데이터의 안정성을 판정하고, 안전한 형태로 변환하고, 예측 모델을 선정하고 검증하는 과정이 통계학의 깊은 지식을 요구한다. 간단히 데이터 예측하는 가벼운 느낌이라면 이 책에서는 유용한 도구, ..
Chapter 5. 우리나라 인구 소멸 위기 지역 분석 Github: PinkWink 5장 우리나라 인구 소멸 위기 지역 분석¶ 5-1 목표 명확히하기 5-2 인구 데이터 확보하고 정리하기 5-3 인구 소멸 위기 지역 계산하고 데이터 정리하기 5-4 대한민국 지도 그리는 방법에 대한 소개 5-5 지도 시각화를 위해 지역별 고유 ID 만들기 5-6 Cartogram 으로 우리나라 지도 만들기 5-7 인구 현황 및 인구 소멸 지역 확인하기 5-8 인구 현황에서 여성 인구 비율 확인하기 5-9 Folium에서 인구 소멸 위기 지역 표현하기 대한민국 지도를 그리고 그 위에 인구 소명 위기 지역에 대해 매핑해서 시각화하는 것을 최종 목표로 한다. 5-1 목표 명확히 하기¶65세 이상 노인 인구와 20~39세 여성 인구를 비교해서 젊은 여성 인구가 노인 인구의 절반에 ..
Chapter 3. 시카고 샌드위치 맛집 분석 + 네이버 영화 평점 & 평점 변화 확인하기 Github: PinkWink 3장 시카고 샌드위치 맛집 분석¶ 3-1 웹 데이터를 가져오는 Beautiful Soup 익히기 3-2 크롬 개발자 도구를 이용해서 원하는 태그 찾기 3-3 실전:시카고 샌드위치 맛집 소개 사이트에 접근하기 3-4 접근한 웹페이지에서 원하는 데이터 추출하고 정리하기 3-5 다수의 웹페이지에 자동으로 접근해서 원하는 정보 가져오기 3-6 jupyter Notebook에서 상태 진행바를 쉽게 만들어주는 tqdm 모듈 3-7 상태 진핸바까지 적용하고 다시 샌드위치 페이지 50개에 접근하기 3-8 50개 웹 페이지에 대한 정보 가져오기 3-9 맛집 위치를 지도에 표기하기 3-10 네이버 영화 평점 기준 영화의 평점 변화 확인하기 3-11 영화별 날짜 변화에 따른 평점 변화 확인하기..
Chapter 2. 서울시 범죄 현황 분석 Github: PinkWink 2-2 pandas를 이용하여 데이터 정리하기¶ In [1]: import numpy as np import pandas as pd 먼저 numpy와 pandas는 항상 import하는 모듈이라고 생각하면 됩니다. 이제 다운받은 데이터를 pandas로 읽어보겠습니다. crime_anal_police라는 변수에 저장합니다. 그 내용을 보면 서울시 경철서별로 살인, 강도, 강간, 절도, 폭력이라는 5대 범죄에 대해 발생 건수와 검거를 가지고 있습니다. In [2]: crime_anal_police = pd.read_csv('./data/02. crime_in_Seoul.csv', thousands=',', encoding='euc-kr'..
Chapter 1. 서울시 구별 CCTV 현황 분석 Github: PinkWink 1-2 파이썬에서 텍스트 파일과 엑셀 파일 읽기 - pandas¶파이썬에서는 이런 종류의 파일을 아주 손쉽게 읽을 수 있는 모듈이 있습니다. 바로 pandas라는 모듈입니다. In [20]: import pandas as pd 아마 앞으로도 위 코드처럼 대부분의 시작은 import로 할게 될 겁니다. 파이썬에서 원하는 모듈을 불러오는 명령이 import 입니다. 그 뒤에 원하는 모듈명을 넣게 됩니다. 모듈명 다음의 as는 as뒤에 붙는 pd 라는 짧은 단어로 pandas를 대체하겠다는 뜻입니다. 즉, pandas의 read_csv라는 의미로 pandas에서 CSV 파일을 읽는 명령은 read_csv입니다. 그 안에 한글을 사용하는 경우는 인코딩에서 신경 써야합니다. 우리가 ..