본문 바로가기

Do it 판다스 입문

(12)
Do it pandas Chapter 12. 시계열 데이터 12 시계열 데이터¶시계열 데이터는 데이터 분석 분야에서 중요하게 다루는 데이터 중 하나입니다. 우리가 지금까지 다룬 날씨 관측 데이터, 에볼라 전염병으로 인한 사망자 수 관측 데이터, 빌보드 차트 데이터에는 모두 시계열 데이터가 포함되어 있었죠. 즉, 일정 시간 간격으로 어떤 값을 기록한 데이터에서는 시계열 데이터가 매우 중요합니다. 따라서 데이터를 자유자재로 다룰 줄 알아야 유능한 데이터 분석가라고 할 수 있습니다. 그러면 시계열 데이터란 무엇인지 알아볼까요? 12-1 datetime 오브젝트¶12-2 사례별 시계열 데이터 계산하기¶12-1 datetime 오브젝트¶datetime 라이브러리는 날짜와 시간을 처리하는 등의 다양한 기능을 제공하는 파이썬 라이브러리입니다. datetime 라이브러리에는 ..
Do it pandas Chapter 11. 그룹 연산 11 그룹연산¶판다스의 그룹 연산은 데이터를 집계하거나 변환하는 등의 작업을 한 번에 처리할 수 있는 강력한 기능입니다. 보통 그룹 연산은 데이터를 '분할'하고 '반영'하고 '결합'하는 과정을 거치게 되는데, '분할'은 어떤 기준으로 데이터를 나누는 것이고 '반영'은 함수 등을 적용하여 데이터를 처리하는 것입니다. 그리고 '결합'은 처리한 결과를 다시 합치는 것이죠. 보통 이 과정을 하나로 묶어 '분할-반영-결합(Split-Apply-Combine)이라고 합니다. 혹시 데이터베이스를 공부한 적이 있나요? 그러면 판다스의 groupby 메서드가 SQL의 GROUP BY 구문과 비슷하다는 것을 알 수 있을 것입니다. 사실 '분할-반영-결합'은 오래 전부터 분산 컴퓨팅 분야에서 빅데이터(Big Data)를 처..
Do it pandas Chapter 10. apply 메서드 활용 10 apply 메서드 활용¶apply 메서드는 사용자가 작성한 함수를 한 번에 데이터프레임의 각 행과 열에 적용하여 실행할 수 있게 해주는 메서드입니다. 즉, 함수를 브로드캐스팅해야 하는 경우에 apply 메서드를 사용합니다. 물론 apply 메서드를 사용하지 않아도 for문을 이용하면 각 데이터에 함수를 적용할 수 있습니다. 하지만 대용량 데이터를 처리할 때는 apply 메서드가 for문보보다 더 빠르기 때문에 apply 메서드의 사용법은 반드시 알아두어야 합니다. 이 장을 보기 전에 알아두면 좋은 개념¶ 반복문, 파이썬 리스트 10-1 간단한 함수 만들기¶10-2 apply 메서드 사용하기 - 기초¶10-3 apply 메서드 사용하기 - 고급¶10-1 간단한 함수 만들기¶이 책은 파이썬의 기초 지식..
Do it pandas Chapter 9. 문자열 처리하기 9 문자열 처리하기¶판다스에서 다루는 데이터의 대부분은 문자열로 저장되어 있습니다. 어떤 경우에는 정수,실수와 같은 숫자 데이터도 문자열로 저장됩니다. 그만큼 우리 주변에는 문자열로 저장된 데이터가 많습니다. 그러니 유능한 데이터 분석가가 되려면 문자열도 잘 처리할 수 있어야 합니다. 이 장에서는 판다스가 아니라 파이썬으로 문자열을 처리하는 방법에 대해 알아봅니다. 그리고 문자열 처리가 판다스, 데이터 분석과 어떤 상관이 있는지도 함께 알아보겠습니다. 9-1 문자열 다루기¶9-2 문자열 메서드¶9-3 문자열 포매팅¶9-4 정규식으로 문자열 처리에 날개 달기¶9-1 문자열 다루기¶파이썬과 문자열¶문자열은 작은따옴표나 큰따옴표로 감싸서 만듭니다. 다음은 작은따옴표로 grail, a scratch라는 문자열 ..
Do it pandas Chapter 8. 판다스 자료형 8 판다스 자료형¶데이트프레임의 열은 같은 연산자를 사용해도 자료형에 따라 처리하는 방식이 다릅니다. 예를 들어 더하기의 경우 정수는 값을 더하지만 문자열을 서로 연결합니다. 따라서 자료형에 대해 제대로 이해하고 있어야 합니다. 이 장에서는 판다스 라이브러리에서 사용할 수 있는 자료형과 자료형을 변환하는 방법에 대해 알아봅니다. 또 판다스의 특별한 자료형인 카테고리에 대해서도 알아보겠습니다. 이 장을 보기 전에 알아두면 좋은 개념¶ 반복문, 파이썬 리스트 8-1 자료형 다루기¶8-2 카테고리 자료형¶8-1 자료형 다루기¶자료형 변환하기¶자료형 변환은 데이터 분석 과정에서 반드시 알아야 하는 요소 중 하나입니다. 예를 들어 카테고리는 문자열로 변환해야 데이터 분석을 더 수월하게 할 수 있기 때문에 자주 변..
Do it pandas Chapter 7. 깔끔한 데이터 7 깔끔한 데이터¶이 장에서는 깔끔한 데이터는 어떻게 만드는지 실습을 통해 알아보겠습니다. 이 장을 보기 전에 알아두면 좋은 개념¶ 반복문, 파이썬 리스트 7-1 열과 피벗¶7-2 열 이름 관리하기¶7-3 여러 열으 하나로 정리하기¶7-4 중복 데이터 처리하기¶7-5 대용량 데이터 처리하기¶7-1 열과 피벗¶넓은 데이터¶데이터프레임의 열은 파이썬의 변수와 비슷한 역할을 합니다. 예를 들어 ebola 데이터프레임 열은 사망한 날짜(Date), 발병 국가(Case_Guinea)등의 데이터를 저장하고 있죠. 하지만 이번에 다루는 데이터프레임의 열은 열 자체가 어떤 값(10, 10-20, 20-30 ...)을 의미합니다. 그러다 보니 데이터프레임의 열이 옆으로 길게 늘어서 형태가 됩니다.바로 이것을 '넓은 데이..
Do it pandas Chapter 6. 누락값 처리하기 6 누락값 처리하기¶데이터에 누락값이 없으면 좋겠지만 누락값은 대부분의 데이터에 존재합니다. 깔끔한 데이터를 위해 이런 누락값을 처리하는 것은 매우 중요합니다. 이 장에서는 누락값을 처리하는 방법에 대해 자세히 알아보겠습니다. 이 장을 보기 전에 알아두면 좋은 개념¶ 파이썬 인덱싱, 함수 인자 6-1 누락값이란?¶ 누락값과 누락값 확인하기¶누락값(NaN)은 NaN,NAN,nan과 같은 방법으로 표기할 수 있습니다. 이 책에서는 누락값을 NaN이라고 표기하여 사용합니다. 그러면 바로 실습을 진행해 보면서 누락값이 무엇인지 알아보겠습니다. 누락값 확인하기¶ 먼저 누락값을 사용하기 위해 numpy에서 누락값을 불러옵니다. In [1]: from numpy import NaN, NAN, nan 2.¶누락값은 0..
Do it pandas Chapter 5. 데이터 연결하기 5 데이터 연결하기¶이 장에서는 '분석하기 좋은 데이터 집합'을 만들기 위해 여러 개의 데이터 집합을 연결하거나 추출하여 데이터를 정리하는 방법에 대해 알아보겠습니다. 이 장을 보기 전에 알아두면 좋은 개념¶ 데이터 추출 5-1 분석하기 좋은 데이터¶5-2 데이터 연결 기초¶5-3 데이터 연결 마무리¶ 5-1 분석하기 좋은 데이터¶분석하기 좋은 데이터란?¶분석하기 좋은 데이터란 데이터 집합을 분석하기 좋은 상태로 만들어 놓은 것을 말합니다.데이터 분석 단계에서 데이터 정리는 아주 중요합니다. 실제로 데이터 분석 작업의 70% 이상을 차지하고 있는 작업이 데이터 정리 작업이죠. 분석하기 좋은 데이터는 다음 조건을 만족해야 하며 이 조건을 만족하는 데이터를 특별히 깔끔한 데이터(Tidy Data)라고 부릅니..