본문 바로가기

kaggle

(8)
의료데이터_심부전증 예방하기(with 캐글) 심부전 예측(with 캐글)¶심부전이란? 단일 질환명이 아니라 심장의 이상으로 인해 심실의 혈액 충만 혹은 심실의 혈액 박출에 이상이 발생하여 울혈 혹은 피로 등으로 발생하는 임상 증후군을 뜻한다. 심장이 각종 장기와 조직의 대사에 필요한 혈류를 제대로 공급하지 못하는 상태를 통칭한다. 심혈관 질환(CVD)은 전 세계 사망 원인 1위이며 매년 약 1,790만 명이 사망하며 이는 전 세계 사망의 31%를 차지합니다. 심부전은 CVD로 인한 일반적인 사건이며 이 데이터세트에는 심부전으로 인한 사망률을 예측하는 데 사용할 수 있는 12가지 기능이 포함되어 있습니다. 대부분의 심혈관 질환은 흡연, 건강에 해로운 식단 및 비만, 신체 활동 부족 및 유해한 알코올 사용과 같은 행동 위험 요소를 인구 전반에 걸친 전..
당뇨병예측,시각화(with 캐글) 당뇨병 예측¶이 데이터 세트는 1988년부터 시작되었으며 4개의 데이터베이스(Cleveland, 헝가리, 스위스, Long Beach V)로 구성되어 있습니다. 여기에는 예측된 속성을 포함하여 76개의 속성이 포함되어 있지만 게시된 모든 실험은 그 중 14개의 하위 집합을 사용하는 것을 참조합니다. "표적" 필드는 환자의 심장 질환의 존재를 나타냅니다. 정수 값 0 = 질병 없음 및 1 = 질병입니다. reference https://philosopher-chan.tistory.com/853 컬럼¶age :나이 sex: 성별 cp: 흉통 유형(4개 값) trestbps: 안정시 혈압 chol: mg/dl의 혈청 콜레스테롤 fbs: 공복 혈당 > 120mg/dl restecg: 안정시 심전도 결과(값 0,..
자살률 시각화(with 캐글) 데이터 시각화 연습 with 캐글 (자살률)¶ 개발 도상국과 선진국을 포함하여 많은 국가에서 자살률이 수년 동안 상당히 높다. 처음에는 성별 자살률, 그 다음에는 연령과 세대, 나라별, 소득별 자살률 살펴보고자한다. 다음으로 우리는 자살률의 top 10 순위를 해볼 것이다. reference https://philosopher-chan.tistory.com/853 In [3]: import pandas as pd df = pd.read_csv('./data/master.csv') In [4]: df Out[4]: country year sex age suicides_no population suicides/100k pop country-year HDI for year gdp_for_year..
의료데이터 입문(with 캐글) 의료데이터 입문¶ reference https://han-py.tistory.com/363 의료데이터 현황¶ 의료데이터에서 가장 중요한것은 데이터 수집이다. 개인정보 정책에 의해 과거에는 데이터 수집이 불가능했었다. 그러나 2020년 법안이 통과 되면서, 가명정보(개인 식별이 불가능한 데이터)를 사용 할 수 있게 됐다. 즉, 민간 연구자에게 데이터 제공이 가능해 짐에 따라 바이오 데이터 분석가 들이 유망해지고 있고, 의료 데이터의 수집도 탄력을 받아 발전하고 있다. Confusion matrics¶ 모형을 예측하는 값에는 True 와 False가 있다. 그리고 아래의 그림과 같이 모형의 예측값과 실제 값을 각각 축으로 하는 2 x 2 매트릭스로 표현한 것을 말한다. 정밀도(Precision)¶ True로..
kaggle_Bike Sharing Demand[입문용] 캐글 따라하기 (kaggle_Bike Sharing Demand)¶Reference: 깃헙:corazzon/KaggleStruggle 이번 블로그는 캐글에서 돌아다니는 bike sharing demand의 대해 날씨, 휴일, 평일, 계절 등등에 따라 변하는 bike sharing demand의 대한 데이터를 가지고 재구성 및 시각화를 해보려 한다. 앞으로 진행할 프로젝트의 최종 목표는 학습 데이터로 모델을 학습시킨 후 공공자전거의 수요량을 예측하는 것이다. 즉, 테스트 데이터 정보(features, 종속변수)를 바탕으로 제출용 데이터의 'count'(target, 독립변수)를 예측하는 것이다. 지도학습중에 분류와 회귀중 회귀와 관련 된 문제 => 자전거 대여량을 예측하는 문제이기 때문에 캐글의 타이타닉 ..
XGBoost 개념 이해 현존 머신러닝 모델중 가장 우월한 XGBoost 모델¶XGBoost에 대해 알아보자¶ Boosting 이란? 여러 개의 약한 의사결정나무(Decision Tree)를 조합해서 사용하는 앙상블(Ensemble) 기법 중 하나 즉, 약한 예측 모형들의 학습 에러에 가중치를 두고, 순차적으로 다음 학습 모델에 반영하여 강한 예측모형을 만든다. XGBoost 란? XGBoost는 Extreme Gradient Boosting의 약자이다. 해석하면 극한 변화도(경사도) 부스팅 Boosting 기법을 이용하여 구현한 알고리즘은 Gradient Boost 가 대표적 이 알고리즘을 병렬 학습이 지원되도록 구현한 라이브러리가 XGBoost 이다. Regression, Classification 문제를 모두 지원하며, 성..
kaggle_titanic_XGBoost 추가 타이타닉 호에서 탑승했던 사람들의 정보를 바탕으로 생존자 가려내기¶타이타닉의 생존자 그룹과 비생존자 그룹을 0~4단계 Step으로 살펴보자. 입문자용으로 쉽게 접근 할 수 있도록 작성해보았다. 본 커널은 다음 참고자료를 통해 구성해 보았다. kaggle 제출하는 목적도 포함이기 때문에 제출하는 방법도 출처를 남겼습니다. 책(이것이 데이터 분석이다 with 파이썬) Chapter 4 . titanic 생존자 가려내기 [수비니움의 캐글 따라하기] 타이타닉 : Beginner Ver. [skyepodium.log] 캐글은 처음이라 kaggle 제출법 Step 0 도메인 지식 : 분석하기에 도움을 주는 도메인 지식을 간단히 살펴본다. Step 1 탐색: 타이타닉 데이터 살펴보기 (생존에 영향을 주는 피처 시각화..
kaggle_titanic 생존자예측하기 타이타닉 호에서 탑승했던 사람들의 정보를 바탕으로 생존자 가려내기¶타이타닉의 생존자 그룹과 비생존자 그룹을 0~4단계 Step으로 살펴보자. 입문자용으로 쉽게 접근 할 수 있도록 작성해보았다. 본 커널은 다음 참고자료를 통해 구성해 보았다. kaggle 제출하는 목적도 포함이기 때문에 제출하는 방법도 출처를 남겼습니다. 책(이것이 데이터 분석이다 with 파이썬) Chapter 4 . titanic 생존자 가려내기 [수비니움의 캐글 따라하기] 타이타닉 : Beginner Ver. [skyepodium.log] 캐글은 처음이라 kaggle 제출법 Step 0 도메인 지식 : 분석하기에 도움을 주는 도메인 지식을 간단히 살펴본다. Step 1 탐색: 타이타닉 데이터 살펴보기 (생존에 영향을 주는 피처 시각화..