본문 바로가기

분류 전체보기

(95)
의료데이터_심부전증 예방하기(with 캐글) 심부전 예측(with 캐글)¶심부전이란? 단일 질환명이 아니라 심장의 이상으로 인해 심실의 혈액 충만 혹은 심실의 혈액 박출에 이상이 발생하여 울혈 혹은 피로 등으로 발생하는 임상 증후군을 뜻한다. 심장이 각종 장기와 조직의 대사에 필요한 혈류를 제대로 공급하지 못하는 상태를 통칭한다. 심혈관 질환(CVD)은 전 세계 사망 원인 1위이며 매년 약 1,790만 명이 사망하며 이는 전 세계 사망의 31%를 차지합니다. 심부전은 CVD로 인한 일반적인 사건이며 이 데이터세트에는 심부전으로 인한 사망률을 예측하는 데 사용할 수 있는 12가지 기능이 포함되어 있습니다. 대부분의 심혈관 질환은 흡연, 건강에 해로운 식단 및 비만, 신체 활동 부족 및 유해한 알코올 사용과 같은 행동 위험 요소를 인구 전반에 걸친 전..
당뇨병예측,시각화(with 캐글) 당뇨병 예측¶이 데이터 세트는 1988년부터 시작되었으며 4개의 데이터베이스(Cleveland, 헝가리, 스위스, Long Beach V)로 구성되어 있습니다. 여기에는 예측된 속성을 포함하여 76개의 속성이 포함되어 있지만 게시된 모든 실험은 그 중 14개의 하위 집합을 사용하는 것을 참조합니다. "표적" 필드는 환자의 심장 질환의 존재를 나타냅니다. 정수 값 0 = 질병 없음 및 1 = 질병입니다. reference https://philosopher-chan.tistory.com/853 컬럼¶age :나이 sex: 성별 cp: 흉통 유형(4개 값) trestbps: 안정시 혈압 chol: mg/dl의 혈청 콜레스테롤 fbs: 공복 혈당 > 120mg/dl restecg: 안정시 심전도 결과(값 0,..
자살률 시각화(with 캐글) 데이터 시각화 연습 with 캐글 (자살률)¶ 개발 도상국과 선진국을 포함하여 많은 국가에서 자살률이 수년 동안 상당히 높다. 처음에는 성별 자살률, 그 다음에는 연령과 세대, 나라별, 소득별 자살률 살펴보고자한다. 다음으로 우리는 자살률의 top 10 순위를 해볼 것이다. reference https://philosopher-chan.tistory.com/853 In [3]: import pandas as pd df = pd.read_csv('./data/master.csv') In [4]: df Out[4]: country year sex age suicides_no population suicides/100k pop country-year HDI for year gdp_for_year..
의료데이터 입문(with 캐글) 의료데이터 입문¶ reference https://han-py.tistory.com/363 의료데이터 현황¶ 의료데이터에서 가장 중요한것은 데이터 수집이다. 개인정보 정책에 의해 과거에는 데이터 수집이 불가능했었다. 그러나 2020년 법안이 통과 되면서, 가명정보(개인 식별이 불가능한 데이터)를 사용 할 수 있게 됐다. 즉, 민간 연구자에게 데이터 제공이 가능해 짐에 따라 바이오 데이터 분석가 들이 유망해지고 있고, 의료 데이터의 수집도 탄력을 받아 발전하고 있다. Confusion matrics¶ 모형을 예측하는 값에는 True 와 False가 있다. 그리고 아래의 그림과 같이 모형의 예측값과 실제 값을 각각 축으로 하는 2 x 2 매트릭스로 표현한 것을 말한다. 정밀도(Precision)¶ True로..
자동차 번호판 인식기 - Python, 이미지 프로세싱 따라하기 자동차 번호판 인식기 - Python, 이미지 프로세싱 따라하기¶Dependencies: Python numpy pytesseract OpenCV matplotlib Reference https://github.com/kairess/license_plate_recognition In [3]: import cv2 import numpy as np import matplotlib.pyplot as plt import pytesseract plt.style.use('dark_background') In [4]: # !pip3 install opencv-python In [5]: # !pip3 install pytesseract In [6]: img_ori = cv2.imread('./da..
Chapter1. 한눈에 보는 머신러닝 https://github.com/rickiepark/handson-ml2 핸즈온 머신러닝[2판]¶ PART 1 머신러닝¶ 1장 한눈에 보는 머신러닝¶ 2장 머신러닝 프로젝트 처음부터 끝까지¶ 3장 분류¶ 4장 모델훈련¶ 5장 서포트 벡터 머신¶ 6장 결정트리¶ 7장 앙상블 학습과 랜덤 포레스트¶ 8장 차원 축소¶ 1장. 한눈에 보는 머신러닝¶ 대부분 사람들은 '머신러닝 machine learning' 이란 말을 들으면 로봇을 떠올린다. 누구에게 묻는지에 따라 믿음직한 집사 로봇이나 살인 병기 터미네이터를 생각할 것이다. 하지만 머신러닝은 초현실 판타지가 아니고 이미 우리 주위에 있다. 사실 광학 문자 판독기 optical character recognition(OCR) 같은 특별한 몇 가지 애플리케이션..
WSL에 아나콘다(anaconda) 설치 이번 글에서는 WSL에 아나콘다(anaconda)를 설치하는 방법을 소개한다. 이전 글에는 'WSL 우분투 구축하기' 를 남겨 본적 있다. 그 글에는 ubuntu 18.04 버전으로 설치 했다. (이때는 anaconda 를 설치를 하지 않고 pip install 명령어로 필요할때마다 파이썬 패키지를 설치를 하며 진행했었다. 링크 참조) - WSL 우분투 구축하기 이제는 WSL에 아나콘다를 설치해서 사용하고자 한다. 아나콘다를 설치하면 데이터 분석에 필요한 패키지들을 한꺼번에 설치하는 장점이 있다. 또한 주피터 노트북도 설치가 된다. 저와같은 경우에는 이미 ubuntu 18.04 버전으로 설치를 한 적이 있기때문에, 환경이 꼬일수도 있기에 ubuntu 18.04 를 삭제 한 후, 다시 최신버전으로 설치를 ..
Chapter09.NLP(상품리뷰분석) 파이썬을 활용한 이커머스 데이터분석_강의를 듣고 따라했던 코딩과 요점을 정리하였다. 출처: fast campus Chapter.09 상품 리뷰 분석 (NLP)¶분석의 목적¶ Word Cloud를 통해 중요 단어 확인 Naive Bayses 모델을 통해 리뷰의 별점 예측 Data: Yelp Review In [1]: #!pip3 install nltk In [2]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns In [3]: data = pd.read_csv('./data/yelp.csv', index_col = 0) #index_col = 0 0번째 컬럼을 인덱스러 넣는다..