전체 글 (95) 썸네일형 리스트형 Text Mining 개념 텍스트 마이닝(Text Mining)¶텍스트 마이닝은 자연어처리(Natural Language Processing)기술에 기반하고 있다. 인간의 말은 각 언어별로 어휘적, 문법적 독특성이 있을뿐 아니라, 그 표현의 형태가 매우 다양하고 복잡하다. 그래서 일괄된 규칙으로 규정하기 힘든 경우가 많다. 인간 언어 중 문자로 표현된 언어를 컴퓨터로 분석 처리하고 그 구조와 의미를 이해하고자 하는 기술이 바로 자연어처리 기술이다. 언어가 가진 복잡성 때문에 아직도 도전적 목표가 많이 남아 있는 기술 분야이다. 텍스트 마이닝은 한마디로 비정형 텍스트 데이터에서 가치와 의미가 있는 정보를 찾아내는(Mining) 기술이라고 할 수 있다. 사용자는 텍스트마이닝 기술을 통해 방대한 정보 뭉치에서 의미있는 정보를 추출하고,.. Chapter2.1_웹크롤링으로 기초 데이터 수집하기 Github: yoonkt200 Chapter02 텍스트 마이닝 첫걸음¶ 이장의 핵심개념 웹 크롤링으로 데이터를 수집한다 키워드 추출의 방법을 알아본다. 키워드 간의 연관 관계를 분석한다. 텍스트 분석 결과를 시각화 한다. 2.1 웹 크롤링으로 기초 데이터 수집하기¶이번 절에서는 '나무위키 최근 변경 페이지'의 텍스트 데이터르 웹 크롤링 Web Crawling 으로 수집한 다음, 데이터 내에서 등장한 키워드의 출현 빈도를 분석해 보겠다. 이를 통해 우리는 나무위키 페이지에서 현재 가장 '핫한'키워드가 무엇인지 분석할 수 있다. 웹 크롤링 혹은 웹 스크래핑 Web Scraping은 인터넷에 있는 웹페이지를 방문해서 페이지의 자료를 자동으로 수집하는 작업을 의미한다. 여기에선 파이썬으로 웹 크롤링을 진행하겠.. KoNLPy _ "코엔엘파이" KoNLPy "코엔엘파이" 파이썬 한국어 NLP¶ 우리는 KoNLPy의 설치 방법과 간단한 예를 남겨보려 한다. NLP란? (Natural Language Processing, 자연어처리)의 준말이며, 텍스트레서 의미있는 정보를 분석, 추출, 이해 하는 기술집합. 우리 일상에서도 쉽게 응용사례를 볼 수 있다. 대화 시스템(Apple Siri) 기계 번역(Google Translate) 대통령연설 내용 분석 또한 텍스트마이닝.. KoNLPy (코엔엘파이) : 대표적인 한국어 형태소 분석기 [자연어처리]¶크롤링하여 간단한 정규 표현식으로 필터링 한 데이터를 어떻게 처리해서 사용할까? (BeautifulSoup 모듈을 통해 웹 페이지 크롤링 하는 방법이 있다.) 수 많은 데이터를 공백이나 엔터를 기준으로 여러.. Chapter 02 데이터 다루기 (훈련세트와 테스트 세트 / 데이터 전처리) (https://bit.ly/hg-02-2) Chapter 02 데이터 다루기 (수상한 생선을 조심하라!)¶ 학습목표 머신러닝 알고리즘에 주입할 데이터를 준비하는 방법을 배운다. 데이터 형태가 알고리즘에 미치는 영향을 이해한다. 02-1 훈련 세트와 테스트 세트¶ 핵심키워드 지도학습, 비지도 학습, 훈련세트, 테스트 세트 지도 학습과 비지도 학습의 차이를 배운다. 모델을 훈련시키는 훈련 세트와 모델 평가하기 위한 테스트 세트로 데이터를 나눠서 학습해본다. 지도 학습과 비지도 학습¶머신러닝 알고리즘은 크게 지도 학습 supervised learning과 비지도 학습 unsupervised learning 으로 나눌 수 있다. 지도 학습 알고리즘은 훈련하기 위한 데이터와 정답이 필요하다. '마켓과 러닝머신'.. RDS 개념 / EC2 와 차이 (AWS) EC2의 간단한 개념 및 시작하는 방법 은 블로그를 통해 기록한 바 있다. 아래를 참고하면 된다. - 미래를위한취미(aws ec2 서버 구축) 우리가 궁금한 것은 RDS이기때문에 AWS EC2는 간략하게만 남겨본다. AWS - 아마존 일래스틱 컴퓨트 클라우드(Amazon Elastic Compute Cloud, EC2) - 쉽게 생각해서 한대의 컴퓨터를 임대해주는 것이라고 생각하면 된다. 가상 컴퓨터를 임대 받아 그 위에 자신만의 컴퓨터 애플리케이션들을 실행 할 수 있게 함. - 사용자가 아마존 머신 이미지(AMI)로 부팅하여 아마존이 "인스턴스"라 부르는 가상 머신을, 원하는 소프트웨어를 포함하여 구성할 수 있게 하는 웹 서비스를 제공함으로써 스케일링이 가능한 애플리케이션 배치(deployment)를 .. XGBoost 개념 이해 현존 머신러닝 모델중 가장 우월한 XGBoost 모델¶XGBoost에 대해 알아보자¶ Boosting 이란? 여러 개의 약한 의사결정나무(Decision Tree)를 조합해서 사용하는 앙상블(Ensemble) 기법 중 하나 즉, 약한 예측 모형들의 학습 에러에 가중치를 두고, 순차적으로 다음 학습 모델에 반영하여 강한 예측모형을 만든다. XGBoost 란? XGBoost는 Extreme Gradient Boosting의 약자이다. 해석하면 극한 변화도(경사도) 부스팅 Boosting 기법을 이용하여 구현한 알고리즘은 Gradient Boost 가 대표적 이 알고리즘을 병렬 학습이 지원되도록 구현한 라이브러리가 XGBoost 이다. Regression, Classification 문제를 모두 지원하며, 성.. kaggle_titanic_XGBoost 추가 타이타닉 호에서 탑승했던 사람들의 정보를 바탕으로 생존자 가려내기¶타이타닉의 생존자 그룹과 비생존자 그룹을 0~4단계 Step으로 살펴보자. 입문자용으로 쉽게 접근 할 수 있도록 작성해보았다. 본 커널은 다음 참고자료를 통해 구성해 보았다. kaggle 제출하는 목적도 포함이기 때문에 제출하는 방법도 출처를 남겼습니다. 책(이것이 데이터 분석이다 with 파이썬) Chapter 4 . titanic 생존자 가려내기 [수비니움의 캐글 따라하기] 타이타닉 : Beginner Ver. [skyepodium.log] 캐글은 처음이라 kaggle 제출법 Step 0 도메인 지식 : 분석하기에 도움을 주는 도메인 지식을 간단히 살펴본다. Step 1 탐색: 타이타닉 데이터 살펴보기 (생존에 영향을 주는 피처 시각화.. Chapter01. 인공지능과 머신러닝, 딥러닝 / 마켓과 머신러닝 생선예제 (https://bit.ly/hg-01-3) Chapter 01. 나의 첫 머신러닝¶ 학습목표 인공지능, 머신러닝, 딥러닝 차이점을 이해한다. 구글 코랩 사용법을 배운다. 첫 번째 머신러닝 프로그램을 만들고 머신러닝의 기본 작동 원리를 이해한다. 01-1 인공지능과 머신러닝, 딥러닝¶이번 절에서는 인공지능, 머신러닝, 딥러닝이 무엇인지 알아보고 그 차이를 살펴본다. 인공지능이란 인공지능(artificial intelligence)은 사람처럼 학습하고 추론할 수 있는 지능을 가진 컴퓨터 시스템을 만드는 기술이다. 인공지능의 역사는 약 80년 남짓 되었지만 인류는 훨씬 더 오래전부터 지능적인 시스템을 생각했다. 많은 과학자가 참여한 1956년 다트머스 AI 컨퍼런스에서는 인공지능에 대한 장밋빛 전망이 최고조.. 이전 1 2 3 4 5 6 7 8 ··· 12 다음