KoNLPy "코엔엘파이" 파이썬 한국어 NLP¶
- 우리는 KoNLPy의 설치 방법과 간단한 예를 남겨보려 한다.
- NLP란? (Natural Language Processing, 자연어처리)의 준말이며, 텍스트레서 의미있는 정보를 분석, 추출, 이해 하는 기술집합.
- 우리 일상에서도 쉽게 응용사례를 볼 수 있다.
- 대화 시스템(Apple Siri) 기계 번역(Google Translate)
- 대통령연설 내용 분석 또한 텍스트마이닝..
KoNLPy (코엔엘파이) : 대표적인 한국어 형태소 분석기 [자연어처리]¶
크롤링하여 간단한 정규 표현식으로 필터링 한 데이터를 어떻게 처리해서 사용할까? (BeautifulSoup 모듈을 통해 웹 페이지 크롤링 하는 방법이 있다.) 수 많은 데이터를 공백이나 엔터를 기준으로 여러 개의 토큰으로 나누고, 필요 없는 데이터를 제거하고, 필요한 데이터들을 추출해내는 행위를 데이터 전처리 (Data Processing)이라고 하는데, 데이터를 가공하는 과정중에 하나이다. 데이터를 전처리하는 단계 중 자연어를 처리하는 것은 기본적이고 필수사항이다.
KoNLPy는 파이썬 프로그래밍 언어로 사용할 수 있도록 만들어졌는데, 그것은 파이썬이 간결하고 우아한 문법구조, 강력한 스트링 연산 기능을 가지고 있을 뿐 아니라 크롤링, 웹프로그래밍, 그리고 데이터 분석을 수행할 수 있는 다양한 패키지를 사용할 수 있는 언어이기 때문이다.
- 자연어 처리 방법 중 데이터의 형태소를 분석하고 추출해내고자 한다.
- 형태소로 나눈다면 크게 명사, 동사, 형용사, 부사, 조사, 접사, 관형사, 어미 ... 등등으로 나뉜다.
- 한국어를 처리 할때는 대체로 KoNLPy(코엔엘파이) 라이브러리를 많이 사용한다.
- Korean Natural Language Processing in Python의 준말.
- 단점:
- 자바 기반으로 python 개발자의 경우 설치시 jdk 설치, visual studio설치, wheel 설정 등의 에러 발생 가능성이 높다.
- 사용자 사전 등록시 형태소 분석이 될 때가 있고 아닐 때도 있다고함.
- 장점:
- 내부에 twitter, Kkma, hannanum, komaran 형태소 분석기 사용 가능
In [13]:
# $ sudo apt-get install g++ openjdk-7-jdk # Install Java 1.7+
# $ sudo apt-get install python-dev; pip install konlpy # Python 2.x
# $ sudo apt-get install python3-dev; pip3 install konlpy # Python 3.x
간단한 예¶
In [29]:
from konlpy.tag import Kkma
from konlpy.utils import pprint
In [30]:
kkma = Kkma()
pprint(kkma.sentences(u'네, 안녕하세요. 반갑습니다.'))
['네, 안녕하세요.', '반갑습니다.']
In [41]:
pprint(kkma.nouns(u'질문이나 건의사항은 블로그에 남겨주세요.'))
['질문', '건의', '건의사항', '사항', '로그']
In [36]:
resume = "코로나 이후에 세상은 급격하게 변하고있으며, 대면 시스템에서 비대면 시스템으로 변화하고 있으며 IT의 중요성이 점차 커지고 있다."
In [37]:
pprint(kkma.nouns(resume))
['코로나', '이후', '세상', '대면', '시스템', '변화', '중요성']
In [38]:
pprint(kkma.pos(resume))
[('코로나', 'NNG'), ('이후', 'NNG'), ('에', 'JKM'), ('세상', 'NNG'), ('은', 'JX'), ('급격', 'XR'), ('하', 'XSA'), ('게', 'ECD'), ('변하', 'VV'), ('고', 'ECE'), ('있', 'VXV'), ('으며', 'ECE'), (',', 'SP'), ('대면', 'NNG'), ('시스템', 'NNG'), ('에서', 'JKM'), ('비', 'XPN'), ('대면', 'NNG'), ('시스템', 'NNG'), ('으로', 'JKM'), ('변화', 'NNG'), ('하', 'XSV'), ('고', 'ECE'), ('있', 'VXV'), ('으며', 'ECE'), ('IT', 'OL'), ('의', 'JKG'), ('중요성', 'NNG'), ('이', 'JKS'), ('점차', 'MAG'), ('커지', 'VV'), ('고', 'ECE'), ('있', 'VXV'), ('다', 'EFN'), ('.', 'SF')]
'파이썬 예제' 카테고리의 다른 글
자동차 번호판 인식기 - Python, 이미지 프로세싱 따라하기 (0) | 2021.08.14 |
---|---|
소수 구하기 with 파이썬 (0) | 2021.05.12 |
파이썬 for문으로 구구단 프로그래밍 (0) | 2021.05.09 |