텍스트 마이닝(Text Mining)¶
텍스트 마이닝은 자연어처리(Natural Language Processing)기술에 기반하고 있다. 인간의 말은 각 언어별로 어휘적, 문법적 독특성이 있을뿐 아니라, 그 표현의 형태가 매우 다양하고 복잡하다. 그래서 일괄된 규칙으로 규정하기 힘든 경우가 많다. 인간 언어 중 문자로 표현된 언어를 컴퓨터로 분석 처리하고 그 구조와 의미를 이해하고자 하는 기술이 바로 자연어처리 기술이다. 언어가 가진 복잡성 때문에 아직도 도전적 목표가 많이 남아 있는 기술 분야이다.
텍스트 마이닝은 한마디로 비정형 텍스트 데이터에서 가치와 의미가 있는 정보를 찾아내는(Mining) 기술이라고 할 수 있다. 사용자는 텍스트마이닝 기술을 통해 방대한 정보 뭉치에서 의미있는 정보를 추출하고, 다른 정보와 연계성 파악, 텍스트가 가진 카테고리를 찾아내는 등, 단순한 정보 검색 그 이상의 결과를 얻어낼 수 있다.
텍스트 마이닝에서 현재 다뤄지고 있는 주요 기술분야는 아래와 같다.
문서분류(Document Classification)
문서 군집(Document Clustering)
통상의 문서군집 기술은 대상 문서의 언어학적 분석을 통해 차별화된 중요 특성들을 추출해 내고, 이를 다른 문서의 특성들과의 비교(유사도 계산)하여 그 유사도가 높은 문서들을 상호 묶어주는 방식으로 구현한다.
정보 추출(Infomation Extraction)
정보추출은 텍스트 문서내에서 중요한 의미를 가지는 정보들을 자동으로 추출해 주는 기술이다.
- 문서요약(Document Summarization)
자동문서요약 기술은 문서가 담고 있는 핵심 의미를 유지하면서 그 복잡도와 길이를 효과적으로 줄여주어 각 사용자가 짧고 간단한 요약 문장을 파악함으로서 빠르게 정보를 이해하고 활용 할 수 있도록 돕기 위한 기술이다.
텍스트마이닝은 데이터마이닝(Data Mining)과는 다른 분야이다.데이터마이닝은 구조화되고 사실적인 방대한 데이터베이스에서 관심있는 패턴을 찾아내는 기술분야라고 본다면, 텍스트마이닝은 구조화되지 않고 자연어로 이루어진 텍스트에서 의미를 찾아내는 기술 분야이다.
- 데이터마이닝의 전형적인 사례는 "특정 물건을 선반의 어느 위치에 진영할 때 가장 많이 팔리는가" 등의 소비자 패턴 조사 등에서 흔히 볼 수 있다.
- 텍스트마이닝의 쉬운 사례 "페이스북, 트위터와 같은 SNS에서 언급되는 내용과 빈도들을 가지고 실제로 개봉한 영화가 얼마나 흥행할지를 예측하는 내용"
'이항 주가 데이터를 매일 DB 로 수집' 카테고리의 다른 글
Docker를 사용한 Dash 생성 (0) | 2021.06.03 |
---|---|
도커(Docker) 란 무엇인가? - 쉬운 개념 및 이해 (0) | 2021.06.03 |
RDS 개념 / EC2 와 차이 (AWS) (0) | 2021.05.15 |
sqlite3 -DB의 가장 기초적인 단계 (0) | 2021.05.11 |
crontab_크론탭 (파이썬 코드 스케줄러) (0) | 2021.05.09 |