MJay

웹 정보 처리응용 정리해보기 본문

Cloud Computing/NLP

웹 정보 처리응용 정리해보기

MJSon 2017. 6. 7. 23:49

NLP

인간이 쓰는 언어 현상을 기계적으로 분석해서 컴퓨터가 이해할 수 있는 형태로 만드는 자연 언어 이해 혹은 그러한 형태를 다시 인간이 이해할 수 있는 언어로 표현하는 기술이다.


Text Mining

비정형 데이터 마이닝의 방법이다. 비정형 데이터를 문서 처리기술과 자연어 처리 기술을 사용하여 유용한 정보를 추출하고 가공하는 기술이다.



Machine Learning

인공 지능의 한 분야로 컴퓨터가 학습할 수 있도록 알고리즘과 기술을 개발하는 분야이다.

NLP에서 쓰이는 ML은

kNN, Naive Bayes, SVM, CRF++ , Neural Network, HMM, MEMM이 있다.


Deep Learning
  
인간의 두뇌를 모방하여 데이터를 처리하고 의사결정에 사용되는 패턴을 만드는 인공지능 기능이다.

CNN, RNN 등이 음성인식 자연어처리에 쓰인다.

종류로는 Supervised Learning (Classification,Decision Tree) , Unsupervised Learning( Clustering)이 있다.

한국어 처리 하는 방법

형태소 분석을 하고 개체명 인식을 한다

자연어 처리의 기본은

형태소 분석 -> 구문 분석 -> 의미 분석

Feature Selection

가장 좋은 성능을 내기 위해 데이터의 부분집합을 원본데이터에서 찾아내는 방법이다.

필요없는 feature는 지우고, 중요한 Feature에 더 무게를 주고, Feature을 정규화시켜주는 과정이다

방법은 Task independent Method가 있다.  Document Frequency , Term Strength가 있다.

Task-dependent 방법으로는 Information Gain, Mutual Information, CHI 방법이 있다.

Feature Extraction

원본 특징 조합으로 새로운 특징을 생성하는 것이다.

Term Weighting

TF - Term Frequency이다.  

IDF - Inverted document frquency이다

TF.IDF를 하면 서로 곱해준다


Stemming  

normalize to psuedoword로 정규화시켜주는 방법이다.

Lemmatization

Root Form으로 변환시켜주는 것이다.

Zip’s Law

가장 많이 쓰이는 the를 1로 보면 2번째로 쓰이는 of의 빈도는 1/2이고 3번째로 쓰이는 and의 빈도는 1/3입니다. 1위의 빈도를 1로 볼때 ,  n번째 랭크에 있는 단어의 빈도를 1/n로 되는 법칙입니다.

Heap’s Law



X축은 코퍼스 사이즈고 , Y축은 코퍼스 내에 출현한 단어의 종류이다

코퍼스 사이즈가 10배 는다고 출현한 단어의 종류가 10배로 느는 게 아니라 로그 함수로 는다는 거다.

Link Analysis Algorithm

모든 웹페이지에서 있는 연결고리를 찾는 알고리즘이다.

PageRank Algorithm

웹에서 이 페이지가 얼마나 중요한지 보여주는 알고리즘이다.

Stemming

단어 대신 어간으로 저장하여 파일의 크기를 줄이는 방법이다. 정보검색에 많이 사용된다.

접사를 제거하거나 n-gram으로 나타내는 방법이 있다.


n-gram

문자열을 N값으로 나누어 통계학적으로 사용하는 방법이다.

구체적인 사례를 통해 공통점을 추출하는 귀납 학습방법이다. 음성인식에서도 사용된다고 한다.

기계학습이라는 단어를 2-gram으로 나누면 ‘기계’ ‘계학’ ‘학습’
이라는 3가지 하위 문자열들이 각각 빈도수로 1로 생성된다.

이  출현 빈도를 사용하여 키워드를 뽑아내는 용도로 사용될 수 있다. 

이렇게 용어들을 만들어서 관련성 척도를 계산한다고 한다.


Similarity measure

단어 한 쌍에 대한 unique biagram을 기초로 유사도를 계산하는 방법이다


Word Embedding

하나의 단어를 벡터 공간상의 한 점으로 나타내는 표현법이다.

오디오와 이미지와 달리 인코딩된 벡터로 뽑아내기 어려운 텍스트를 처리하는 방법이다.


Word2Vec

Word Embedding이랑 비슷하게 단어의 의미를 벡터형태로 나타내는 방법이다. 이를 통해
단순한 표현 이상으로 추론도 가능하게 해준다

CRF(Conditional Random Field)

일반적으로 Classifier가 이웃하는 표본을 고려하지 않고 단일 표본의 라벨을 예측하는 반면, CRF는 이웃하는 표본을 고려하여 예측하는 통계적 모델링 방법의 하나로 패턴 인식과 기계 학습과 같은 구조적 예측에 사용된다.
자연 언어 처리 분야에서 자주 사용된다.

Tensorflow

구글 제품에 사용되는 Machine Learning을 위한 오픈 소스 소프트웨어 라이브러리다. 수치 연산을 기호로 표현한 그래프 구조를 만들고 처리하기 위해 구현되어있다.

SVM


두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, SVM 알고리즘은 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 Binary Linear Classifier Model을 만든다. 

이를 통해 데이터가 공간에서 경계로 표현되는데 그 중 가장 큰 폭을 가진 경계를 찾는 알고리즘이다.

기계 학습의 분야로 패턴인식을 위한 지도 학습 모델이다. 


POS Tagging

한글 형태소의 품사를 체언,용언, 주어 등등으로 나누고 각 세부 품사를 구분해주는 작업이다.

가방에 들어가신다. -> 가방 에 들어가 시 다



HMM

관찰 가능한 결과와 관찰이 불가능한 은닉된 상태로 이루어진 모델이다

관찰 가능한 결과들은 은닉된 상태로부터 마르코프 특성에 의해 확률적으로 유도

되기 때문에 마르코프 모델에 Hidden을 붙여 HMM이라고 한다. 

필기 인식, 품사 태깅 등과 같이 시간에 따라 상태가 변하는 시스템의 패턴을 인식하는 작업에 많이 이용되고 있다.

MEMM

기계 학습에서 MEMM은 HMM모델에 최대 엔트로피 모델의 기능을 결합한 그래픽 모델이다. MEMM은 학습 할 알려지지않은 값이 조건부로 독립적 인 것이 아니라 마르코프 연쇄로 연결되어 있다고 가정하여 표준 최대 엔트로피 분류기를 확장한 모델이고 품사 태깅에 사용된다.



RNN

순환 신경망은 인공신경망을 구성하는 유닛 사이의 연결이 Directed cycle인 신경망이다.


CNN

심층 신경망이라고 입력층과 출력층 사이에 여러 개의 은닉충들로 이뤄진 인공신경망 중 합성곱 신경망으로 구성된 딥러닝 유형이다.


Naive Bayes

문서를 여러 범주 중 하나로 판단하는 문제이다.

특성들 사이의 독립을 가정하는 베이즈 정리를 적용한 확률 분류기의 일종

트레이닝을 할 데이터가 많지 않아도 분류를 잘 해준다.

복잡한 상황에서도 잘 작동한다.



page rank


서로 간에 인용과 참조로 연결된 임의의 묶음에 적용한 것으로, 월드 와이드 웹과 같은 하이퍼링크 구조를 가지는 문서에 상대적 중요도에 따라 가중치를 부여하는 방법이다. 더 중요한 페이지는 더 많은 다른 사이트로부터 링크를 받는다는 관찰에 기초하고 있다.
    

'Cloud Computing > NLP' 카테고리의 다른 글

웹 정보 처리응용 정리해보기  (0) 2017.06.19
POS Tagging 정리  (0) 2017.05.19
Word2Vec  (0) 2017.05.16
웹정보처리응용 2017년 4월 6일 목요일 오후 1:49  (0) 2017.04.09
EUC-KR , Unicode, UTF-8, UTF-8에 대해서  (0) 2017.03.30