MJay

Applied Natural Language Processing - 3주차 본문

Cloud Computing/NLP

Applied Natural Language Processing - 3주차

MJSon 2017. 3. 23. 19:40
Applied Natural Language Processing




Feature Selection TI.IDF Term weighting Term Normalization에 대해서 알아보자



Text를 Categorize할때 신경써야 할 부분이 있다.

일단 언어적인 표현이다. 

Words 도 대문자가 있고 소문자가 있기 때문에 신경써줘야하고

또한 복수 texts 같은 건 text로 바꾸면 된다.

Word-level n-grams 은 뭘까

간단하게 말해서 입력한 문자열을 N개의 기준 단위로 절단하는 방법이다.



나누는 기준은 한 글자가 될수 있고 단어가 될 수 있다.

이 외등등 구두법도 따져야한다.

beside there are another things to consider. 

non-linguistic features for example how the document is formed is one of the issues




왜 Feature Selection을 하냐

왜냐면 모든 단어를 다루는걸 너무 크기 때문이다.

좋은 feature로 좋은  result를 내는게 좋기 때문이다




Feature도 좋은 것만 골라야한다.

자주 쓰이지 않고 반대로 너무 많이 쓰이는 단어는 feature로 추출하기에는 좋지 않다.

그것보단 특정한 카테고리에서 일어나는 단어가 더 좋다


Feautre  Selection하는 방법은 3가지가 있다.

Eliminating features   -> feature을 제거하거나

Weighting features   ->  feature에 값을 더해주기

Normalizing features   —>    feature을 정규화시켜주기

방법은 어떤 문제에 따라 바뀐다


예로 들면 일에 독립적인 방법은

DF를 쓴다.  Term Strength (TS) ->  

Task에 의존하는 방법은

Information Gain

Mutual Information

x2 statistic(CHI)



Document Frquency는  어떤 x라는 term이 몇개의 문서에서 나타나는것이다

Zip’s law에 입각한다

여기서 rare terms는 쓰지 않다 별로 도움이 되지 앟는 term을 쓸 필요는 없다.

장점은  Task indepent이다. 어떤 일을 하든지 이건 독립적으로 구할수있기 때문이다





X 2 static - kai square라고 불린다. 



Mutual Information이라는 것도 있는데 차이점은 x2 statistics과 다르게 D는 쓰지 않는 다는 것이다.