MJay
Applied Natural Language Processing - 3주차 본문
Applied Natural Language Processing
Feature Selection TI.IDF Term weighting Term Normalization에 대해서 알아보자
Text를 Categorize할때 신경써야 할 부분이 있다.
일단 언어적인 표현이다.
Words 도 대문자가 있고 소문자가 있기 때문에 신경써줘야하고
또한 복수 texts 같은 건 text로 바꾸면 된다.
Word-level n-grams 은 뭘까
간단하게 말해서 입력한 문자열을 N개의 기준 단위로 절단하는 방법이다.
나누는 기준은 한 글자가 될수 있고 단어가 될 수 있다.
이 외등등 구두법도 따져야한다.
beside there are another things to consider.
non-linguistic features for example how the document is formed is one of the issues
왜 Feature Selection을 하냐
왜냐면 모든 단어를 다루는걸 너무 크기 때문이다.
좋은 feature로 좋은 result를 내는게 좋기 때문이다
Feature도 좋은 것만 골라야한다.
자주 쓰이지 않고 반대로 너무 많이 쓰이는 단어는 feature로 추출하기에는 좋지 않다.
그것보단 특정한 카테고리에서 일어나는 단어가 더 좋다
Feautre Selection하는 방법은 3가지가 있다.
Eliminating features -> feature을 제거하거나
Weighting features -> feature에 값을 더해주기
Normalizing features —> feature을 정규화시켜주기
방법은 어떤 문제에 따라 바뀐다
예로 들면 일에 독립적인 방법은
DF를 쓴다. Term Strength (TS) ->
Task에 의존하는 방법은
Information Gain
Mutual Information
x2 statistic(CHI)
Document Frquency는 어떤 x라는 term이 몇개의 문서에서 나타나는것이다
Zip’s law에 입각한다
여기서 rare terms는 쓰지 않다 별로 도움이 되지 앟는 term을 쓸 필요는 없다.
장점은 Task indepent이다. 어떤 일을 하든지 이건 독립적으로 구할수있기 때문이다
X 2 static - kai square라고 불린다.
Mutual Information이라는 것도 있는데 차이점은 x2 statistics과 다르게 D는 쓰지 않는 다는 것이다.
'Cloud Computing > NLP' 카테고리의 다른 글
Word2Vec (0) | 2017.05.16 |
---|---|
웹정보처리응용 2017년 4월 6일 목요일 오후 1:49 (0) | 2017.04.09 |
EUC-KR , Unicode, UTF-8, UTF-8에 대해서 (0) | 2017.03.30 |
웹 정보 처리 응용 (2주차) (0) | 2017.03.15 |
1주차 웹 정보 처리와 응용 (0) | 2017.03.02 |