MJay
1주차 웹 정보 처리와 응용 본문
1주차라서 짧게 설명하셨다. 4차 혁명의 핵심은 AI 와 BigData 와 Machine Learning이다.
자연어 처리도 빅 데이터 분석이랑 머신러닝 기법 을 쓴다. ->
자연어 처리
아래서부터 보면 국어기초자료가 있다. 보면 언어사전 태그부착 말뭉치, 형태소분석 등등 거의 기초자료가 많다.
위로 올라가면 국어처리기술 및 관리체계가 있다. 형태소 분석을 하고 개체명 인식을 한다. 개체명 인식이란 Name Identity 를 뜻한다
예로 들면 Obama, Trump이 있다. 개체명이 장소인지 이름인지도 인식하는게 개체명 인식이다.
예로 들면 KookMin(Location , Name) 이 2가지 의미가 있을 수 있는데 국민대에서 밥을 먹었다는 건 장소를 뜻하고 국민대학교의 위치는 국민대학교 라는 이름을 뜻한다
영어는 개체명인식이 쉽다고 한다. 처음이 대문자로 시작하기 때문이다.
자연어처리의 기본은
형태소 분석
구문 분석
의미 분석
자연어 생성
언어자원이 있다.
NLP를 통해 할 수 있는건 넘친다. 아이폰 시리 , 문법 검사기가 대표적인 예이다
그 다음 빅데이터 소개를 했다. 기본적인 내용이라서 넘어간다. 여기서 내가 하는 분야는 빅데이터 구축에 가깝다고 본다. 빅데이터 활용은 김혁만 교수님께서 하시는 데이터 시각화라고 보면 된다.
빅데이터로 인한 미래는 넘친다. 핸드폰에 모든 정보가 저장되는 걸 넘어서
Smart Bacteria , 생명공학으로 유전자 조작이 가능하는 시대도 온다고 한다.
여기까지가 4차 산업 혁명의 기술들을 보여주는 예이다
Hinton은 Deep Learning의 대가이다
Deep Learning 의 장점은 1. Dimensionality를 줄일수있다.
2. Backpropagation Algorithm이다
원래 힌튼은 image classification이 Deep Learning의 주목적이였다고 한다
딥러닝의 기본은 CNN을 통해 이미지를 분석하고 Language는 RNN를 통해 생성한다고 한다.
RNN을 통해 HandWriting을 하는 예제이다
RNN을 통해 Folk Generation by RNN Deep Learning은 분류 , 생성, 요약을 잘한다고 한다.
딥러닝과 자연어 처리는 어떻게 이어질수있을까?
Word2Vec가 있다. Jefferey Dean이라는 사람이 Efficient Estimation of word representations in vector space라는 논문이 썻고 여기서 Word2Vec이 등장했다.
몇백개의 워드를 vector space로 표현했다. 표현해보니 비슷한 애들끼리 모아져있다는 것이다.
이를 통해서 Word 분석이 가능하다고 한다.
딥러닝을 하는 여러가지 Tools가 있다. 유명한 Theano ,Caffe 가 있다. 제가 참여했던 논문에도 Theano, Caffe가 있습니다
TensorFlow Google은 말할 필요도 없고
여기까지 배웠다. 나중에 또 배우면 업데이트할 예정이다
'Cloud Computing > NLP' 카테고리의 다른 글
Word2Vec (0) | 2017.05.16 |
---|---|
웹정보처리응용 2017년 4월 6일 목요일 오후 1:49 (0) | 2017.04.09 |
EUC-KR , Unicode, UTF-8, UTF-8에 대해서 (0) | 2017.03.30 |
Applied Natural Language Processing - 3주차 (0) | 2017.03.23 |
웹 정보 처리 응용 (2주차) (0) | 2017.03.15 |