언어의 모호성과 해결 방법, NLP 기술의 발전사 본문
** 제대로 된 언어적 발화(linguistic utterance)를 해석하기 위해서는 다음과 같은 다양한 지식이 필요하다
* Syntax
> agent는 동사의 주어이더라는 제약조건이 있다.
* Semantics
> Austin 은 도시 이름, 혹은 사람 이름일 수도
> 소나타는 음악 형식뿐만이 아니라 자동차 브랜드인 경우도 있다.
* Pragmatics
* World Knowledge
> credit card 에 대한 내용에서 interest란 이자일 수도
> agents는 animate , 의지가 있다. 반면 의지가 있을 수 없는 경우에 대한 제약
1) Manual Knowledge acquisiton
전통적인, rationalist적인 접근. 인적 자원으로 일일이 언어처리에 필요한 룰을 만들고 formalize 하는 것.
굉장히 어렵고, 시간이 많이 걸리고, 오류가 많다
" All grammers leak " : Edward Sapir ( 1921 )
돈이 많이 들고 , 로버스트 하지 못해서 유연한 언어 체계에 대응하기 매우 힘들었음.
+
+
+
2) Automatic Learning Approach
기계학습 방법으로 접근함. appropriately annotated text corpora , 즉 적절히 품사나 의미를 매겨놓은 텍스트 말뭉치를 가지고 학습.
corpus based, statistical, empirical approach 라고 말하기도 한다
원래 통계적 접근은 1970년대 음성인식에서 주로 이루어져 왔으나,
자연어 처리는 90년대부터 많이 시도하기 시작함
당시 도입된 모델들은 다음과 같음
베이지안 분류기
은닉 마르코프 모델
최대 엔트로피 모델
Probabilistic Context Free Grammars ( PCFG )
SVM, CRF 등
3) DNN을 이용한 NLP ( 2000, 2010 ~ )
RNN, LSTM
Word Embedding with Word2Vec ( 단순하게 단어들을 벡터화 ).
Seq2seq model ( encoding <-> decoding model ).
Pre-trained language model : BERT, RoBERTa, GPT3 ( 사전학습 )
'딥러닝 > 자연어처리' 카테고리의 다른 글
Grammars and Parsing (0) | 2022.03.23 |
---|---|
N-gram model과 등장 배경 (1) (0) | 2022.03.23 |
ML/DL NLP에서의 접근 방법 (0) | 2022.03.02 |
Linguistic Rules와 자연언어처리의 어려움 (0) | 2022.03.02 |
자연어 처리 intro (0) | 2022.03.02 |