본문 바로가기

Linguistic Rules와 자연언어처리의 어려움 본문

딥러닝/자연어처리

Linguistic Rules와 자연언어처리의 어려움

jaegomhoji 2022. 3. 2. 20:01

** Morphology 

 

사전에는 복수형이 없고 기본적으로 단수형이 명시되어 있다. 원형을 찾아주어야 사전에서 엔트리를 연결한다. 

또, 규칙/불규칙 변화가 있다. 

영어에서의 morphology는 , to make a word plural, add "s" 

 

규칙 변화 + s , es , y -> ies 

dog -> dogs 

baby -> babies 

dish -> dishies

 

불규칙 변화 

goose -> geese 

child -> children 

 

** ambiguities 

 

word sense ambiguities :

FED -> federal agent 

interest -> 더 알고 싶은 느낌 ( 흥미 ) , 혹은 더 배우고 싶어하는 느낌 

 

Semantic interpretation 

ambiguities above the world level 

 

품사정보와 품사체계 태그 표준 ( 영어 ) LDC ( Lexical Data Consortium ) 의 기준을 표준처럼 사용 중임 

https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos

 

Penn Treebank P.O.S. Tags

31. VBP Verb, non-3rd person singular present

www.ling.upenn.edu

 

** 동사/명사 ambiguity 문제 예시 

 

억지로 번역해야 겠지만, 당연히 품사 태깅이 잘못될 경우 컴퓨터가 잘못 이해하는 것이고, 결과적으로 의미가 잘못된다.

 

** 언어는 진화한다 

Morphology 측면 , 신조어가 계속 생겨난다 

얼죽아, 썸타다 , cyberstalker 등 

 

Part-of-speech 측면 

예전에는 sort 가 명사로만 거의 사용됨 -> 형용사처럼도 사용됨 

i know that sort of men well. -> im sort of hungry 

 

언어는 한번 정립된 기준으로만 이해할 수 없다.

 

** Natural language is:
> Highly ambiguous at all levels : 품사, 구문, 의미, 담화 등 모든 단계에서 모호성이 존재. 이들이 중첩된다는 것은? 

> Complex and subtle : 위의 특성 처럼 매우 복잡한 체계  

> Fuzzy, probabilistic : 통계적 성질을 지니고 있으나, 매우 제각각임. 

> World knowledge 

> Social system of people interacting : 요구, 설득, 협박 등 다양한 상호작용 사례에 따라 대화 분위기가 다르다. 
> Evolving over time 

 

그럼에도 computer science 에서 궁극적인 목표는 인간의 말을 알아들어야 하기 때문에, 어려움에도 계속 진행해온 연구. 

'딥러닝 > 자연어처리' 카테고리의 다른 글

Grammars and Parsing  (0) 2022.03.23
N-gram model과 등장 배경 (1)  (0) 2022.03.23
ML/DL NLP에서의 접근 방법  (0) 2022.03.02
언어의 모호성과 해결 방법, NLP 기술의 발전사  (0) 2022.03.02
자연어 처리 intro  (0) 2022.03.02
Comments